본문 바로가기
다양한 분야의 잡다한 지식

오픈에이아이(Open AI)와 달리2(DALL-E 2)

by 허슬똑띠 2022. 4. 27.
728x90
반응형

 

계속 진보 중인 이미지 생성 인공지능

 

일론 머스크와 샘 알트만 등이 2015년 설립한 오픈에이아이(Open AI)는 얼마 전 달리2(DALL-E 2)를 출시해 큰 화제를 모았다. 샌프란시스코에 본사를 둔 오픈에이아이(Open AI)는 ‘더 안전한 인공지능 발전을 추구하는 것’을 목표로 하는 스타트업이다. 오픈에이아이는 인간처럼 글을 작성해 주는 GPT-3와 문장을 입력하면 자동으로 코딩으로 변환해주는 코덱스(Codex)를 선보여 주목을 받았고 지난해 글을 입력하면 자동으로 이미지가 생성해주는 달리를 선보였는데 이달에는 실제 작품과 같은 그림을 그리는 달리2를 내놓은 것이다.

(참고)

GPT-3는 생성적 사전학습 변환기 3(Generative Pre-trained Transformer 3)로서 OpenAI에서 만든 인공지능이다. 비지도(比指導) 학습과 생성적 사전학습(generative pre-training)기법, 변환기(transformer)를 적용하였다. 번역과 대화, 작문을 할 수 있으며 GPT-2에 비해 훨씬 인간이 쓴 글인지 기계가 쓴 글인지 구분하기 힘들다.

 

어떠한 주제가 문장으로 주어지면 이를 가지고 그림을 그려내는 행위는 지금까지 사람만 할 수 있는 일이었다. 하지만 Open AI가 DALL-E라는 모델을 공개함에 따라 이러한 생각은 완전히 뒤집혔다. DALL-E 2는 자연어 처리와 컴퓨터 비전을 결합하여 텍스트에서 이미지를 생성할 수 있는 AI 모델로, 어떤 텍스트가 주어져도 그것을 가지고 이미지를 만들 수 있는 모델이라고 한다. DALL-E라는 이름은 초현실주의 화가 살바도르 달리(Salvador Dali)와 로봇 애니메이션 속 로봇 캐릭터 윌-E(WALL-E)에서 영감을 받아 이름을 DALL-E라고 지었다고 한다.

 

달리의 뿌리 GPT-3이다. 달리가 그림을 잘 그리는 까닭은 1750억개 매개변수를 활용해 딥러닝을 한 GTP-3와 동일한 모델을 사용했기 때문이다. 글자를 인식하고 이미지를 생성하는데 1280개의 토큰을 활용한다고 하는데 토큰이란 개별 어휘의 한 기호이다. 예를 들어 알파벳은 26자이니 토큰이 26개이며 1280개 토큰이란 뜻은 1280개를 조합해 텍스트를 인식하고 이미지를 그린다는 뜻이다. 올해 1월 런칭하여 4월에 본격 선보인 달리2는 한 차원 더 업데이트 됐다. 달리1은 어디서 본 것 같은 그림을 그렸다면, 달리2는 매우 독창적이고 예술작품 같은 그림을 그린다. 또 캡션을 보다 더 정교하게 입력할 수 있다. 강아지를 넣을 위치까지 글로 입력을 하면 강아지 위치가 바뀐다고 한다. 또 빛 그림자 질감 또한 문자로 입력해 수정을 할 수 있다. 아울러 이미지 원본에서 영감을 받아 새롭게 그린다고 한다. 1년 만에 나온 달리2가 훨씬 발전한 이유는 사람들이 집어넣은 텍스트와 결과 값인 이미지를 인공지능이 학습했기 때문이라고 한다. 예를 들어 "모자를 쓰고 타이핑을 하는 원숭이"라고 입력을 한다면, 인공지능은 원숭이 그림을 먼저 불러오고 이어 모자의 위치(원숭이 머리 위)를 지운 뒤 모자를 그리고 원숭이 손앞에 있는 배경을 지우고 다시 노트북을 가져다 놓는 작업을 한다고 한다. 오픈에이아이에 따르면, 달리2는 달리1에 비해 4배나 더 높은 해상도로 작업을 할 수 있다고 한다. 또 얼마나 더 사실적인지 평가하고자 일반인들을 불러 달리1과 달리2가 그린 그림을 비교해달라고 했을 때 88.8%가 달리2가 더 사실적이라고 손을 들어줬다고 한다.

 

달리 같은 인공지능이 그림을 그릴 수 있는 이유는 GAN이라는 모델이 있기 때문이다. GAN은 Generative Adverserial Network의 약자인데 우리말로는 ‘생성적 대립 신경망’이다. 이미지 인공지능이라고 할 수 있다. 인공지능은 사실 사람의 눈이나 코가 어디에 있는지 모른다. 픽셀(점)의 RGB(색상)을 학습하면서 엄청나게 많은 공통점을 찾아내는 것이 GAN이다. 예를 들어 사람마다 눈의 위치는 다 다르겠지만 검정색 주변에 살색이 나타나면 '아하 여기가 눈이구나'하는 방식이라고 할까? 그러니까 이미지를 픽셀과 RGB로 인식을 하면서 평균적인 분포를 찾아낸다면 반대로 그림도 그릴 수 있는 것이다.

 

달리2는 이런 GAN을 기반으로 하고 있지만, 보다 획기적인 기술은 바로 클립(CLIP)이다. Contrastive Learning-Image Pre-training의 약자로 우리말로는 ‘대조 학습-이미지 사전 훈련’ 정도로 번역될 것 같다. 클립은 이미지와 텍스트를 동시에 학습하도록 돼 있다. 그래서 학습을 하면 할수록 텍스트와 유사한 그림을 그린다. 일반적으로 이미지를 딥러닝 하려면 상당히 많은 레이블을 입력해야하는데, 예를 들어 인공지능이 '얼굴'이라는 것을 인식하려고 한다면 얼굴이라는 꼬리표가 달린 이미지를 엄청나게 많이 보면서 학습을 해야 한다고 한다. 달리2의 알고리즘인 클립은 그럴 필요가 없이 텍스트와 이미지를 동시에 학습하기 때문에 ‘조랑말을 탄 소년’과 같은 보다 정교한 그림을 그릴 수 있다고 한다. GAN 모델에 클립이라는 새로운 인공지능 모델을 통해 사람의 언어를 보다 더 정확히 이해하고 그림을 그릴 수 있는 것이다.

 

마케팅 업계가 이를 도입하는 시도를 하고 있다. 로즈버드닷에이아이는 가상의 패션 모델을 만들어주는 인공지능을 선보였다. 그림 속 얼굴이 움직이면서 말을 할 수 있다면 어떨까? 로즈버드는 토킹헤드라는 앱을 내놓았는데 이미지 뿐 아니라 애니메이션까지 적용이 되는 기술이다. 런웨이에이엠엘은 동영상에 등장하는 인물만 살리고 배경은 제거하는 GAN 인공지능을 구독 서비스로 내놓았다. 반대로 배경만 남기고 인물도 살릴 수 있다. 이를 활용한다면 사람이 많은 해변에서도 마음껏 촬영하고 모델만 살리고 나머지는 지울 수 있을 것이다. 이를 활용해 게임이나 이커머스등에서 사용이 가능하다고 한다.

 

(기타 소견)

일부에서는 이미지 생성 인공지능이 아직 갈 길이 멀다고도 하지만, 이미 서비스로서 이미지 생성 기술을 활발해 지고 있는 것 같습니다. 달리2를 제작한 오픈에이아이의 경우 인공지능을 기업에 제공해 이미 수익을 내고 있기도 합니다. 달리2는 여전히 학습 중입니다.

또 이러한 인공지능은 비단 오픈에이아이 뿐은 아닙니다. 캐나다의 앨런연구소는 이미지와 텍스트 뿐 아니라 오디오까지 분석할 수 있는 시스템을 구축했습니다. 이러한 인공지능은 유튜브에 있는 수많은 영상 중에서 특정 소리를 감지해 추출할 수 있다고 합니다.

미래에 이러한 인공지능은 검색 엔진을 개선하고, 디지털 비서로 활동하며, 그래픽 아티스트 역할을 할 것이 분명하지 않을까요? 이미 구글은 구글렌즈를 통해 사진을 촬영하는 것만으로 검색을 할 수 있는 기능을 선보였습니다.

엔비디아는 최근 다양한 최첨단 기술 연구를 추진하고 있는데 중 제일 흥미로운 기술은 여러 사진을 혼합해 새로운 얼굴을 만드는 ‘스타일GAN’(StyleGAN) 제너레이터(Generator)입니다.

물론 아직 해결되지 않은 숙제도 있기는 합니다. 여전히 이러한 이미지 생성 인공지능은 편향적일 수 있거든요. 또 헛된 망상에 사로 잡힌 사람이 허위 인물을 생성해 사회적 혼란을 초래할 수 있고, 개인정보를 침해할 가능성이 있다는 우려는 그저 노파심에서만 나오는 이야기는 아닐 것입니다.

하지만 인류는 항상 이러한 염려를 덜어내고 지속적으로 기술을 진일보 해오지 않았던 가요? 이미지생성 기술이 어떻게 꽃을 피울지는 모르지만, 오늘날 인공지능이 확산되는 속도를 보면 분명 몇 년 후에는 이러한 이미지 생성 인공지능이 널리 퍼져 우리 사회전반에서 큰 역할을 담당하고 있을 것 같다는 생각이 듭니다.

 

(참고자료) 미라클레터

 

728x90
반응형

댓글