제782호 김예은⁄ 2024.10.24 16:17:24
오픈AI의 GPT-3.5(챗 봇), 달리3(DALL-E3, 이미지 생성)을 이어 영상 생성 부문에서 또 따른 인공지능(AI) 혁명을 불러올 소라(Sora, 영상 생성)가 올해 2월 세상에 공개됐다.
텍스트에서 이미지를 거쳐 영상으로 확장된 AI 모델의 발전을 두고 삼성증권은 AI가 멀티모달을 거쳐 AGI(Artificial General Intelligence, 범용인공지능)로 향하는 여정의 일부로 평가된다고 밝혔다.
AI가 산업혁명의 계보를 잇는 또 다른 혁명으로 평가되고, AGI 시대의 도래가 가속화되고 있는 이유는 무엇인가. 그 답은 생성형 AI의 발전 과정에서 찾을 수 있다.
생성형 AI는 컴퓨터가 기존의 프로그래밍 언어와 같은 원시 명령어가 아닌 자연어 처리(NLP), 즉 인간의 언어를 그대로 이해하고 처리할 수 있게 됐다는 데 의의가 있다. 유저가 직접 코딩을 수행하지 않더라도 프롬프트 상에서 자연어 지시만으로 확장된 업무를 수행할 수 있게 된 것이다. 구체적으로 텍스트, 이미지, 오디오 등의 새로운 콘텐츠를 생성할 수 있을 뿐 아니라, 게임 속 가상 공간과 소프트웨어 개발 업무 등도 자연어로 수행할 수 있게 하는 근본적 변화를 꾀하고 있다.
LLM(대형언어모델)에 기반한 생성형 AI는 GPT-4o와 달리3의 등장으로 또 다른 국면을 맞았다. 이들의 등장으로 모달리티간의 정보 교환을 통해 텍스트, 음성, 이미지, 영상 등 다른 양식의 데이터를 개별 모델로 동시에 처리할 수 있는 '멀티 모달'의 시대가 본격화됐기 때문이다.
모달리티는 텍스트 모달리티, 시각(이미지) 모달리티, 오디오 모달리티 등 정보나 데이터의 유형을 나타낸다. 각각의 모달리티가 하나로 융합된 모델이 등장한 것이 멀티 모달 시대의 시작이다. 멀티 모달 시대에서 기업들은 텍스트, 이미지 등의 각 모달리티를 개별 모델로 처리한 후 추론을 통해 융합하는 방식이 아니라, 처음부터 단일 모델에 이미지, 텍스트, 코드 등 다중 혼합 데이터를 훈련하는 초기 융합 방식을 채택하고 있다. 이를 통해 AI 모델의 응답시간(레이턴시)을 줄이고, 정보 소실 이슈를 해소할 수 있기 때문이다. 우리가 챗 GPT라는 동일한 프롬프트 하에서 텍스트 답변뿐 아니라 이미지 생성 역시 가능케 된 이유도 초기 융합 형태의 멀티 모달 기술에서 비롯됐다.
멀티모달에 이어 이제는 소라가 등장했다. 소라는 Text-to-Video 모델로, 모델 작동 방식은 단순하지만 단순한 영상 생성 모델 그 이상의 의미를 갖는다. 이 기술이 인공지능이 현실 속 물리 세계의 작동 방식을 ‘이해’하는 일종의 월드 시뮬레이터(simulator, 복잡한 작동 상황 등을 실제와 같이 재현하는 장치)로 기능하기 때문이다.
소라는 텍스트를 기반으로 새로운 영상을 만들어낼 수 있을 뿐 아니라 입력한 이미지나 비디오를 프롬프트로 편집해 출력도 가능한 고성능 멀티모달이다. 예를 들어 차량이 길을 지나가는 영상을 입력한 이후 프롬프트를 입력해 차량이 정글을 달리는 장면으로 바꾸는 영상 편집도 가능해진다.
인간은 오감을 활용해 세계를 인식하고 입력된 오감의 정보를 동영상의 형태로 뇌를 통해 실시간으로 처리하며 변화하는 세상을 이해하고 판단한다. 인간이 오감으로 입력된 영상을 기반으로 세계를 인식하듯, 인공지능이 텍스트 기반의 LLM을 너머 동영상을 기반으로 정보를 입력하고 학습한다는 것은 현실의 작동 방식을 인식하고 이해하는 단계로 나아간다는 것이다. 이 때문에 소라와 같은 영상과 통합된 고성능 멀티포달이 'AGI(범용인공지능)' 개발의 관문으로 평가받는 것이다.
이처럼 AI 관련 기술과 학습 능력이 급진적으로 향상되는 과정에서, 관련업의 대표 기업 수장들은 ‘높은 수준의 기계 지능(AGI)’이 실현 가능한 시점에 대해 급진적 전망을 내놓고 있다. 샘 알트만(2028 ~2029년), 일론 머스크(2026년 이내), 젠슨 황(2029년 이내) 등이 대표적이다.
광고 등 영상 산업 생태계 지각 변동 예고
소라의 등장은 산업 생태계에서 가장 먼저 지각 변동을 일으키고 있다. AI 에이전트 구현과 휴머노이드 로봇 적용을 통한 새로운 산업 기대감 이외에도 우리에게 친숙한 산업을 혁신시킬 변화가 이미 진행되고 있기 때문이다.
소라는 프롬프트(명령어)로 최대 1분 이내의 짧은 영상을 만들 수 있다. 현재 오픈 AI는 소라를 소수의 선별된 집단에 먼저 제공되며 피드백을 받는 상황이다.
이 같은 소라가 대중에 공개되면 영상 생성형 AI의 상용화로 이미 보편화된 영상 콘텐츠 제작의 난이도를 또 한 번 혁신적으로 낮춰서 일반 대중 누구나 크리에이터가 될 수 있게 할 전망이다. 사용자가 생성한 콘텐츠(UGC: User Generated Content)를 너머 참신한 아이디어, 기획만 있다면 누구든 크리에이터가 될 수 있는 시대가 도래할 것이다.
짧지만 임팩트가 있어야 하는 대표적인 콘텐츠인 광고 제작계에도 파란이 예상된다. 광고는 대체로 10초~30초 사이로 제작된다. 기업들은 짧은 콘텐츠 내에서 소비자에게 인상 깊은 브랜드 메시지를 던지기 위해 막대한 비용을 투입해 광고를 제작해 왔다. 이질적이고 특별한 장소에서 로케이션 촬영을 하는 경우도 많았다. 그러나 적절한 프롬프트를 입력하면 고화질의 영상을 제작해 낼 수 있는 시대가 도래한다면 굳이 비용을 들여 현실감을 추가하기 위한 로케이션 촬영이 불필요해질 것이다. 나아가, 미래에는 단순 타겟팅을 넘어 나의 취향에 맞춘 전용 광고가 실시간으로 생성되어 노출될 것으로 예상된다.
기업들은 이미 AI 기술을 광고에 도입하는 시도를 하고 있다.
KB국민은행은 8일, KB스타뱅킹 광고 영상인 ‘2천만의 금융흥행작, KB스타뱅킹’이 지난 8월에 공개된 이후 1천만 조회수를 넘어섰다고 밝혔다.
특히 KB스타뱅킹의 새로운 광고는 최근 금융권 광고들과는 다른 전략을 활용했다. 일반인 모델 출연하면서도 압도적인 규모감을 보여주는 CG 기술을 접목해 시청자들의 관심을 끌어냈다. 이와 함께 KB스타뱅킹의 서비스 16종을 표현한 세로형 광고영상은 생성형 AI 기술을 도입해 제작했다.
이번 광고는 ‘1천만을 넘어, 너나 할 것 없이 빠져든 2천만의 금융 흥행작’이라는 광고 문구를 활용해 제작됐다. 영화계의 ‘천만 흥행작’이라는 수식어를 KB스타뱅킹에 비유했으며, 광고 문구를 따르듯 KB스타뱅킹 광고는 공개한 지 1개월 반 만에 누적 1천만 조회수를 넘어섰다.
박은빈 똑 닮은 아역 모델? AI가 생성한 특수 효과
영상 생성 모델이 대중화·상용화되면 흔히 CG·특수효과로 일컬어지는 VFX(Visual Effects) 업계도 큰 변화를 피할 수 없을 것으로 전망된다. VFX는 현실에서 존재할 수 없는, 혹은 촬영이 불가능하거나 어려운 시각적인 효과를 구현하기 위해 이용되는 기법이다. 과거에는 특수 분장, 미니어처, 스턴트 등 고전적인 방식의 특수 효과가 영상 촬영에 활용되었지만, 기술이 발전하면서 ‘디지털 기반’의 VFX로 많은 부분이 대체됐다.
지금까지는 기술과 장비를 다룰 수 있는 전문가들만 VFX를 활용한 영상을 제작할 수 있었다. 하지만, AI 기술로 VFX의 제작 과정이 간소화되고 투입되는 비용이 줄어들며 개인이 제작하는 콘텐츠에도 특수 효과가 활용될 여지가 커졌다.
Statista의 데이터에 따르면 미국 TV, 영화 산업에서 AI를 활용하는 목적에서 가장 큰 비중을 차지하는 것은 ‘특수 효과’이다. 산업 현장에서는 디지털 트윈(Digital Twin, 현실에 존재하는 장비·기계 등 사물들을 실제와 동일한 3차원 모델을 통해 가상 세계에 구현하는 기술) 기법을 활용해 뒷배경에 엑스트라를 생성하게 하거나 대역 배우를 만들어내는 방식으로 AI가 이미 활용되고 있다. 이 같은 기법은 지난 4월 공개된 서울우유협동조합(서울우유)은 'A2+(플러스) 우유' TV 광고에도 활용됐다.
지난 4월 서울우유는 'A2+(플러스) 우유' 신제품을 출시하고 TV 광고를 공개했다. 이 우유 광고 공개 이후, 모델로 출연한 배우 박은빈보다 화제가 된 것은 그를 똑 닮은 아역배우 3명이 한 프레임 안에 등장한 것이었다. 당시 업체로 이들의 정보에 대해 궁금해하는 네티즌의 문의가 쇄도했고, 광고 속 ‘박은빈 아역’의 검색어까지 생성되기도 했다. 결과적으로 이들은 박은빈의 어린 시절 사진을 바탕으로 AI 딥러닝을 적용해 만들어진 가상 인물로 밝혀졌다.
서울우유 측은 "A2+ 우유 광고에 등장하는 아역 배우 3명은 AI 딥러닝을 적용한 딥페이크 기술을 바탕으로 박은빈의 어린 시절과 중학생 시절 등을 만들어 낸 것"이라고 밝혔다. 이어 서울우유 관계자는 AI 기술을 사용한 이유에 대해 "박은빈이 어린 자신과 만나는 모습을 통해 서울우유협동조합이 87년간 이어온 과거를 넘어 새로운 미래로 나아가는 것을 형상화했다"고 설명했다.
업계에서는 아직 생성형 AI가 테스트 수준으로만 활용되고 있을 뿐 직접적인 인력 대체 효과가 나타나지는 않고 있다. 그러나 소라 급 AI 엔진이 상용화되는 시점에서는 광고와 특수효과 분야를 포함한 영상 분야와 게임사 등에서 코딩 및 관련 기술 개발에 필요한 인력이 대거 줄어들며 인력 대체 효과가 크게 나타날 전망이다.
그 혁신적 변화가 광고를 비롯한 우리의 일상에서 시작되고 있다.
<문화경제 김예은 기자>