본문 바로가기
놀라운 세상

영상계에도 특이점이 왔다! 오픈AI, 영상 모델 'Sora' 발표

by 석아산 2024. 2. 17.
반응형

소라를 이용해 만든 영상
소라를 이용해 만든 영상

 

챗GPT를 선보인 오픈AI가 이번에는 영상 모델을 선보인다고 합니다.

영상 품질이 꽤 높아서 저도 놀랐는데요.

 

여러모로 엄청난 활용성을 가질 것으로 기대됩니다. 이제 인공지능으로 영화를 만들 날도 머지 않은 것 같습니다.

 

자, 소식 보시죠!

 

* 다른 흥미로운 포스팅이 궁금하신 분은 여기를 클릭해 주세요^^

 

영상계에도 특이점이 왔다! 오픈AI, 영상 모델 'Sora' 발표

 

미국의 인공지능 개발사 OpenAI가 오늘(16일) 텍스트만으로 영상을 제작해 내는 text-to-video AI 모델, '소라(Sora)'를 공개했습니다.

OpenAI에 따르면, '소라'는 최대 1분 길이의 영상을 생성하는 것이 가능합니다. 기존 text-to-video 모델들이 4초 정도의 영상을 생성할 수 있었던 것과 비교할 때 뚜렷한 차이를 보입니다. 또한, 생성된 영상의 전반적인 품질뿐만 아니라, 생성된 사물의 모습이 동일하게 유지될 수 있도록 하는 기술이 적용되었습니다.

 

'소라'의 AI 모델 소개 페이지는 다양한 인물과 특정한 동작 유형, 피사체와 배경의 정확한 디테일을 갖춘 복잡한 장면을 생성할 수 있다고 소개하고 있습니다. 또한, 사용자가 프롬프트를 통해 요구한 내용뿐 아니라, 이러한 요소들이 실제 세계에 어떻게 존재하는지 이해하는 기능을 갖추어 보다 사실적인 결과물을 생성하는 것이 가능합니다. 홈페이지에 공개된 위 사례도 텍스트 프롬프트로만 제작된 영상입니다.

 

기술 리포트에 따르면 '소라'는 1920x1080p 와이드스크린, 수직 1080x1920 사이의 모든 해상도로 샘플링할 수 있습니다. 이를 통해 다양한 디바이스에 적합한 콘텐츠를 제작할 수 있습니다. 또한, 풀 사이즈 해상도로 생성하기 전에 낮은 화질로 프로토타입을 할 수 있는 기능도 갖추고 있습니다.

 

OpenAI는 소라를 개발하면서 대규모 언어 모델(LLM)에서 영감을 받았다고 밝혔습니다. 수많은 텍스트 토큰이 수학, 자연어, 코드 등 텍스트의 형식을 통합하는 데 사용된 것처럼, 소라는 동영상과 이미지를 '패치'라는 데이터 단위로 표현했습니다. 이를 통해 데이터를 표현하는 방식을 통합하여, 이전보다 더욱 디퓨전 모델을 고도로 훈련시킬 수 있었다는 것이 OpenAI의 설명입니다.

 

영상을 생성하는 것 이외에도, '소라'는 다양한 상황에서 활용 가능해 보입니다. 기술 문서에 공개된 소라의 기능을 확인해 보면, 해당 AI 모델은 기존의 정지 이미지를 동영상으로 생성할 수 있으며, 서로 다른 두 영상을 자연스럽게 이어주는 영상 또한 생성할 수 있습니다. 또한, 기존 영상의 앞이나 뒤를 확장하는 영상을 생성해 전체 영상의 길이를 늘릴 수도 있습니다.

 

현실에 존재하지 않는, 디지털 세계 또한 시뮬레이션할 수 있다는 점도 놀랍습니다. OpenAI는 예로 '마인크래프트'를 소개했는데, '소라'는 기본 정책에 따라 '마인크래프트'의 플레이어뿐만 아니라 그 주변 세계를 높은 충실도로 렌더링할 수 있습니다. '마인크래프트'라는 단어가 포함된 프롬프트만으로 실제 플레이 장면이 아닌 '마인크래프트' 영상을 생성할 수 있다는 의미입니다.

 

그러나 아직까지 미흡한 점도 존재합니다. OpenAI는 "소라가 시뮬레이터로서 수많은 한계를 보이고 있다"며, 예를 들어 유리컵이 깨질 때 파편 같은 기본적인 상호작용 수준의 물리학을 정확히 모델링하지 못한다고 전했습니다. 비슷하게, 음식을 먹는 것과 같은 기본적인 물리적 상호작용이 항상 물체 상태에 정확한 변화를 가져오는 것도 어렵습니다.

 

'소라'가 매우 사실적인 영상을 생성하는 만큼 안전 조치에 대해서도 언급했습니다. 현재 소라는 AI 모델의 안정성을 시험하는 '레드팀' 및 일부 비주얼 아티스트, 영화 감독 등에게 제공되었으며, 일반 사용자는 이용할 수 없습니다. '레드팀'은 앞으로 오보, 혐오 콘텐츠, 성적 내용 등에 대해 해당 AI 모델을 테스트할 전망입니다.

 

OpenAI는 소라가 영상을 생성한 시점을 알 수 있는 탐지 분류기 등 실제 영상과 오해하거나 혼동할 수 있는 소지가 있는 경우에 도움이 되는 도구도 개발하고 있다고 전했습니다. 현재 DALL·E 3 등에 사용되는 안전 장치도 '소라'에 적용 가능해, 폭력, 성적 내용, 혐오스러운 이미지나 연예인과 유사한 이미지를 요청하는 프롬프트를 확인하고 거부한다는 것이 OpenAI의 설명입니다.

 

아직 일반 사용자에게 배포되지 않은 만큼, Sora의 가격 정책 등 자세한 사항은 확인할 수 없습니다. Sora AI 모델에 관한 보다 자세한 내용과 예시 영상은 Open AI 소개 페이지에서 확인할 수 있습니다.

 

 

 오픈AI에 대해

 

오픈AI(OpenAI)는 인공지능(AI) 연구와 개발에 주력하는 미국의 비영리 조직으로, 2015년에 설립되었습니다. 이 조직은 인공지능 기술의 안전하고 윤리적인 발전을 촉진하고, 인류 전체의 이익을 위해 기술적 발전을 공유하는 것을 목표로 하고 있습니다. 오픈AI는 엘론 머스크, 샘 알트만, 그레그 브록만, 이야 러비치, 우디 존스 등 기술 분야의 유명 인사들에 의해 공동 설립되었으며, 초기에는 완전한 비영리 조직으로 시작했습니다.

 

그러나 시간이 지나면서, 오픈AI는 더 많은 연구개발 투자를 유치하고 상업적 활동을 지원하기 위해 '오픈AI LP'라는 제한된 파트너십 모델을 도입했습니다. 이 구조는 연구와 기술 개발의 자유로움을 유지하면서도, 필요한 자금을 확보할 수 있는 유연성을 제공합니다.

 

오픈AI의 주요 연구 분야는 자연어 처리(NLP), 컴퓨터 비전, 로봇공학, 대규모 기계 학습 시스템의 개발 및 이해 등 다양합니다. 이 조직은 GPT 시리즈(GPT-3 포함)와 같은 혁신적인 자연어 처리 모델, DALL·E(이미지 생성), Codex(코드 생성), 그리고 최근에는 text-to-video AI 모델 '소라'와 같은 다양한 AI 모델을 개발하여 광범위한 주목을 받았습니다.

 

오픈AI는 인공지능의 민주화를 추구하며, 공개 연구와 API를 통해 개발자들이 쉽게 접근하고 사용할 수 있는 플랫폼을 제공합니다. 이러한 접근성은 AI 기술의 혁신과 적용을 촉진하는 데 중요한 역할을 합니다.

 

안전하고 윤리적인 AI 개발을 위해, 오픈AI는 연구 결과와 기술을 공개하기 전에 신중한 검토 과정을 거치며, 때로는 안전상의 이유로 특정 기술의 공개를 제한하기도 합니다. 이러한 접근 방식은 AI 기술이 사회에 미치는 잠재적인 위험을 최소화하고, 인류에 이익이 되는 방향으로 기술이 발전하도록 하는 데 초점을 맞추고 있습니다.

 

오픈AI는 AI 분야의 선도적인 연구 기관으로서, 인공지능 기술이 가져올 미래에 대한 중요한 대화와 정책 결정에 영향을 미치고 있으며, 전 세계적으로 AI 연구와 응용 분야에서 혁신적인 기여를 계속하고 있습니다.

반응형

댓글