알리바바, 동영상 생성 AI 모델 ‘완2.1’ 오픈소스로 공개
컨텐츠 정보
- 조회 742
본문
알리바바는 블로그 게시물을 통해 완2.1(Wan2.1) 텍스트-동영상 변환 모델이 “복잡한 움직임을 정확하게 처리하고 픽셀 품질을 향상하며, 물리적 원칙을 준수하고 명령 실행의 정밀도를 최적화함으로써 현실적인 영상을 만드는 데 뛰어나다”라고 말했다.
완2.1은 2024년 상업적으로 출시되며 큰 방향을 일으킨 오픈AI의 소라(Sora) 동영상 생성 모델에 대한 무료 대안이다. 소라는 챗GPT 플러스 요금제에 포함되며, 월 20달러에 480p 해상도 동영상을 최대 50개 혹은 그보다 적은 수의 720p 동영상을 생성할 수 있다. 또 다른 옵션인 구글의 비오 2(Veo 2)는 일부 사용자에게만 공개됐다.
알리바바는 “완2.1 모델 4가지는 텍스트 및 이미지 입력을 기반으로 고품질 이미지와 동영상을 생성하도록 설계됐다”라고 밝혔다. 이들 모델은 13억 개에서 140억 개에 이르는 매개변수를 사용해 몇 초 길이의 동영상을 최대 720p 해상도로 생성할 수 있다. 1080p 해상도 동영상을 생성할 수 있는 모델을 출시할 계획이 있는지는 알려진 바 없다.
J. 골드 어소시에이츠(J. Gold Associates)의 수석 애널리스트 잭 골드는 동영상 생성 AI가 유용한 생산성 도구가 될 수 있지만, 기술이 성숙하는 데 시간이 걸린다며 “현재 많은 모델이 아직 기초적인 수준이다. 이 기술로 3시간짜리 영화를 만들 수 있는 단계는 아니다. 아직 초기 단계”라고 말했다.
골드는 현재의 동영상 생성 AI 모델을 1980년대 워드 프로세서에 비유하며, 시간이 지나면서 점점 개선될 것이라고 말했다. 워드 프로세서와 AI의 차이점은 후자의 경우 사용자가 모델에 정보를 입력한다는 점이다. 골드는 “기업 사용자 관점에서 보면 중요한 질문은 ‘내가 무엇을 무료로 제공하고 있는가?’이다. 이들 프로그램 중 상당수는 사용자가 제공하는 데이터를 학습하게 될 것”이라고 말했다.
그럼에도 불구하고 오픈소스 텍스트-동영상 변환 모델은 기업 사용자에게 전에 없던 새로운 가능성을 제공한다. 캠브리안 AI 리서치(Cambrian AI Research) 창립자이자 수석 애널리스트 칼 프로엔드는 “이 시장은 엄청나게 성장할 것이다. 특히 크리에이티브 업계, 미디어, 기업 사용자 사이에서 큰 관심을 받을 것”이라고 전망했다.
프루엔드는 기업이 멀티미디어에 많은 비용을 지출하고 있으며, 이미 어도비, 오픈AI, 구글, X.AI 등의 여러 텍스트-이미지 생성 모델이 클라우드에서 활용되고 있음을 언급하며 “동영상은 그다음 단계”라고 설명했다.
중국 AI 기업들은 이미 시장을 뒤흔들고 있다. 딥시크 챗봇 툴은 중국 기업의 AI 기술 발전을 보여주었으며, 완2.1은 동영상 생성 모델에서의 성장을 증명한다. 마이크로소프트와 아마존도 현재 자사 클라우드 서비스를 통해 딥시크 R1을 제공한다.
AWS CEO 맷 가먼은 지난 1월 링크드인 게시글에서 “우리는 항상 단일 모델이 모든 사용례에 적합할 수 없다고 믿어왔다. 앞으로도 다양한 새로운 옵션이 등장할 것으로 기대할 수 있다”라고 말했다.
프루엔드는 클라우드 서비스 업체들이 딥시크와 마찬가지로 완2.1을 자사 서비스에 통합해 제공하며 수익을 창출할 가능성이 있다고 설명했다.
다만 일각에서는 동영상 생성 모델과 관련한 보안 문제를 우려했다. 골드는 완2.1 모델이 악용돼 딥페이크 생성에 사용될 가능성이 있다고 지적하며 “모든 기술에는 장단점이 있다”라고 언급했다.
골드는 완2.1 모델이 중국에서 개발됐다는 점도 우려했지만, 소스코드가 공개돼 있으므로 딥시크 사례처럼 오픈소스 지지자들이 철저히 검토할 것이라고 말했다.
4가지 완2.1 모델은 알리바바 클라우드의 AI 모델 커뮤니티인 모델 스코프(Model Scope)와 허깅 페이스에서 다운로드할 수 있다. 허깅 페이스는 메타의 라마, 마이크로소프트 파이, 구글의 젬마 등 여러 공개 AI 모델도 호스팅한다.
dl-itworldkorea@foundryco.com
관련자료
-
링크
-
이전
-
다음






