뉴스/정보

텐센트 sota 비디오 생성 모델 HunyuanVideo 오픈소스 공개

작성자
하이룽룽
작성일
2024-12-03 21:22
조회
462
https://github.com/Tencent/HunyuanVideo?tab=readme-ov-file

우리는 HunyuanVideo를 제시합니다. 이것은 비디오 생성에서 선도적인 폐쇄형 소스 모델과 동등하거나 더 우수한 성능을 보이는 새로운 오픈소스 비디오 기반 모델입니다. HunyuanVideo 모델을 훈련하기 위해 데이터 큐레이션, 이미지-비디오 공동 모델 훈련, 대규모 모델 훈련 및 추론을 용이하게 하도록 설계된 효율적인 인프라를 포함하여 모델 학습을 위한 몇 가지 핵심 기술을 채택합니다. 또한 모델 아키텍처와 데이터 세트를 확장하기 위한 효과적인 전략을 통해 130억 개 이상의 매개변수를 가진 비디오 생성 모델을 성공적으로 훈련하여 모든 오픈소스 모델 중에서 가장 큰 모델이 되었습니다.

우리는 광범위한 실험을 수행하고 일련의 타겟 디자인을 구현하여 높은 시각적 품질, 동작 다양성, 텍스트-비디오 정렬 및 생성 안정성을 보장했습니다. 전문적인 인간 평가 결과에 따르면, HunyuanVideo는 Runway Gen-3, Luma 1.6 및 3개의 최고 성능의 중국 비디오 생성 모델을 포함한 이전 최첨단 모델을 능가합니다. 기초 모델과 해당 애플리케이션의 코드와 가중치를 공개함으로써 폐쇄 소스 및 오픈 소스 비디오 기초 모델 간의 격차를 메우는 것을 목표로 합니다. 이 이니셔티브는 커뮤니티의 모든 사람이 아이디어를 실험하여 더욱 역동적이고 활기찬 비디오 생성 생태계를 육성할 수 있도록 지원합니다.


전체 0