뉴스/정보
Qwen2 오디오 발표
작성자
하이룽룽
작성일
2024-08-10 10:06
조회
846
https://huggingface.co/papers/2407.10759
우리는 다양한 오디오 신호 입력을 수용하고 음성 지시에 대한 오디오 분석 또는 직접 텍스트 응답을 수행할 수 있는 Qwen2-Audio라는 대규모 오디오 언어 모델인 Qwen-Audio의 최신 진행 상황을 소개합니다. 복잡한 계층적 태그와 달리, 우리는 다양한 데이터와 작업에 대한 자연어 프롬프트를 활용하여 사전 학습 프로세스를 간소화하고 데이터 볼륨을 더욱 확장했습니다. 우리는 Qwen2-Audio의 지시 따르기 기능을 강화하고 음성 채팅과 오디오 분석을 위한 두 가지 오디오 상호 작용 모드를 구현했습니다. 음성 채팅 모드에서 사용자는 텍스트 입력 없이 Qwen2-Audio와 음성 상호 작용을 자유롭게 수행할 수 있습니다. 오디오 분석 모드에서 사용자는 상호 작용 중에 분석을 위한 오디오 및 텍스트 지침을 제공할 수 있습니다. 우리는 음성 채팅과 오디오 분석 모드 사이를 전환하기 위해 시스템 프롬프트를 사용하지 않는다는 점에 유의하십시오. Qwen2-Audio는 오디오 내의 콘텐츠를 지능적으로 이해하고 음성 명령을 따라 적절하게 응답할 수 있습니다. 예를 들어, 소리, 다중 화자 대화 및 음성 명령이 동시에 포함된 오디오 세그먼트에서 Qwen2-Audio는 명령을 직접 이해하고 오디오에 대한 해석 및 응답을 제공할 수 있습니다. 또한 DPO는 사실성과 원하는 행동 준수 측면에서 모델의 성능을 최적화했습니다. AIR-Bench의 평가 결과에 따르면 Qwen2-Audio는 오디오 중심의 지시 수행 기능에 초점을 맞춘 테스트에서 Gemini-1.5-pro와 같은 이전 SOTA보다 성능이 우수했습니다. Qwen2-Audio는 다중 모달 언어 커뮤니티의 발전을 촉진하는 것을 목표로 오픈 소스로 제공됩니다.
우리는 다양한 오디오 신호 입력을 수용하고 음성 지시에 대한 오디오 분석 또는 직접 텍스트 응답을 수행할 수 있는 Qwen2-Audio라는 대규모 오디오 언어 모델인 Qwen-Audio의 최신 진행 상황을 소개합니다. 복잡한 계층적 태그와 달리, 우리는 다양한 데이터와 작업에 대한 자연어 프롬프트를 활용하여 사전 학습 프로세스를 간소화하고 데이터 볼륨을 더욱 확장했습니다. 우리는 Qwen2-Audio의 지시 따르기 기능을 강화하고 음성 채팅과 오디오 분석을 위한 두 가지 오디오 상호 작용 모드를 구현했습니다. 음성 채팅 모드에서 사용자는 텍스트 입력 없이 Qwen2-Audio와 음성 상호 작용을 자유롭게 수행할 수 있습니다. 오디오 분석 모드에서 사용자는 상호 작용 중에 분석을 위한 오디오 및 텍스트 지침을 제공할 수 있습니다. 우리는 음성 채팅과 오디오 분석 모드 사이를 전환하기 위해 시스템 프롬프트를 사용하지 않는다는 점에 유의하십시오. Qwen2-Audio는 오디오 내의 콘텐츠를 지능적으로 이해하고 음성 명령을 따라 적절하게 응답할 수 있습니다. 예를 들어, 소리, 다중 화자 대화 및 음성 명령이 동시에 포함된 오디오 세그먼트에서 Qwen2-Audio는 명령을 직접 이해하고 오디오에 대한 해석 및 응답을 제공할 수 있습니다. 또한 DPO는 사실성과 원하는 행동 준수 측면에서 모델의 성능을 최적화했습니다. AIR-Bench의 평가 결과에 따르면 Qwen2-Audio는 오디오 중심의 지시 수행 기능에 초점을 맞춘 테스트에서 Gemini-1.5-pro와 같은 이전 SOTA보다 성능이 우수했습니다. Qwen2-Audio는 다중 모달 언어 커뮤니티의 발전을 촉진하는 것을 목표로 오픈 소스로 제공됩니다.
전체 0