뉴스/정보

mistral에서 새로운 7b 모델 2개 발표

작성자
ㅇㅇ
작성일
2024-07-17 00:03
조회
658
https://mistral.ai/news/mathstral/

Mathstral은 더 많은 추론 시간 계산을 통해 상당히 더 나은 결과를 얻을 수 있습니다. Mathstral 7B는 64명의 후보자 중 다수결 투표로 MATH에서 68.37%의 점수를 받았고 강력한 보상 모델을 적용하면 74.59%의 점수를 받았습니다 .

https://mistral.ai/news/codestral-mamba/

Mixtral 패밀리의 출판에 이어 Codestral Mamba는 새로운 아키텍처를 연구하고 제공하려는 우리의 노력의 또 다른 단계입니다. 무료로 사용, 수정 및 배포할 수 있으며, 건축 연구에 새로운 관점을 열어주기를 바랍니다. Codestral Mamba는 Albert Gu와 Tri Dao의 도움을 받아 설계되었습니다.

Transformer 모델과 달리 Mamba 모델은 선형 시간 추론과 무한 길이의 시퀀스를 모델링하는 이론적 능력의 이점을 제공합니다. 사용자는 입력 길이와 관계없이 빠른 응답으로 광범위하게 모델과 상호 작용할 수 있습니다. 이러한 효율성은 특히 코드 생산성 사용 사례와 관련이 있습니다. 이것이 우리가 이 모델을 고급 코드 및 추론 기능으로 훈련하여 SOTA Transformer 기반 모델과 동등한 성능을 발휘할 수 있도록 한 이유입니다.

우리는 최대 256k 토큰의 컨텍스트 내 검색 기능에 대해 Codestral Mamba를 테스트했습니다. 훌륭한 로컬 코드 도우미가 될 것으로 기대합니다!
전체 0