뉴스/정보

SWE-Bench에서 30.08% 달성

작성자
하이룽룽
작성일
2024-08-13 09:00
조회
928


https://cosine.sh/blog/genie-technical-report



SWE-Bench에 따르면 세계에서 가장 유능한 소프트웨어 엔지니어링 모델인 Genie는 AI 기반 개발에서 Cosine의 최신 혁신입니다. 인간 엔지니어의 인지 과정을 모방하도록 설계되어 전례 없는 정확성과 효율성으로 복잡한 문제를 해결할 수 있습니다.

Genie는 인간 엔지니어의 인지 프로세스, 논리 및 워크플로를 완벽하게 모방하는 데이터로 훈련된 세계 최초의 AI 소프트웨어 엔지니어링 동료입니다. 당사의 독점 기술은 완벽한 정보 계보, 점진적 지식 발견 및 단계별 의사 결정을 나타내는 데이터를 생성합니다. 이를 통해 Genie는 웹 브라우저나 코드 인터프리터와 같은 몇 가지 추가 도구로 기본 모델을 래퍼하는 다른 AI 소프트웨어 도구가 직면한 한계를 돌파할 수 있습니다. Genie는 보이지 않는 문제를 해결하고 인간 엔지니어가 하는 것과 같은 논리적 방식으로 출력을 반복하고 테스트할 수 있습니다.

Genie는 SWE-Bench에 따르면 세계에서 가장 유능한 소프트웨어 엔지니어링 AI로, AI 모델에서 소프트웨어 엔지니어링 기술을 평가하는 업계 표준인 30.07%의 점수를 달성했습니다. 이는 Amazon의 Q와 Code Factory가 19%로 기록한 이전 최고 점수보다 57% 향상된 수치입니다(참고로 OpenAI의 GPT4는 1.31%입니다). 이는 지금까지 모든 회사가 달성한 가장 높은 점수이며, 벤치마크 역사상 SOTA 점수에서 가장 큰 단일 증가입니다. 이 최신 릴리스의 일환으로 소프트웨어 엔지니어링 영역을 훨씬 벗어나 일반화하는 Genie의 향상된 추론 및 계획 기능을 관찰했으며 엄격하고 신중한 레드 팀 구성에 전념하고 있습니다.
전체 0