뉴스/정보
OpenAI 소식통 "MATH 데이터 세트에서 90% 이상의 점수를 받은 AI를 내부적으로 테스트했다"
작성자
작성일
2024-07-16 01:27
조회
877
https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/
New sentences in updated Reuters article about OpenAI's "Strawberry": 'A different source briefed on the matter said OpenAI has tested AI internally that scored over 90% on a MATH dataset, a benchmark of championship math problems. Reuters could not determine if this was the "Strawberry" project.'
OpenAI의 "Strawberry"에 대한 업데이트된 Reuters 기사의 새로운 문장: '이 문제에 대해 브리핑을 받은 다른 소식통은 OpenAI가 챔피언십 수학 문제의 벤치마크인 MATH 데이터 세트에서 90% 이상의 점수를 받은 AI를 내부적으로 테스트했다고 말했습니다. Reuters는 이것이 "Strawberry" 프로젝트인지 확인할 수 없었습니다.'
약 1시간 전에 Strawberry 기사 업데이트 되었다 함
* 참고 Math 벤치마크 내용
https://arxiv.org/abs/2103.03874
MATH에서 인간을 평가한 결과, 수학을 특별히 좋아하지 않는 컴퓨터 과학 박사 과정 학생은 MATH에서 약 40%를 달성한 반면, 3회 IMO 금메달리스트는 90%를 달성하여 MATH가 인간에게도 도전적일 수 있음을 보여주었습니다.
현재 GPT-4o 76.6%, 클로드 3.5 Sonnet 71.1%
New sentences in updated Reuters article about OpenAI's "Strawberry": 'A different source briefed on the matter said OpenAI has tested AI internally that scored over 90% on a MATH dataset, a benchmark of championship math problems. Reuters could not determine if this was the "Strawberry" project.'
OpenAI의 "Strawberry"에 대한 업데이트된 Reuters 기사의 새로운 문장: '이 문제에 대해 브리핑을 받은 다른 소식통은 OpenAI가 챔피언십 수학 문제의 벤치마크인 MATH 데이터 세트에서 90% 이상의 점수를 받은 AI를 내부적으로 테스트했다고 말했습니다. Reuters는 이것이 "Strawberry" 프로젝트인지 확인할 수 없었습니다.'
약 1시간 전에 Strawberry 기사 업데이트 되었다 함
* 참고 Math 벤치마크 내용
https://arxiv.org/abs/2103.03874
MATH에서 인간을 평가한 결과, 수학을 특별히 좋아하지 않는 컴퓨터 과학 박사 과정 학생은 MATH에서 약 40%를 달성한 반면, 3회 IMO 금메달리스트는 90%를 달성하여 MATH가 인간에게도 도전적일 수 있음을 보여주었습니다.
현재 GPT-4o 76.6%, 클로드 3.5 Sonnet 71.1%
2025 lv2
2026 lv3
2027 lv4
2028 lv5