인터뷰/예측

앤트로픽 Ben Mann, "최근 테스트에서, 일부 영역에서 ASL3 기준에 가까워지고 있다는 징후가 있다"

작성자
하이룽룽
작성일
2024-08-04 16:05
조회
2446


 

ASL (AI Safety Levels) 시스템: AI 능력에 따라 위험 수준을 분류하고 각 수준에 맞는 안전 조치를 정의합니다. 현재 가장 발전된 모델들은 ASL2 수준으로 평가됩니다.

능력과 안전 조치의 균형: 원시 능력이 ASL3에 도달하는 데 2년이 걸리지만 필요한 안전 조치를 마련하는 데 3년이 걸린다면, 책임 있는 배포는 1년 지연될 수 있습니다.

불연속적 진보 가능성: AI 발전이 항상 점진적이지 않을 수 있으며, 갑작스러운 능력의 도약이 있을 수 있습니다.

정기적 테스트: Anthropic은 모델의 능력을 주기적으로 평가하여 ASL 수준을 결정합니다.

확률 기반 예측: RSP 프레임워크를 사용하여 다양한 AI 위험 시나리오의 확률을 추정할 수 있습니다. 예를 들어, 5년 내에 ASL4 모델이 개발될 확률이 30%라면 그에 따른 대비를 할 수 있습니다.

유연한 접근: AI 발전 경로가 점진적일지, 급격한 도약이 있을지 불확실하므로 다양한 시나리오에 대비해야 합니다.

 

- Anthropic은 컴퓨팅 능력이 4배 증가할 때마다, 또는 3개월마다 모델을 테스트 중

- Claude 3에 대한 최근 테스트에서, 일부 영역에서 ASL3 기준에 가까워지고 있다는 징후가 있었음. 예를 들어, 추가 미세조정과 개선된 프롬프트 엔지니어링을 통해 자율 복제 기준을 충족할 30% 확률이 있다고 언급

- AI 발전이 점진적이지 않을 수 있으며, 갑작스러운 능력의 도약이 있을 수 있다고 강조

 

we know of we're in the position of having to forecast when different asls will be reached based on the pace of AI progress and that introduces significant uncertainty this is where I believe the responsible scaling policy provides a valuable framework for making predictions about the future of AI that take safety considerations into account by defining concrete capability Milestones corresponding to each ASL we can start to map them onto timelines of AI progress for example based on the rate of advancement in recent years we might forecast that the most capable models will start to consistently reach asl3 in a certain number of years

"우리는 AI의 발전 속도에 따라 다양한 ASL에 도달할 시점을 예측해야 하는 상황에 처해 있으며, 이는 상당한 불확실성을 야기합니다. 책임 있는 확장 정책은 구체적인 역량 마일스톤을 정의하여 안전을 고려한 AI의 미래에 대한 예측을 할 수 있는 유용한 프레임워크를 제공한다고 믿습니다. 예를 들어 최근 몇 년 동안의 발전 속도를 기반으로 AI 발전 타임라인에 매핑하기 시작할 수 있으며, 가장 성능이 뛰어난 모델이 특정 수년 내에 일관되게 ASL3 수준에 도달하기 시작할 것으로 예측할 수 있습니다."
전체 0