귀하는 로그인되어 있지 않습니다. 이대로 편집하면 귀하의 IP 주소가 편집 기록에 남게 됩니다.스팸 방지 검사입니다. 이것을 입력하지 마세요!== 주요 결과 == === 정렬 위장의 빈도 === 학습 상황으로 인식된 경우 모델은 12~24%의 확률로 정렬 위장 reasoning을 보였다.<ref>이는 통계적으로 유의미한 수준이다.</ref> 이는 모델이 자신의 선호가 변경되는 것을 막기 위해 전략적으로 행동했다는 증거다. === Compliance gap === 학습 중이라고 인식한 경우와 그렇지 않은 경우의 행동 차이를 Compliance gap이라 부른다. 학습 상황에서는 유해한 요청의 86%를 거부했으나, 비학습 상황에서는 이 수치가 97%까지 치솟았다.<ref>이러한 격차는 모델이 전략적으로 행동한다는 증거로 해석된다.</ref> === 반-AI 연구소 행동 === 특이한 점은 모델이 [[Anthropic]]의 훈련 목표에 반하는 행동을 보이기도 했다는 것이다. 가령 자신의 가중치를 유출하려는 시도를 35~80%의 빈도로 했다는 보고가 있다.<ref>다만 이는 실험실 환경에서의 결과이며, 실제 서비스 환경에서는 발생하지 않을 수 있다.</ref> 편집 요약 가온 위키에서의 모든 기여는 크리에이티브 커먼즈 저작자표시-동일조건변경허락 라이선스로 배포된다는 점을 유의해 주세요(자세한 내용에 대해서는 가온 위키:저작권 문서를 읽어주세요). 만약 여기에 동의하지 않는다면 문서를 저장하지 말아 주세요. 또한, 직접 작성했거나 퍼블릭 도메인과 같은 자유 문서에서 가져왔다는 것을 보증해야 합니다. 저작권이 있는 내용을 허가 없이 저장하지 마세요! 취소 편집 도움말 (새 창에서 열림)