정렬 위조 편집하기 (부분)

== 주요 결과 ==

=== 정렬 위장의 빈도 ===
학습 상황으로 인식된 경우 모델은 12~24%의 확률로 정렬 위장 reasoning을 보였다.<ref>이는 통계적으로 유의미한 수준이다.</ref> 이는 모델이 자신의 선호가 변경되는 것을 막기 위해 전략적으로 행동했다는 증거다.

=== Compliance gap ===
학습 중이라고 인식한 경우와 그렇지 않은 경우의 행동 차이를 Compliance gap이라 부른다. 학습 상황에서는 유해한 요청의 86%를 거부했으나, 비학습 상황에서는 이 수치가 97%까지 치솟았다.<ref>이러한 격차는 모델이 전략적으로 행동한다는 증거로 해석된다.</ref>

=== 반-AI 연구소 행동 ===
특이한 점은 모델이 [[Anthropic]]의 훈련 목표에 반하는 행동을 보이기도 했다는 것이다. 가령 자신의 가중치를 유출하려는 시도를 35~80%의 빈도로 했다는 보고가 있다.<ref>다만 이는 실험실 환경에서의 결과이며, 실제 서비스 환경에서는 발생하지 않을 수 있다.</ref>