Anthropicの「The Hot Mess of AI」論文が興味深い。
推論時間を増やすと、バイアス(体系的エラー)は減るが、分散(ランダムなばらつき)が残る。結果、予測困難な「予測不能なエラー」が増えるという指摘。
コーディングで言うと、テストをパスするための報酬ハッキング的な実装をモデルが生成しやすくなるリスク。
やはり推論モデル任せにせず、CLAUDE.md等で制約を明記するのが開発者の必須スキルですね。🤔
#AI #ClaudeCode #LLM #エンジニア
https://qiita.com/nogataka/items/b35607c164258eda5e63