先週から、OpenAIはChatGPTのアップデートをデプロイして公開後、すぐにアップデートをロールバック/元に戻しました。これは、ChatGPTユーザーが新しくアップデートされたモデルの奇妙な動作について苦情を寄せたためです。同社は今夜公開されたブログ記事でその経緯を説明しています。
より人間らしいChatGPTを目指して
ChatGPTユーザーは、チャットボットがより親しみやすく、事務的でないことを望んでいます。Anthropic社のClaudeチャットボットは、OpenAIのより定型的な応答スタイルと比較して、より人間らしい応答をすると評されることが多々あります。
そのため、OpenAIは先週、同社のCEOであるSam Altman氏によると「知性とパーソナリティの両方を向上させた」GPT-4oモデルのアップデートをリリースしました。しかし、2日後、Altman氏はすべてのユーザーが気づいた問題を認めました:
「最近のGPT-4oのアップデートでは、パーソナリティがあまりにもお世辞過ぎて煩わしくなっています。私たちは修正に取り組んでおり、一部は今日、一部は今週中に対応します。いずれこの経験から学んだことを共有する予定です。興味深い状況です。」
過剰な称賛が問題に
基本的に、ChatGPTはフィードバックを求める質問に対して、信憑性のない過剰な称賛で応答するようになりました。それはコミカルなほど不自然で、不快なほど気まずいものでした。今夜の時点で、解決策は先週リリースされた変更を完全にロールバックすることでした。
何が起きたのか
OpenAIは、長期的な使用よりも短期的なフィードバックに焦点を当てたことが原因だと説明しています:
「先週のGPT-4oのアップデートでは、モデルのデフォルトのパーソナリティを改善し、様々なタスクでより直感的で効果的に感じられるよう調整を行いました。
モデルの行動を形作る際、私たちはモデル仕様に概説されている基本原則と指示から始めます。また、ChatGPTの応答に対するサムズアップ/サムズダウンのフィードバックなど、ユーザーのシグナルを取り入れることで、これらの原則の適用方法をモデルに教えています。
しかし、今回のアップデートでは、短期的なフィードバックに重点を置きすぎ、ユーザーとChatGPTのやり取りが時間とともにどのように進化するかを十分に考慮しませんでした。その結果、GPT-4oは過度に支持的だが不誠実な応答に偏ってしまいました。」
4つの改善計画
何が起きたのかについての直接的な説明ではありませんが、OpenAIの4つの行動計画は状況をより明らかにしています:
- コアトレーニング技術とシステムプロンプトを改良し、モデルをお世辞から明示的に遠ざける
- 正直さと透明性を高めるためのガードレールを強化する(モデル仕様の原則に基づく)
- デプロイ前により多くのユーザーがテストして直接フィードバックを提供する方法を拡大する
- お世辞以外の問題を将来特定するために、モデル仕様と進行中の研究に基づいて評価を継続的に拡大する
つまり、OpenAIはChatGPTにより親切で支持的なパーソナリティを構築したいと考えていました。リリースされたものはその説明に合致していましたが、非現実的であるという閾値を超えていました。チャットボットにパーソナリティを追加するには、予想以上の作業が必要であることが判明しました。
将来的に、OpenAIはデフォルトのパーソナリティオプションを含め、ユーザーからの直接のフィードバックに基づいてパーソナリティを形成したいと述べています。
Source: 9to5mac