最近の研究によると、ChatGPTのパフォーマンスが低下しています

最近の研究によると、ChatGPTのパフォーマンス低下中

ChatGPTは、最も人気のある強力なAIツールの一つとなりました。世界中のユーザーは、コンテンツのアイデアのブレインストーミングから複雑な数学の方程式の解決まで、多くの機能において役立つと感じています。しかし、広く使用されているにも関わらず、一部のGPT-4のユーザーは、時間の経過とともに性能が低下していると懸念を表明しています。また、研究でもChatGPTの性能の低下が示されています。

スタンフォード大学とカリフォルニア大学バークレー校の研究者たちは、最近「ChatGPTの振る舞いは時間の経過とともにどのように変化しているのか?」と題した研究を発表しました。この研究では、過去数ヶ月間におけるOpenAIの大規模言語モデル(LLM)であるGPT-3.5とGPT-4の出力の変化について探究しています。

OpenAIのChatGPTモデルの研究結果

この研究では、GPT-4のコーディングや構成的なタスクにおける性能に疑問が投げかけられています。研究者たちはAPIアクセスを使用して、これらのモデルの2023年3月版と6月版を数学の問題解決、機微な質問への回答、コード生成、視覚的推論など、さまざまなタスクに対してテストしました。特に、GPT-4の素数の特定能力は、3月の97.6%から6月のわずか2.4%に大幅に減少しました。一方、同じ期間においてGPT-3.5は性能が向上しました。

例えば、「この数は素数ですか?ステップバイステップで考えてください」という質問におけるGPT-4の成功率は、3月から6月にかけて97.6%から2.4%に低下しましたが、GPT-3.5は改善しました。他のタスクも変化は少ないですが、LLMの振る舞いには明らかな変化があります。

— Matei Zaharia (@matei_zaharia) 2023年7月19日

研究のもう一つの注目すべき結果は、GPT-4の応答の長さの大幅な変化です。GPT-4の平均的な冗長性は、3月の821.2文字から6月のわずか3.8文字に大幅に減少しました。これに対して、GPT-3.5は同じ期間において応答の長さが約40%増加しました。さらに、研究では、3月版と6月版の回答の重複率が、GPT-4とGPT-3.5の両方のサービスにおいて比較的小さかったことが明らかにされました。

研究では、GPT-4とGPT-3.5が機微な質問にどのように対応するかにも明確な変化が観察されました。3月から6月にかけて、GPT-4の機微な質問への回答頻度は大幅に減少し、21.0%から5.0%に低下しました。一方、GPT-3.5は逆の傾向を示し、同じ期間において機微な質問への回答率が2.0%から8.0%に増加しました。

研究を行った専門家たちは、ChatGPT(GPT-4)の6月のアップデートでは、より強力なセーフティレイヤーが導入され、機微なクエリの処理により保守的なアプローチが取られた可能性があると推測しています。一方、GPT-3.5はその期間において、機微な質問への回答においてより保守的でない反応を示したようです。

研究の結果は、想定される一貫性のあるLLMサービスの振る舞いが、比較的短期間で大きく変化する可能性を強調しています。これは、LLMの品質を確保・維持するために継続的なモニタリングの重要性を示しています。

GPT-4の批評家たちは、性能の低下に関して主観的な懸念を表明しています。一部の理論では、OpenAIがモデルを「蒸留」して計算オーバーヘッドを減らし、有害な出力を最小限に抑えるために微調整したり、GitHub Copilotへの需要を高めるために意図的にコーディング能力を制限した可能性があるとされています。

GPT-4は時間の経過とともに悪くなっている、それどころか良くなっているどころか。

多くの人々がモデルの応答の品質の大幅な劣化に気付いていると報告していますが、それまではすべてが個人的な経験に基づくものでした。

しかし、今はわかりました。

少なくとも1つの研究が、2023年6月版のGPT-4が客観的に悪くなっていることを示しています… pic.twitter.com/whhELYY6M4

— Santiago (@svpino) 2023年7月19日

OpenAIは、GPT-4の能力の低下を一貫して否定しています。OpenAIの製品VPであるPeter Welinderによれば、新しいバージョンは前のバージョンよりもスマートに設計されており、使用量が増えると問題がより目立つ可能性があるとのことです。

いいえ、GPT-4はバカになっていません。むしろ、新しいバージョンは前のバージョンよりもスマートになっています。

現在の仮説:それをより頻繁に使用すると、今まで気づかなかった問題が目立つようになります。

— Peter Welinder (@npew) 2023年7月13日

研究論文は、OpenAIがGPTのすべての新バージョンの意図的な改善を主張していることに対して疑問を投げかけています。研究論文の共著者の一人であり、Databricksのチーフテクノロジーオフィサーでもあるマテイ・ザハリア氏は、AIモデルの応答の品質を管理することの困難さについてTwitterで懸念を表明しました。彼はまた、モデル開発者が変更を検出し、新しい機能を導入しながら特定の機能の喪失を防ぐことができるかについても疑問を呈しました。

この研究は批評家の主張を支持しているように見えますが、一部の専門家は注意を呼びかけています。プリンストン大学のコンピュータサイエンス教授であるアーヴィンド・ナラヤナン氏は、この研究の結果がGPT-4の衰退を確定的に証明していないと主張しています。彼は、観察された変化がOpenAIの微調整に一致している可能性があると推測しています。たとえば、この研究では正確性ではなく、直ちの実行可能性に基づいたコード生成を評価しており、これは誤解を招く可能性があります。