バイドゥは、Ernie 3.5が主要な指標でChatGPTとGPT-4を凌駕したと発表しました

中国のBaiduは、AIモデルErnie 3.5が人気のあるOpenAIのChatGPTとGPT-4を重要なテストで上回ったと発表し、AI市場での競争が激化しています。中国のインターネット企業は3月のイベントでErnieボットを発表しました。発表当時、CEOのRobin Liは、新製品は不完全であり、人々が使用してフィードバックを提供することで引き続き改善されると述べました。Ernieボットを発表してから1時間以内に、Baiduは約3万の法人クライアントがチャットボットにアクセスするための待機リストに参加したと述べました。

一方、Baiduは、Ernieボットを3月に発表して以来、公開テストを行ってきました。中国の検索エンジンの基礎となるAIモデルであるErnieに基づいて構築されたチャットボットであり、幅広いデータでトレーニングされています。一方、BaiduがErnie 3.5が優れていると述べたChatGPTは、OpenAIのGPT 3.5モデルに基づいています。また、BaiduはAIモデルがOpenAIの最新かつより高度なモデルであるGPT-4を上回ったとも述べています。Ernie 3.5が中国語の言語テストでOpenAIの製品よりも優れていることも指摘しています。

BaiduはErnie 3.5が多数の重要な分野でChatGPTよりも優れていると主張しています

中国の企業は、China Science Dailyの報告書を引用しながら、Ernie 3.5が複数のテストセットでChatGPTよりも優れていることを主張しました。 3つの評価基準はAGIEval、C-Eval、およびMMLUです。AGIEval評価基準は、モデルの「人間指向」の標準化テストでの性能レベルを調べるためにMicrosoft Researchが作成しました。焦点は、米国のSAT試験や中国の大学入学試験など、20の公式、公開、異なる資格試験にあります。 Bar試験、American GMAT、GMEなども含まれます。さらに、バークレー大学、コロンビア大学、イリノイ大学アーバナ・シャンペーン校、およびシカゴ大学が共同でMMLUをリリースしました。大規模なマルチタスク言語理解テストは、モデルの英語の学際的な専門能力を測定します。このテストは、社会科学、人文科学、科学、技術、工学、数学(STEM)など、さまざまな教育分野をカバーしています。

さらに、c-Eval評価は、53の科目をカバーする13,948の多肢選択問題を含む中国の基本モデル評価です。この評価基準は、清華大学、エジンバラ大学、上海交通大学の共同努力によって作成およびリリースされました。

AGIEvalおよびC-Evalテストの結果は、Ernie 3.5が他の大型モデル、ChatGPTを含めて高いスコアを獲得し、GPT-4を上回ったことを示しています。また、Baidu AIモデルはChatGPTの40.27ポイントとGPT-4の56.96ポイントを上回り、64.37ポイントの驚異的なスコアを獲得し、第1位を獲得しました。中国のc-Eval評価では、Ernie 3.5がChatGPTを上回りました。中国のAIモデルは最高得点の71.93ポイントを獲得し、ChatGPTは51.70ポイント、GPT-4は68.57ポイントを獲得しました。さらに、BaiduはErnie 3.5が「優れた中国語能力」を持ち、ChatGPTおよびGPT-4を上回ったとも述べています。