Metaの新しい「Voicebox」AIは、ChatGPTのように学習するテキスト読み上げツールです

Meta AIは、最新の人工知能モデルと同等の性能を持つテキスト音声変換(TTS)ジェネレーターの結果を、最大20倍速く生み出すと主張する「画期的な」Voiceboxを発表しました。

新しいシステムは、OpenAIのChatGPTやGoogleのBardに類似したモデルを採用し、従来のTTSアーキテクチャを避けています。

ElevenLabs Prime Voice AIなどの類似するTTSモデルとの主な違いの1つは、Metaのオファリングがコンテキスト学習を通じて一般化できることです。

ChatGPTやその他のトランスフォーマーモデルと同様に、Voiceboxは大規模なトレーニングデータセットを使用します。大量のオーディオデータを使用した以前の試みは、重大な劣化したオーディオ出力を引き起こしました。このため、ほとんどのTTSシステムは、小さな、高度にキュレーションされた、ラベル付きのデータセットを使用します。

Metaは、ラベルとキュレーションを放棄し、「インフィリング」オーディオ情報を行うことができるアーキテクチャを備えた新しいトレーニングスキームによって、この制限を克服しています。

Meta AIは6月16日のブログ投稿で述べたように、Voiceboxは「最先端のパフォーマンスで実現することに特化してトレーニングされていない音声生成タスクに一般化できる最初のモデルです。」

これにより、Voiceboxはテキストを音声に翻訳し、置換音声を合成して不要なノイズを除去し、スピーカーの声を異なる言語出力に適用することができます。

Metaによると、MetaのVoiceboxシステムは、所望の出力テキストと3秒間のオーディオクリップのみを使用して、これらすべてを実現することができます。

堅牢な音声生成の登場は、ソーシャルメディア企業がモデレーションに苦戦し続けている特に敏感な時期に来ています。米国では、迫り来る大統領選挙が再びオンラインの偽情報検出の限界を試すことになる可能性があります。

たとえば、元米国大統領のドナルド・トランプ氏は、退任後に機密政府資料を誤って扱ったとの疑惑に直面しています。彼に対する訴訟で引用された証拠の1つに、潜在的な不正行為を認めたとされる音声録音があります。

現在のところ、元大統領がオーディオファイルで説明された内容を否定するつもりがあるという兆候はありませんが、彼のケースは、データの完全性が米国の法制度の中心にあり、それに伴い、その民主主義にあることを示しています。

Voiceboxは、そのようなツールの最初ではありませんが、最も堅牢なものの1つであるようです。そのため、Metaは、同社が「実際の音声とVoiceboxで生成された音声の違いを簡単に検出できる」と主張する、それが生成した音声かどうかを判断するツールを開発しました。投稿によると:

「他のパワフルな新しいAIの革新と同様に、この技術が悪用される可能性や意図しない害をもたらす可能性があることを認識しています。私たちは、論文で、Voiceboxで生成されたオーディオと本物の音声を区別することができる非常に効果的な分類器を構築した方法について詳しく説明しています。」

仮想通貨界では、AIは、インターネットや電気と同じように、ほとんどのビジネスにとって日々の業務に不可欠な存在となっています。最大の取引所は、顧客とのやり取りや感情分析にAIチャットボットを頼り、取引ボットも一般的になっています。

関連記事: Bybitは、AIパワードトレーディングツールにChatGPTを接続します

音声合成システムのVoiceboxのような堅牢なテキスト音声変換システムの登場は、自動化された取引と組み合わせることで、現在は暗号通貨用語や多言語サポートに苦労する可能性のある暗号通貨トレーダーの溝を埋めるのに役立つかもしれません。