ポイント
- OpenAIは、ユーザーを選択するために、ChatGPTの待望のAdvanced Voice Mode(AVM)をアルファ版で開始します。
- AVMにより、テキスト音声合成を使用したChatGPTとのリアルタイム会話が可能になります。
- この機能は、人間同士の会話を自然なリズムで模倣することを目的としています。
- OpenAIは安全性を重視し、誤用を防ぐためのガードレールを実装しています。
OpenAIは、ChatGPTに待望の「AdvancedVoiceMode」(AVM)を導入し、一部のユーザーがアルファ版で利用できるようになりました。安全性と微調整のために数回の遅延を経た後、AVMを使用すると、ユーザーはテキスト読み上げ合成モジュールを通じてChatGPTとリアルタイムで会話できるようになります。
この機能は、Googleの2018年のDuplex AIサービスを彷彿とさせます。このサービスは、カジュアルな会話を処理し、情報を正確に確認できるほど堅牢なAIを実現することを目的としていました。GoogleのDuplexプロジェクトは最終的に閉鎖されましたが、その遺産はOpenAIのChatGPTに生き続けています。
AVMは、人間同士の会話を模倣するリアルタイム通信を特徴としています。ChatGPTは自然なリズムで人間のような声で応答し、AIが会話を追跡しながら、ユーザーは文章の途中でチャットボットを中断することができます。このレベルのインタラクションは、より没入型で現実的なユーザーエクスペリエンスを作成することを目的としています。
安全性を確保し、悪用を防ぐために、OpenAIはいくつかの対策を講じています。このモデルは4つのプリセット音声のみで話し、これらの音声から逸脱する出力をブロックするシステムが導入されています。さらに、ガードレールは、暴力的なコンテンツや著作権で保護されたコンテンツのリクエストをブロックするように設計されています。
この機能は限定アルファ版でリリースされたため、OpenAIは引き続きその機能と安全性への影響を評価できるようになりました。5月の最初のデモは印象的でしたが、いくつかの不具合もあり、潜在的な悪用シナリオが依然として懸念されています。OpenAIは、プライバシーと安全性の問題に対処するために、45言語にわたって100人の外部レッドチーマーと音声機能をテストしました。
AVMの展開は定期的に開始されており、さらに多くのユーザーが「順次」追加されることが予想されます。OpenAIは、秋までにすべてのPlus加入者がこの機能を利用できるようにし、この革新的なテクノロジーへのアクセスを拡大する予定です。
解説
- AdvancedVoiceMode(AVM)は、AIと人間の対話における大幅な進歩を表し、ChatGPTとのリアルタイムで自然な音声の会話を提供します。
- プリセット音声やコンテンツガードレールなどのこの機能の安全対策は、悪用を防止し、ユーザーのプライバシーを確保するために非常に重要です。
- OpenAIの慎重な展開戦略は、広くリリースする前にAVMの機能を改良し、潜在的な安全上の懸念に対処するという取り組みを反映しています。
- AVMの成功は、より高度なAIアプリケーションへの道を切り開き、顧客サービスからパーソナルアシスタントに至るまで、さまざまな業界のユーザーエクスペリエンスを向上させる可能性があります。
- 初期のユーザーからのフィードバックを取り入れることで、OpenAIはAVMを継続的に改善し、高い機能性と安全性の基準を確実に満たすことを目指しています。