TECHNOLOGY
「ChatGPT Advanced Voice Mode」のリリースで変わる、人間とAIの関係
目次
アメリカ現地時間の2024年9月24日、OpenAIが「ChatGPT Advanced Voice Mode」を公開、ChatGPTサブスクリプションユーザーなどを対象にサービスを開始した。
ChatGPTとの音声によるやり取りを可能にする同サービスは、もともと今年2024年5月にサービスのローンチが予定されていたが、ある有名女優とのトラブルなどによりスケジュールに遅延が生じていた。
より人間に近づいたとされる「ChatGPT Advanced Voice Mode」のリリースは、我々の生活にどのようなインパクトを与えるのか。人間とAIの関係をどのように変える可能性があるのか、考察したい。
「ChatGPT Advanced Voice Mode」とは何か?
「ChatGPT Advanced Voice Mode」は、OpenAIが開発した、ChatGPTと人間との音声による対話を可能にするChatGPTの拡張サービスだ。同時にリリースされたStandard版とAdvance版のうちの上位バージョンで、現時点ではサブスクリプションサービスのPlusとTeamユーザーに対して月間利用制限付きで提供されている。
OpenAIの最新シリーズChatGPT-4oのネイティブオーディオ機能をベースに開発されていて、通常の対話に加えて話し手の対話のスピードや感情表現なども読み取り、「普通の人間との対話」に近い対話を可能にしているとされている。
「ChatGPT Advanced Voice Mode」のあるアメリカの先行ユーザーは、「ChatGPT Advanced Voice Mode」は先駆者のSiriやAlexaなどよりも「より流動的で、より流暢で、よりオーセンティックである」と表現している。対話相手の微妙なニュアンスを読み取り、学習し、相手が真に伝えたいことは何かを解釈した上で会話をする。
この「自己完結性」というフィーチャーがこれまでにないほどに強化されているのが「ChatGPT Advanced Voice Mode」のもっとも優れている点のひとつだ。話し手が話を途中で断絶させても、それまでの文脈などから意味を推論して会話を続け、情報を収集・分析しながら洗練させてゆく。「ChatGPT Advanced Voice Mode」は会話における優れた話し手であると同時に、「優れた聞き手」でもあるようだ。
「問題になった」女優の音声を除いた九つの音声が対応
ところで、「ChatGPT Advanced Voice Mode」では、どのような音声が対応してくれるのだろうか。OpenAIによると、「ChatGPT Advanced Voice Mode」では、それぞれ「明瞭な音声と性格を持った」Arbor(アーバー)、Breeze(ブリーズ)、Cove(コーブ)、Ember(アンバー)、Juniper(ジュニパー)などの九つの音声が対応してくれる。Arborは「イージーゴーイングで多彩」、Breezeは「アニメ風で真面目」、Coveは「良く練り上げられて直接的」、Emberは「自信に満ちて楽観的」、Juniperは「オープンでアップビート」といった具合だ。
なお、「ChatGPT Advanced Voice Mode」には当初、Skyという名の女性の音声が標準で搭載される予定だった。SkyはOpenAIの2024年度春季アップデートでも紹介されて先行ユーザーの期待を集めたが、今回のリリースには含まれなかった。ハリウッドの著名女優が「自分の声に似すぎている」というクレームを出し、OpenAIがリリースを諦めたためだが、一部のファンには残念な結果となった。AIが人間社会でのプレゼンスを拡大してゆく今後、AIの「生成された声」と既存の著名人などの「本当の声の持ち主」が、「声の肖像権」(Right of publicity, またはright of ownership)を巡って本格的に闘う時代の幕開けを知らせるような事件となった。
なお、AIによる著名人の「声の肖像権」侵害をめぐる問題は、アメリカでもこれまでに決定的な法的判断が示されておらず、今後の動向が注視されているところである。
Google、Metaも続いて音声対応型AIをリリース、競争激化
OpenAIによる「ChatGPT Advanced Voice Mode」リリースのニュースを待っていたかのように、競合するMetaも音声対応型AI「MetaAI Voice」をリリースしている。
「MetaAI Voice」はユーザーがRay-Banのスマートグラスなどの専用デバイスを使って対話をするのが特徴で、デモンストレーションではRay-Banスマートグラスを身に付けたザッカーバーグCEOが片手にアボカドを持ち、「これでどんな料理が作れるかな?」とMetaAIに話しかけているシーンが公開されている。「これ」が「アボカド」であるという説明なしの問いかけをMetaAIが画像や音声から判断し、対話を成立させていることを示すシーンだが、音声以外の情報も同時に処理し、理解していることを示している。
Googleも、ほぼ同時期に音声対応型AI「Google Gemini Live」をリリースしている。「Google Gemini Live」は、すべてのAndoroidユーザーに無料で提供されるもので、「ChatGPT Advanced Voice Mode」の最大の直接的ライバルであると言えるだろう。
「Google Gemini Live」でも10種類の音声が対応しており、ユーザーフレンドリーなAIとの対話を実現している。ユーザーが話を途中で遮っても文脈から意図を理解するなど、「自己完結的機能」は「ChatGPT Advanced Voice Mode」と遜色なく、ストレスフリーなユーザビリティを提供している。
AIが「人間のアシスタント」から「自己完結的存在」に?
OpenAIの「ChatGPT Advanced Voice Mode」のリリース、そしてほぼ同時期に行われたMetaの「MetaAI Voice」とGoogleの「Google Gemini Live」の相次ぐリリースは、筆者にひとつの新たな時代の幕開けを感じさせている。
それは、AIが単なる「人間のアシスタント」から「自己完結的存在」へと転換するパラダイムシフトと呼ぶべきものだ。AIが人間からのコマンドを受けて各種の処理を行う「受動的存在」から、ユーザーと直接音声で対話し気分や空気なども読み取り状況を理解した上で各種の処理を行う「能動的存在」または「自己完結的存在」へと転換した歴史的瞬間だ。我々は現在、時代の大きなターニングポイントを目撃・体験している。
古典SF映画の傑作『2001年宇宙の旅』では、木製探査宇宙船のコントロールをAI「HAL9000」がすべて自己完結的に行っていたが、いくつかの偶発的な原因が重なって人間に対して反旗を翻していた。
ほとんど宇宙船内における「全能の存在」と化したAIの暴走を、最終的には人間がAIの自立機能をシャットダウンすることで何とか止めることができたが、「HAL9000」のような自我を持った自己完結的AIが絶対に暴走しないという保証できる者は存在しない。
AIと人間の共生という新しい時代の到来を前に、我々人間の側でクリアしなければならない問題はいくつも残されているのではないだろうか。
参考文献
https://help.openai.com/en/articles/8400625-voice-mode-faq
https://every.to/chain-of-thought/review-chatgpt-s-new-advanced-voice-mode
https://www.google.com/url?q=https://help.openai.com/en/articles/8400625-voice-mode-faq&sa=D&source=docs&ust=1728643334271527&usg=AOvVaw3cJnNOdNrb70eUCMyVVxe-
https://www.tomsguide.com/ai/metaai-voice-is-the-latest-voice-assistant-to-launch-heres-how-it-stacks-up
前田 健二
経営コンサルタント・ライター
事業再生・アメリカ市場進出のコンサルティングを提供する一方、経済・ビジネス関連のライターとして活動している。特にアメリカのビジネス事情に詳しい。