【速報】OpenAIの衝撃的な新発表 – 無料ユーザーも使えるGPT-4o登場でChatGPTが大進化 OpenAI Announces “GPT-4o”

2024年5月14日

OpenAIの共同創設者であるサム・アルトマン氏が、GPT-4の大規模アップデートを予告し、AIコミュニティに衝撃が走っています。米国時間5/13 午前10時、日本時間5/14 午前2時に発表されました。OpenAIのこのアップデートは、GPT-5や検索エンジンではなく、「魔法のよう」と表現されるほどの画期的な内容になるとの告知通りリアルタイム音声会話などさらに進化した内容となりました。

OpenAIが革新的な新AIモデル「GPT-4o」を発表し、AIの世界に大きな衝撃が走っています。GPT-4oの最大の特徴は、GPT-4レベルの高度な知能を無料ユーザーにも提供することです。これにより、より多くの人々がAIの力を体験できるようになります。

GPT-4oは、テキスト、画像、音声にわたって能力が向上しており、ユーザーとのインタラクションがより自然でスムーズになっています。無料ユーザーもGPT-4o、ビジョン機能、メモリ機能などを利用できるようになり、AIの恩恵を受けられる人々の範囲が大幅に拡大します。

さらに、GPT-4oはAPIでも提供されるため、開発者は今すぐにGPT-4oを使ってアプリケーションを構築し、大規模に展開することができます。GPT-4 Turboと比較して、GPT-4oは2倍の速度、50%の低コスト、5倍の高いレート制限を実現しています。

OpenAIは、GPT-4oの幅広い能力を示すために、リアルタイム音声会話、ビデオとのインタラクション、コーディング支援、数式の理解、言語間の翻訳などのデモを行いました。GPT-4oは、自然な会話や割り込みを理解し、感情を察知することができます。また、コーディングや数学の問題解決においても、ユーザーに寄り添ったサポートを提供します。子供を寝かしつける物語を読み聞かせ、声のトーンを劇画調にしたり、歌いながら読んだりなどまるで人のような音声機能。

OpenAIは、GPT-4oの機能を今後数週間かけて順次公開していく予定です。AIの新時代を切り開くこの革新的なモデルに大きな期待が寄せられています。同時に、OpenAIは安全性と倫理的な課題にも真剣に取り組んでおり、政府、メディア、エンタテインメント、その他あらゆる業界のステークホルダーや研究者、市民社会と協力して、これらの技術を最善の方法で世界に提供することを模索しています。

また、今回のアップデートにて、マルチモーダルな機能も大きな注目点です。GPT-4oは、テキスト、画像、音声を統合的に処理することができます。つまり、ユーザーは画像をアップロードしてその内容について質問したり、音声で会話をしたりすることが可能になります。これにより、AIとのコミュニケーションがよりシームレスで直感的なものになります。

例えば、ユーザーが旅行先の写真をアップロードして、その場所の歴史や見所について尋ねることができます。GPT-4oは画像を分析し、関連する情報を提供してくれます。また、音声での会話では、GPT-4oが自然な口調で応答し、ユーザーの感情を察知して適切に反応します。

このマルチモーダルな機能は、Accessibilityやユーザーエクスペリエンスにおいて大きな意味を持ちます。テキストだけでなく、画像や音声でもAIとコミュニケーションできることで、より多様なユーザーがAIを活用できるようになります。また、インタラクションの選択肢が広がることで、ユーザーは自分に最も適した方法でAIとやり取りできます。

OpenAIとNVIDIAの協力により、AIはますます身近な存在になりつつあります。GPT-4oの登場で、ChatGPTはさらなる進化を遂げ、より多くの人々がAIのメリットを享受できるようになるでしょう。教育、ビジネス、エンターテイメントなど、様々な分野でGPT-4oの活用が期待されます。

AIの未来は明るく、GPT-4oはその先駆けとなる存在です。OpenAIは今後も革新的な技術を開発し、AIを誰もが利用できる身近なツールにしていくことを目指しています。GPT-4oの登場により、私たちはAIとのコラボレーションによって、これまでにない創造性と生産性を発揮できるようになるでしょう。

今回、メジャーなアップデートはあえて行わず、GPT-4oとあくまで4のバージョンアップという形をとったのも夏に発表が噂されるGPT5への布石という形をとったものと思われます。GPT５ではエージェント機能などかなり画期的な機能の実装が予想されます。今後に期待です。

・平均320ミリ秒と人と同じレベルの音声会話の反応速度を実現、人の感情も読み取り、ジョークも通じる
・リアルタイム翻訳
・GPT-4oの実装　速度2倍、制限を5倍まで緩和、テキスト・音声・画像を同一のニューラルネットワーク処理
・音声機能はセキュリティ等に配慮し今後数週間以内に公開