OpenAIのSora画像ジェネレーターはまだ道半ば
本記事はFastcompanyより翻訳されたものです。
『ザ・フライ』で、ジェフ・ゴールドブラム演じる科学者セスが、あるポッドから別のポッドにステーキをテレポートしようとして失敗するシーンを覚えているでしょうか?「合成の味がする」と科学ジャーナリストのロニー(ジーナ・デイヴィス)は言います。「コンピューターは再現するのではなく、再考しているのです。そして、何かが翻訳中に失われています。」先週、OpenAIの新しいツール「Sora」によって作成されたビデオを見て、最初に口をあんぐりと開けてしまった反応を乗り越えたとき、私はこのシーンとこの問題を思い出した。
Soraは、拡散モデルの精度とトランスフォーマ・モデルのスケーラビリティを活用したハイブリッド・アーキテクチャを採用しています(つまり、モデルに与える計算能力が高ければ高いほど、より良い結果が得られるということです)。出来上がった動画は、この分野のリーダー的存在であるRunwayのテキストから動画へのジェネレーターで作成されたものよりもリアルで視覚的に美しいです。
しかし、いくつかのSoraのビデオをよく見ると、亀裂が見え始めました。物事の形や動きは、もはや悪夢のようにバカバカしいほど間違ってはいませんが、呪縛を解くにはまだ不十分です。ビデオの中の物体はしばしば不自然な動きをします。人間の手の生成は、場合によっては難題のままです。フラッシュ・アピールの割には、Soraはまだ不気味の谷に片足を突っ込んでいます。
このモデルは、物体や表面上の光の戯れ、表情の精巧さ、物の質感を支配する物理法則に対する真の理解がまだ欠けているようです。だからこそ、テキストを映像に変換するAIは、何千人もの俳優を失業させるまでには至っていないのです。しかし、ソーシャルメディア向けの短期広告など、「ジャスト・イン・タイム」あるいは「ちょうどいい」動画を制作するのにSoraが役立たないとは言い切れません。
OpenAIは、大規模言語モデルのサイズ、学習するデータ量、使用する計算能力を増加させることで、その能力を急速に向上させることができました。GPT-4を支えるトランスフォーマーアーキテクチャーのユニークな点は、予測可能で(驚くほど)生産的な方法でスケールアップします。Soraも同じトランスフォーマーアーキテクチャーの上に構築されています。GPT言語モデルで見られたような急速な改善が、Soraでも数年以内に見られるかもしれません。
以上、OpenAIにより発表された最新動画生成AIツールSoraのレビューを紹介しました。今のAIトレンドに関心を持つ方に、テキストをベースにAIで背景を自動生成するeBizシリーズのAI背景生成、写真をアップロードしたらAIが背景を切り抜きする背景透過ツールBGremoverを試すのをおすすめします。