OpenAIの動画生成AI、Sora（ソラ）がすごい！Soraが生成したビデオ動画

AIについての研究や開発を行う会社、OpenAI（オープンエーアイ）。そのOpenAIが、文章で指示した内容の動画を作ることができる、Sora（ソラ）というAIモデルを開発し、Soraによって作られた動画を公開しました。

Sora（ソラ）ってなに？

Sora は、テキストの指示から現実的で想像力豊かなシーンを作成できる AI モデルです。

Sora is an AI model that can create realistic and imaginative scenes from text instructions.　
（OpenAIウェブサイトより）

つまり、作りたい動画の内容を、文章で入力するだけで、指示通りの内容の動画を自動で生成してくれるのです。Soraは、言葉で入力したものをビデオに変換してくれます。
視覚的な品質を保ちつつ、ユーザーの指示（プロンプト）に従いながら、最長 1 分のビデオを生成することができます。

そして、2024年2月にOpenAIが公開した動画がこちらです。

イタリアの町の、建物の窓から覗くダルメシアン

いかがですか？とてもリアルですよね。しかし、これは全てAIが作ったものであり、本物ではありません。
これが、どうやってつくられたかというと、以下の文章を入力することにより作られました。

Prompt: The camera directly faces colorful buildings in Burano Italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.

（和訳）
プロンプト（指示）: カメラはイタリアのブラーノ島にあるカラフルな建物に直接向きます。建物の 1 階にある窓から、愛らしいダルメーションが覗いています。建物の前の運河の通りを歩いたり自転車をしたりする人がたくさんいます。

Soraによる生成AIの動画では、まだいくつかの不十分な点も見受けられる

こんな文章だけでの指示で、こんなにもリアルなビデオが作れてしまうAI。とても優秀だと思いますが、まだまだ発展途上であるため、いくつかの改善点もあるようです。

　指示では「建物の１階の窓」と言っていますが、周りの建物と比べると、1階のようには見えません
　「運河の通りを歩いたり自転車をしたりする人」とありますが、運河も自転車に乗る人も見えません
　ダルメシアンが隣の窓へ飛び移っていますが、よく見ると窓の緑の扉は、足元の白い部分よりも外側にせり出ています。それを向こう側へ飛び越えるのは、物理的に不可能・・・

ただ、Soraは文章の入力間違いを、意図した形に理解してくれる能力もあるようです。
上記では、「ダルメシアン（dalmatian）」をおそらくタイプミスで「ダルメーション（dalmation）」と入力してしまったようです。そこをしっかりと、ダルメシアンで生成してくれていますね。

バースデーケーキで誕生日を祝う人々

誕生日のお祝いでロウソクを吹き消そうとするお婆さんと、それを祝う人たち。
これの元になった指示と、出来上がった動画の弱点。

Prompt: A grandmother with neatly combed grey hair stands behind a colorful birthday cake with numerous candles at a wood dining room table, expression is one of pure joy and happiness, with a happy glow in her eye. She leans forward and blows out the candles with a gentle puff, the cake has pink frosting and sprinkles and the candles cease to flicker, the grandmother wears a light blue blouse adorned with floral patterns, several happy friends and family sitting at the table can be seen celebrating, out of focus. The scene is beautifully captured, cinematic, showing a 3/4 view of the grandmother and the dining room. Warm color tones and soft lighting enhance the mood..

Weakness: Simulating complex interactions between objects and multiple characters is often challenging for the model, sometimes resulting in humorous generations.

（和訳）
きれいにとかした白髪のおばあさんが、木製のダイニングルームのテーブルで、たくさんのろうそくのついたカラフルなバースデーケーキの後ろに立っており、その表情は純粋な喜びと幸福の 1 つであり、その目には幸せな輝きが見られます。彼女は前かがみになり、優しく息を吹きかけながらろうそくの火を吹き消します。ケーキにはピンクのフロスティングとスプリンクルが施され、ろうそくの明滅は止まります。おばあさんは花柄で飾られた水色のブラウスを着ています。幸せな友人や家族数人がテーブルに座っています。祝っているのが見えたが、焦点が合っていなかった。このシーンは映画のように美しく撮影されており、祖母とダイニングルームの 3/4 のビューが示されています。温かみのある色調と柔らかな照明が雰囲気を高めます。

弱点: オブジェクトと複数のキャラクターの間の複雑な相互作用をシミュレートすることは現行モデルにとって困難なことが多く、場合によってはユーモラスな生成が発生することがあります。

（以上、OpenAIより）

ブログの投稿をするコーギー犬

こちらの動画は、たったの1文だけで作られました。

Prompt: A corgi vlogging itself in tropical Maui.

（和訳）
プロンプト（指示）: 熱帯のマウイでビデオブログを投稿しているコーギー。

こんなかわいい動画も全てAIによるものです。
ただ、ちょっと気になる部分も。コーギー犬の影は、ちゃんと犬の動きに合わせて動いていますが、そのコーギーがつけている携帯カメラの影は微動だにしていません。

現行モデルのSoraには、まだ弱点もある

あっという間にリアルな動画を生成してくれるSoraですが、OpenAIによると弱点もあるようです。

The current model has weaknesses. It may struggle with accurately simulating the physics of a complex scene, and may not understand specific instances of cause and effect. For example, a person might take a bite out of a cookie, but afterward, the cookie may not have a bite mark.

The model may also confuse spatial details of a prompt, for example, mixing up left and right, and may struggle with precise descriptions of events that take place over time, like following a specific camera trajectory.
（OpenAIより）

（和訳）
現行モデルには弱点があります。複雑なシーンの物理を正確にシミュレートするのに苦労する可能性があり、原因と結果の特定のインスタンスを理解できない場合があります。たとえば、人がクッキーをかじったとしても、その後クッキーに噛み跡が残らない可能性があります。

現行モデルには弱点があります。複雑なシーンの物理を正確にシミュレートするのに苦労する可能性があり、原因と結果の特定のインスタンスを理解できない場合があります。たとえば、人がクッキーをかじったとしても、その後クッキーに噛み跡が残らない可能性があります。

今後は誰でも動画生成AIが使えるようになるか？

2024年2月時点では、このSoraは、一般の人向けには利用できるようになっていません。現時点では、ビジュアルアーティスト、デザイナー、映画製作者といったクリエイターや専門家のみにアクセスが許可されています。

将来的には一般の人も使えるようになるのでしょうか？
OpenAIは、「クリエイティブな専門家にとって最も役立つようにモデルを進化させる方法についてのフィードバックを得るため」にアクセスを許可しているということですから、Soraがより良くなるように改善しています。
改善した後に、一般の人にも公開されるかはわかりません。

「クリエイティブな専門家にとって役立つように」と言っていますので、現時点では専門家向けに開発や利用を想定しているかもしれません。

今の段階では、生成AIを利用して悪意のあるものがつくられたりする可能性がありますし、生成AIを使って作られた動画なのか、本当に撮影された動画なのかの見分けがつかないなど、安全性に関わる問題が残っています。

そういった課題をクリアすることができれば、近い将来、誰もが生成AIを利用できる日がくるかもしれませんね。