DALL-Eは既存の画像をどこまで再現できるのかテストしてみました

2024年1月19日

お世話になっております。アイオイクスのニイザワでございます。

今回はみんな大好きDALL-Eについてです。

すごい勢いで進化を続けるAI生成技術。僕個人としては、人間の代替としてAIに任せる仕事の中でも、画像の生成は特に注目されていると考えています。というのも、AIに生成させた絵は既にマネタイズされており、ブログに使うベクター画像なんかも、ゆくゆくは自分でAIに生成させるようになっていくのではないでしょうか。

ただ、DALL-Eを触ってみた方であればなんとなく分かっていただけると思うのですが、DALL-Eは画像を生成するにあたって苦手な分野があるようでして・・・

それが恐らく「指定されていない部分の補完」なのではないかと考えています。

DALL-Eは賢いので、被写体の風貌から背景までを細かく指示せずとも、勝手に要素を補完してくれる素晴らしいAIなのですが、実はこれが結構な足枷になっているようです。

少ないやりとりで画像を生成させてみる

まずは今回使用する、ChatGPT上で機能するDALL-Eの仕様をおさらいしておきましょう。

テキストで指示を入力してから画像が生成されるまでには、下記のようなプロセスを踏む必要があります。

①ChatGPTに指示を出す

②ChatGPTがDALL-Eに人間からの指示を翻訳して出力する

③DALL-Eが画像を生成する

ざっくりで恐縮ですが、これらのプロセスを踏むにあたって、①と③が直結していると考えていると、思った通りの画像を生成することが出来ません。

指示が足りていないと、勝手に②の時点でChatGPTが補完してしまうので、「なんとなく雰囲気は掴めてるんだけど細かいところが全然違う・・・」という問題が起きるわけですね。そうなると、指示の出し直しを続ける事になり、時間が無駄に流れていく・・・といった悲しい結果を生んでしまいます。

そんなGPTあるあるを打破すべく、「なるべく最小限のやりとりで思った通りの画像を生成させる方法」を模索してみました。

例えば仮に、AIにこんな画像※

を生成させたいとします。

この時重要なポイントが、「プロンプトに齟齬が生まれない事」です。

なるべく詳細に、明確に指示を出すわけですね。

細かく指示を出しながら、AIが誤認したり、解釈の幅が広すぎたりしない事を意識しましょう。

今回作ったプロンプトがこちらです。↓

「白い文字で「LYFT」とプリントされた黒いパーカーに黒いパンツ、黒いサンダルを履いたスキンヘッドのアジア人男性が正面を向いて立っている。彼は一般的な白いマスクを着用しており、彼の上半身は大きく、眉毛は太い。壁は白く、床はグレー。」

このように要素を指示することで、

・人種

・身体的特徴

・服装

・色情報

・背景情報

を明確に伝える事ができ、1発でこんな画像を生成させることができます。

多少ベイマックスみたいになりましたが、かなり最初の画像に近いのではないでしょうか。

これくらいシンプルな背景と服装、ポーズであれば、もはや1回の生成で上手いこと画像を生成させることが可能なんですね。

ちなみに今回起こってしまった「指定されていない部分の補完」は、靴下を履いていないところに現れています。

「サンダルを履いている」＝当然素足だろう、という補完が行われていると考えられます。

ある程度類推して生成が行われているようなので、不自然にはなっていないんですね。凄いぞDALL-E！

【検証】言語化の難しいポーズでも同じことが出来るのか？

例えばこんな画像※を作りたいとしましょう。

※弊社事業部の山内さんに犠牲になっていただきました。

先程お伝えしたとおり、これに近似した画像を生成するには、この写真に含まれる要素を一度全て言語化し、齟齬がないようにChatGPTに指示を投げる必要があります。

つまり、人種、髪型、背景、服装、体型、ポーズなんかを完全に指定するプロンプトを書く必要があるわけです。

そしてこの検証のキモはここにあります。

「全ての要素をAIに伝わるように言語化するって気軽に言うけど、言語化できない要素があったらどうなるの？」

という当然の疑問を抱きますよね。このポーズとか特にそう。数回のやりとりで再現できるものなんでしょうか？

とりあえずこんなプロンプトを作ってみましょう。

「髪型はセンターパートで、白いビジネスシャツと黒いデニムを履き、黒い革靴を履いた若いアジア人男性が、白い壁とグレーの床に脚をクロスさせて立ち、両腕をYの形に広げている写真を生成してください。」

なんかイケメンになっちゃいましたね・・・

では違いを見ていきましょう。

・顔ちょっとイケメンすぎるなあ・・・

・裾のロールアップは要らない・・・

・なんかネクタイ締めてますね・・・

・ポーズが全然違いますね・・・

概ねこんな感じでしょうか。なるほど、服装とか顔とかに多少のゆらぎがある事は置いておいて、ポーズがちゃんと伝わってない気がしますね。

今度は生成した画像を基に、修正を依頼して理想に近づけていきましょう。

手順が少ないに越したことは無いにせよ、無理に1撃で完璧なものを作ろうとしなくてもいいんですよ。

逆に、一発で生成させるプロンプトを考えるよりも、思い描いた画像を最短ルートでビャっと直してしまう方が速かったりします。

ではサクッと直していきましょう。

まああとはもう微調整というか、仕上げの工程ですから。サッとやっちゃいましょう。

～中略～

全然サッとできませんでした。

結構惜しいとこまで迫ってると思うんですけどね・・・。

なんかポーズが安定しないので、ここに改善の余地がありそうです。

ひょっとして、「脚をクロスさせて立つ」が正しく理解できていないのでは？

まず、前提として日本語は習得難度めちゃくちゃ高いと思います。

それをAIがAIに伝えるのって、解釈の幅とか考えたら絶対にめちゃくちゃ効率悪いんですよ。

あ、そうでした。実はChatGPT→DALL-Eの工程で1回英訳を挟んでます。実際にGPTからDALL-Eに指示を出す時は英語のプロンプトに直されています。

よし！では試しに、実際にChatGPTが使ったプロンプトを見てみましょう。

長っ。

これを見ると、これまでに出した指示が英語に翻訳されてDALL-Eに伝わっていることがわかります。

「Standing his legs crossed」は「脚を組んで立っている」みたいに解釈されて、上手いこと伝わっていない可能性がありそうですね・・・。他にも、何度も同じ修正を依頼した結果、そのまま重複した指示を飛ばしていることが見て取れます。

では、この辺りを少し手直しして、・・・

「A full-body portrait of a young Asian man with black hair, in a vertical image. He is displaying a humorous expression, standing straight with his legs crosswise. Now, his arms are raised up in V-shape. He is wearing a white business shirt without a tie, black denim jeans without rolled cuffs, and black leather shoes. The background is a white wall and a grey floor. The image should capture the entire body from head to toe, creating a joyful and playful atmosphere.」

こうすれば、全ての要素について指示を出すことができ、完璧な画像が生成できるわけですね。なるほど、やはり日本語プロンプトで指示を出すと、細かい解釈に不一致が生まれてしまうと。

いやあ、勉強になりました。どれ、この素晴らしい英語プロンプトで生成した画像を見てみましょうか。