DALL-Eは既存の画像をどこまで再現できるのかテストしてみました

お世話になっております。アイオイクスのニイザワでございます。

今回はみんな大好きDALL-Eについてです。

すごい勢いで進化を続けるAI生成技術。僕個人としては、人間の代替としてAIに任せる仕事の中でも、画像の生成は特に注目されていると考えています。というのも、AIに生成させた絵は既にマネタイズされており、ブログに使うベクター画像なんかも、ゆくゆくは自分でAIに生成させるようになっていくのではないでしょうか。

ただ、DALL-Eを触ってみた方であればなんとなく分かっていただけると思うのですが、DALL-Eは画像を生成するにあたって苦手な分野があるようでして・・・

それが恐らく「指定されていない部分の補完」なのではないかと考えています。

DALL-Eは賢いので、被写体の風貌から背景までを細かく指示せずとも、勝手に要素を補完してくれる素晴らしいAIなのですが、実はこれが結構な足枷になっているようです。

目次

少ないやりとりで画像を生成させてみる

まずは今回使用する、ChatGPT上で機能するDALL-Eの仕様をおさらいしておきましょう。

テキストで指示を入力してから画像が生成されるまでには、下記のようなプロセスを踏む必要があります。

①ChatGPTに指示を出す

②ChatGPTがDALL-Eに人間からの指示を翻訳して出力する

③DALL-Eが画像を生成する

ざっくりで恐縮ですが、これらのプロセスを踏むにあたって、①と③が直結していると考えていると、思った通りの画像を生成することが出来ません。

指示が足りていないと、勝手に②の時点でChatGPTが補完してしまうので、「なんとなく雰囲気は掴めてるんだけど細かいところが全然違う・・・」という問題が起きるわけですね。そうなると、指示の出し直しを続ける事になり、時間が無駄に流れていく・・・といった悲しい結果を生んでしまいます。

そんなGPTあるあるを打破すべく、「なるべく最小限のやりとりで思った通りの画像を生成させる方法」を模索してみました。

例えば仮に、AIにこんな画像※

弊事業部の同僚・藤池さんにご協力いただきました

を生成させたいとします。

この時重要なポイントが、「プロンプトに齟齬が生まれない事」です。

なるべく詳細に、明確に指示を出すわけですね。

細かく指示を出しながら、AIが誤認したり、解釈の幅が広すぎたりしない事を意識しましょう。

今回作ったプロンプトがこちらです。↓

「白い文字で「LYFT」とプリントされた黒いパーカーに黒いパンツ、黒いサンダルを履いたスキンヘッドのアジア人男性が正面を向いて立っている。彼は一般的な白いマスクを着用しており、彼の上半身は大きく、眉毛は太い。壁は白く、床はグレー。」

このように要素を指示することで、

・人種

・身体的特徴

・服装

・色情報

・背景情報

を明確に伝える事ができ、1発でこんな画像を生成させることができます。

もう大丈夫だよ、ベイマックス

多少ベイマックスみたいになりましたが、かなり最初の画像に近いのではないでしょうか。

これくらいシンプルな背景と服装、ポーズであれば、もはや1回の生成で上手いこと画像を生成させることが可能なんですね。

ちなみに今回起こってしまった「指定されていない部分の補完」は、靴下を履いていないところに現れています。

「サンダルを履いている」=当然素足だろう、という補完が行われていると考えられます。

ある程度類推して生成が行われているようなので、不自然にはなっていないんですね。凄いぞDALL-E!

【検証】言語化の難しいポーズでも同じことが出来るのか?

例えばこんな画像※を作りたいとしましょう。

非常におもしろいポーズ

※弊社事業部の山内さんに犠牲になっていただきました。

先程お伝えしたとおり、これに近似した画像を生成するには、この写真に含まれる要素を一度全て言語化し、齟齬がないようにChatGPTに指示を投げる必要があります。

つまり、人種、髪型、背景、服装、体型、ポーズなんかを完全に指定するプロンプトを書く必要があるわけです。

そしてこの検証のキモはここにあります。

「全ての要素をAIに伝わるように言語化するって気軽に言うけど、言語化できない要素があったらどうなるの?」

という当然の疑問を抱きますよね。このポーズとか特にそう。数回のやりとりで再現できるものなんでしょうか?

とりあえずこんなプロンプトを作ってみましょう。

髪型はセンターパートで、白いビジネスシャツと黒いデニムを履き、黒い革靴を履いた若いアジア人男性が、白い壁とグレーの床に脚をクロスさせて立ち、両腕をYの形に広げている写真を生成してください。

なんかイケメンになっちゃいましたね・・・

では違いを見ていきましょう。

・顔ちょっとイケメンすぎるなあ・・・

・裾のロールアップは要らない・・・

・なんかネクタイ締めてますね・・・

・ポーズが全然違いますね・・・

概ねこんな感じでしょうか。なるほど、服装とか顔とかに多少のゆらぎがある事は置いておいて、ポーズがちゃんと伝わってない気がしますね。

今度は生成した画像を基に、修正を依頼して理想に近づけていきましょう。

手順が少ないに越したことは無いにせよ、無理に1撃で完璧なものを作ろうとしなくてもいいんですよ。

逆に、一発で生成させるプロンプトを考えるよりも、思い描いた画像を最短ルートでビャっと直してしまう方が速かったりします。

ではサクッと直していきましょう。

まああとはもう微調整というか、仕上げの工程ですから。サッとやっちゃいましょう。

悪魔神ドルバロム
靴下を履け
エレファントカシマシ

~中略~

全然サッとできませんでした。

結構惜しいとこまで迫ってると思うんですけどね・・・。

なんかポーズが安定しないので、ここに改善の余地がありそうです。

ひょっとして、「脚をクロスさせて立つ」が正しく理解できていないのでは?

まず、前提として日本語は習得難度めちゃくちゃ高いと思います。

それをAIがAIに伝えるのって、解釈の幅とか考えたら絶対にめちゃくちゃ効率悪いんですよ。

あ、そうでした。実はChatGPT→DALL-Eの工程で1回英訳を挟んでます。実際にGPTからDALL-Eに指示を出す時は英語のプロンプトに直されています。

よし!では試しに、実際にChatGPTが使ったプロンプトを見てみましょう。

長っ。

これを見ると、これまでに出した指示が英語に翻訳されてDALL-Eに伝わっていることがわかります。

「Standing his legs crossed」は「脚を組んで立っている」みたいに解釈されて、上手いこと伝わっていない可能性がありそうですね・・・。他にも、何度も同じ修正を依頼した結果、そのまま重複した指示を飛ばしていることが見て取れます。

では、この辺りを少し手直しして、・・・

「A full-body portrait of a young Asian man with black hair, in a vertical image. He is displaying a humorous expression, standing straight with his legs crosswise. Now, his arms are raised up in V-shape. He is wearing a white business shirt without a tie, black denim jeans without rolled cuffs, and black leather shoes. The background is a white wall and a grey floor. The image should capture the entire body from head to toe, creating a joyful and playful atmosphere.」

こうすれば、全ての要素について指示を出すことができ、完璧な画像が生成できるわけですね。なるほど、やはり日本語プロンプトで指示を出すと、細かい解釈に不一致が生まれてしまうと。

いやあ、勉強になりました。どれ、この素晴らしい英語プロンプトで生成した画像を見てみましょうか。

ね?簡単でしょ?

まとめ

というわけで、「言語化の難しいポーズの再現は難しい」ということが分かりました。

恐らくこれが、「ファイティングポーズ」であるとか「Y字バランス」のような、名前のあるポーズであれば、最初に生成していた画像のように、簡単に、ごく短時間で生成できていたと考えられます。

「生成AIに指示を出して画像を生成してもらう」ということは、言うなれば「電話越しに相手に絵を描かせる」感覚というか、単純な図形のように、それそのものが想像できる名前がついたものであれば、最小限の言葉で描かせることが可能です。

一方で、書かせたい画が複雑になればなるほど指示に必要な言葉は増えていき、それと比例して伝達の齟齬も生まれやすくなるというわけですね。

今後AIの成長はそれすらも超えてくるかもしれませんが、今のところの限界はこの辺りにありそうです。

おまけ【あのポーズ何だよ編】

あのポーズの再現ができなかったので、実際に画像を読み込ませてプロンプトに直したらどうなるのか訊いてみました。

「明るい雰囲気」!?

ほんとに?それ描ける?

大丈夫?

AIさんは賢いもんね?信じるよ?

いいのね?

話が違うぞ!!!!!

「もうお手上げです」ってか!

お後が宜しいようで・・・。

アイオイクスではSEOを軸としたWebコンサルティングサービスを提供しています。

いわゆるSEOの型に沿った施策ではなく、お客様の事業やWebサイトの構成を踏まえた最適な施策のご提案を重要視しています。SEOにお困りの際はぜひご相談ください。
SEOコンサルティング サービスページ

アイオイクスでは一緒に働く仲間を募集しています

アイオイクスのWebコンサルティング事業部では、「一緒に挑戦し、成功の物語を共有する」という理想像を掲げ、本質的な取り組みを推進しています。私たちと汎用性の高いスキルを突き詰め、自由に仕事をしていきませんか。

メールマガジンの登録はこちら

SEOに関連する記事の更新やセミナー情報をお届けします。

  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

新澤大のアバター 新澤大 セールス/アソシエイト

アイオイクスのコンサルタント。
2024年の目標は「蝶のように舞い、蜂のように刺す」。

目次