DALL-E 2とは、OpenAIが開発した大規模な言語モデル・画像生成モデルです。テキストの説明から画像を生成し、現実的で高品質な画像を生成することができます。DALL-E 2は、テキストと画像の膨大なデータセットでトレーニングされています。
このデータセットには、テキストと画像のペアが含まれています。テキストは、画像の説明であり、画像は、テキストに従って生成されます。DALL-E 2は、このデータセットから学習し、テキストの説明から画像を生成する能力を獲得しています。
150回の生成作業でUS$15です。
日本語ではなく、英語でどんな画像を生成して欲しいかを打ち込んで生成してもらいます。試しに日本語で入力しましたが、全く理解できないという様子ではなかったです。構文(依頼文)のことを、プロンプトと言います。日本語をGoogleやChantGPTで翻訳してもらって貼り付けましょう。ChatGPTとの連携方法もあるので、そのうち日本語で大丈夫になると思います。
ChatGPTは大まかなプロンプトで良いのですが、画像生成AIはこのプロンプトの書き方によってすごく差がでます。
特に人物画像は目や目の周辺が変に形成されます。
例えば、この画像は「オフイスで働く東洋人男女3人づつの画像」を英訳して入力したのですが以下のような画像が生成されました。
DALL-E2で生成された画像
ちょっと目のあたりが変です。
少しはまともですが、違和感があります。ちょっと使えないです。
DALL-E2でまともな画像を生成する方法
プロンプトを磨く、これしかありません。
ちょっと、プロンプトを工夫すればこのくらいの画像がすぐできます。
The DALL E2 prompt book マニュアル
これを見て学んで下さい。 なぜURLがhttpsでなくhttpになっているのかわかりませんが。
URL:https://dallery.gallery/wp-content/uploads/2022/07/The-DALL%C2%B7E-2-prompt-book-v1.02.pdf
参考ブログ
この方のブログはすごく役に立ちます。
結果として興味のある方は参考になるし、最初から諦めて、外注に出して自分の業務に集中した方が良いと思う人も多数いると思います
まとめ
画像生成AIは、Stable Diffusionというのも有名で、使用法はアマゾン等で検索すればたくさん本が出版されています。
これは自分のパソコンで動作するので非常に高性能なGPU(画像表示プロセサー)が必要です。
普通の事務処理パソコンでは対応できないと思っておいて下さい。
DALL-E2はクラウドで生成するので、自分のパソコンの性能は関係ありません。低スペックでも利用できます。
画像生成AIはどんなものか、知っておく必要はありますが、実際の作業はセンスのある人に依頼した方がよいでしょう。
追信: 無料で使えるAI画像生成ソフト
Bing Image Creator というマイクロソフトのサービスがあります。クラウド上で動作します。
Bing Image Creator は、テキストから AI 画像を生成するツールです。OpenAI の最新 DALL-E モデルを採用しています。
ということで、試してみました。
こっちの方が出来が良いかも知れません。
URL: https://www.bing.com/create?toWww=1&redig=EEB345A3B1F3425DBE1B567B1799AA0C
プロンプトは英語で、上述した The DALL E2 prompt book を参考に、詳細に書くとかなり良い画像が出来上がります。
100あるカウンターが画像生成ごとに1づつ減ってゆくので、無料は100回までかも知れません。