[Stable Diffusion] 聞くけどよく知らなかった AI画像生成を知る

警告

当記事にはAIによって生成された画像が多数掲載されています。

触れる機会があったので
雑多な記事だが参考までに

Stable Diffusion とは

公式の説明は公式にさせるとして、Stable Diffusion は AI画像生成のフレームワークの様子。
これに様々な追加要素を加えることで、画像生成の幅を変えることができる。

オンラインのサービス郡

Dream Studio

https://beta.dreamstudio.ai/
知り合いから教えてもらったもの、基本有償、ただしいくらかは無償で使える
Stable Diffusion と、次世代?の SDXL に対応

作ったもので一番マシなものは下記
イラストを作るとき、適当な指示を出すとすぐ破綻する AI らしさがあるサービス

bing Image Creator

https://www.bing.com/images/create
bing が 2023/11/6 時点試験的に実装している? 生成サービス
DALL-E 3 を採用している

イラスト生成の難易度はかなり低い
後述する(はず)の「ネガティブプロンプト」無しである程度期待した画像が出力できる
下記に2点挙げておく

無償で使える方法はないか? stable-diffusion-webui について

さて、ここからが私らしい技術屋の記事となる
Stable Diffusion、SDXL、DALL-E 3 といった生成の「モデル」はあるが、
このうち「Stable Diffusion」「SDXL」はローカルで扱う方法がある。

GitHub – AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI
Github のこちらを採用する。
Python 3.10 固定(上でも下でもダメ)、Git も必要だが、
技術屋なら知ってるアイテム郡なので難なく入れられるはず、というか人によっては入ってる

stable-diffusion-webui トラブルシューティング

起動時にエラー

TypeError: AsyncConnectionPool.__init__() got an unexpected keyword argument 'socket_options'

webui 1.6.0 での不具合らしい

TypeError: AsyncConnectionPool.__init__(), new install bug, httpx==0.24.1 · Issue #13840 · AUTOMATIC1111/stable-diffusion-webui · GitHub
これを参考に「requirements_versions.txt」に「httpx==0.24.1」を追記することで起動するようになる

AI画像生成の方法：プロンプトを操る

これが結構難しい
例えばアーマードコアっぽい絵がほしい、と指示をしたとする

こんな感じのものが出来上がってくる
・・・まあ MT なら存在するかも知れないが、目的はACだ

試行錯誤でこんな感じになる
ところで、左下に何か出ているが、これは多分学習元の絵に載っているもの

じゃあ銃を持った女の子の絵でも出すか

笑顔でなんて銃を持ってるんだ・・・というかその銃はどこが銃口だ・・・

一番マシなのがこちら、人じゃなくて銃が

といった具合に、「良い感じに目的に沿った絵」というのはなかなか出てくれない
なので、AI画像生成できれいに出ているイラストは相当「指示」が考えられたものか、
AI画像生成のあと手動で調整しているかになる

人として最低限出せるようにする：ネガティブプロンプト

例えば「奇形で出すな」といった指示をするのが「ネガティブプロンプト」
人を目的として「女の子」と指示しても、AIは「女の子」は「それっぽいもの」からしか作れないので、
異業種が好きな人のイラストをラーニングしていると、変な形でどうしても出てくる
それを「可能な限り」回避する

探せばいくらかサイトが出るので、好きなものを選択してネガティブプロンプトに入れると良い
【Stable Diffusion】おすすめのネガティブプロンプトまとめ！ | PROMPTY (bocek.co.jp)
【汎用例コピペOK】Stable Diffusionのおすすめのネガティブプロンプト一覧と使い方 | Romptn Magazine

・・・それでも先述のようなイラストにはなる
何度も試行して良いものを出してくれるのを待つ

オンラインサービスは高いか？安いか？

さて、ローカルで実行できるようになった Stable Diffusion
オンラインサービスはもういらんわ！と思うかも知れない

ローカル生成めっちゃ時間かからん？
GPU 唸らん？
オフィスPCでは多分使い物にはならなさそう

オンラインサービスはそれらを解決している
つまりかなりのスペックで AI画像生成のサービスを提供していることになる
スペックが上がるということは、サービス提供するためのサーバー群の価格も上がる
どれだけの金額がかかっているか・・・無償分の提供も考えると回収できているんだろうか?

AI画像生成は完全な悪か？

実際に触ってみるとプロンプトの検討に時間がかかったり、
PCが専有されたりと結構負担になるところも多い
ただ、何よりも良いのは「絵師となることを諦めた人たちが何とか自分のイメージを生成できるようになった」こと

いや、諦めずに頑張れよとは思うかも知れないが、
それができずに折れてしまった人が何とか表現する方法ができたのは一概に悪いとは言えない
反面、手軽さが仇に妙なイラストが蔓延しているのも事実、
またイラストレーターの画風を真似てしまうのも課題

AI画像生成が人の手助けになるところまで成長すれば、より受け入れられるのかもしれない
例えばご飯を炊くのだって、人は鍋で炊飯することは殆どしないように

警告