Stability AI、日本特化の商用利用可能 text-to-image モデル「Japanese Stable Diffusion XL」をリリース

2023年11月17日（現地時間） ‐Stability AI は、日本特化の商用利用可能 text-to-image モデル「Japanese Stable Diffusion XL」のリリースを発表しました。

Japanese Stable Diffusion XL
利用とダウンロード

Japanese Stable Diffusion XL

「Japanese Stable Diffusion XL（JSDXL）」は、日本語入力はもちろん、日本の文化やものが理解・反映された画像生成に特化させた日本向け text-to-image モデルです。SDXL 1.0をベースにファインチューニングされたモデルとなっています。

昨今、SDXL を含む多くの text-to-image モデルが公開されており、翻訳ツールを組み合わせる必要があり、日本特有の表現の認識が難しい点や開発コストがかかる点、モデルが認識できるテキスト最大文字数の制限などの課題があります。また、英語プロンプトをそのまま「呪文」として扱い画像生成することも可能ですが、大規模に学習されたモデルは西洋系の画像生成が得意であり日本スタイルの画像生成がまだまだ物足りないのが現実です。

「JSDXL」は、Stable Diffusion の中で最高性能である SDXL の汎用性と高解像度の画像生成能力をできる限り維持したまま、以下の点を可能にした日本特化モデルとなっています。

日本語をモデルが直接扱うことができ、日本語特有の表現を認識可能
日本の広範囲な文化やアート、伝統的なものから現代的なものまで含め、それらを反映した高解像度で質の高い画像を作成することが可能

また、SDXL にはテキストエンコーダーが2つありますが、「JSDXL」には1つのみであるため、SDXL と比べ、より効率的な推論が可能になります。

使用例としては、日本市場向けのプロダクトデザイン、建築・インテリアデザイン、プロモーション資料・広告の制作、ゲーム・メタバース・映画制作においてのアイデア出しなどが想定されています。また、「JSDXL」をさらに任意のドメインの画像にチューニングすることで、よりユーザーのニーズに即した画像生成が可能になります。