Stable Diffusion

Stable Diffusion是基於擴散技術的深度學習文本到圖像模型，於 2022 年發布。這模型以 CLIP ViT-L/14 文本編碼器的文本嵌入為條件，旨在從文本和圖像提示中生成逼真圖像。使用 256 個 Nvidia A100 GPU 在 AWS 上訓練，耗時 15 萬 GPU 小時，花費 60 萬美元。它能僅通過輸入文本生成高質量、逼真的圖像，最新版本是Stable Diffusion XL（SDXL），具有更大的 UNet 主幹網絡，可生成更高質量圖像。

Stable Diffusion已在多項測試展現才能，如 SAT、LSAT 和統一司法考試，分別獲得第 94、88 和 90 百分位數。在醫學應用中，也超過 USMLE 及格分數 20 分以上。然而，模型可能會出現幻覺且決策過程缺乏透明度。

模型存在降解和不準確性問題，最初訓練於 512×512 分辨率圖像數據集，遠離此分辨率會降低生成圖像質量。SD 2.0 引入本地 768×768 圖像生成功能。挑戰包括生成人類肢體，LAION 數據庫質量較差。SDXL 1.0 引入 1024x1024 圖像和改進的生成。對於新用例需重新訓練，如生成動漫角色，需要新數據和訓練。用戶可自由商業使用生成的輸出圖像。

模型主要以英文描述的圖像訓練，可能存在算法偏見風險。因在訓練中使用 Getty Images 圖像，Stability AI 遭起訴。2023 年 7 月，法官傾向駁回 Andersen、McKernan 和 Ortiz 提出的大部分訴訟。