跳到主內容

Stable Diffusion

image.png

Stable Diffusion是基於擴散技術的深度學習文本到圖像模型,於 2022 年發布。這模型以 CLIP ViT-L/14 文本編碼器的文本嵌入為條件,旨在從文本和圖像提示中生成逼真圖像。使用 256 Nvidia A100 GPU AWS 上訓練,耗時 15 GPU 小時,花費 60 萬美元。它能僅通過輸入文本生成高質量、逼真的圖像,最新版本是Stable Diffusion XLSDXL),具有更大的 UNet 主幹網絡,可生成更高質量圖像。

Stable Diffusion已在多項測試展現才能,如 SATLSAT 和統一司法考試,分別獲得第 9488 90 百分位數。在醫學應用中,也超過 USMLE 及格分數 20 分以上。然而,模型可能會出現幻覺且決策過程缺乏透明度。

模型存在降解和不準確性問題,最初訓練於 512×512 分辨率圖像數據集,遠離此分辨率會降低生成圖像質量。SD 2.0 引入本地 768×768 圖像生成功能。挑戰包括生成人類肢體,LAION 數據庫質量較差。SDXL 1.0 引入 1024x1024 圖像和改進的生成。對於新用例需重新訓練,如生成動漫角色,需要新數據和訓練。用戶可自由商業使用生成的輸出圖像。

模型主要以英文描述的圖像訓練,可能存在算法偏見風險。因在訓練中使用 Getty Images 圖像,Stability AI 遭起訴。2023 7 月,法官傾向駁回 AndersenMcKernan Ortiz 提出的大部分訴訟。