Stable Diffusion
Stable Diffusion是基於擴散技術的深度學習文本到圖像模型,於 2022 年發布。這模型以 CLIP ViT-L/14 文本編碼器的文本嵌入為條件,旨在從文本和圖像提示中生成逼真圖像。使用 256 個 Nvidia A100 GPU 在 AWS 上訓練,耗時 15 萬 GPU 小時,花費 60 萬美元。它能僅通過輸入文本生成高質量、逼真的圖像,最新版本是Stable Diffusion XL(SDXL),具有更大的 UNet 主幹網絡,可生成更高質量圖像。
Stable Diffusion已在多項測試展現才能,如 SAT、LSAT 和統一司法考試,分別獲得第 94、88 和 90 百分位數。在醫學應用中,也超過 USMLE 及格分數 20 分以上。然而,模型可能會出現幻覺且決策過程缺乏透明度。
模型存在降解和不準確性問題,最初訓練於 512×512 分辨率圖像數據集,遠離此分辨率會降低生成圖像質量。SD 2.0 引入本地 768×768 圖像生成功能。挑戰包括生成人類肢體,LAION 數據庫質量較差。SDXL 1.0 引入 1024x1024 圖像和改進的生成。對於新用例需重新訓練,如生成動漫角色,需要新數據和訓練。用戶可自由商業使用生成的輸出圖像。
模型主要以英文描述的圖像訓練,可能存在算法偏見風險。因在訓練中使用 Getty Images 圖像,Stability AI 遭起訴。2023 年 7 月,法官傾向駁回 Andersen、McKernan 和 Ortiz 提出的大部分訴訟。
