作为一名从 Stable Diffusion 1.4 版本就开始折腾的老玩家,我见过太多新手被各种专业术语和复杂参数吓退。其实只要掌握核心原理和几个关键技巧,任何人都能在30分钟内生成高质量的AI绘画作品。这篇文章将用最直白的语言,带你快速上手Stable Diffusion,从零开始创作属于你的赛博猫娘壁纸。
Stable Diffusion(简称SD)是目前最流行的开源文本生成图像模型,它最大的优势是可以在消费级显卡上运行,而且生成效果媲美专业画师。不同于需要复杂手绘基础的绘画软件,SD只需要你输入文字描述(prompt),就能自动生成对应的图像。无论是二次元角色、写实风景还是抽象艺术,只要描述得当,SD都能帮你实现。
SD的核心是一个称为"扩散模型"的神经网络架构。它的工作原理可以类比于我们小时候玩的"猜画"游戏:
这个过程通常需要20-50步迭代,每一步都会让图像更接近你的预期。在技术实现上,SD使用了"潜在扩散"(Latent Diffusion)技术,先在低维的潜在空间(Latent Space)中进行计算,大大降低了显存需求。
SD的工作流程涉及三个核心组件:
这三个组件协同工作,就像一支高效的创作团队:
虽然SD可以在多种设备上运行,但为了获得最佳体验,建议满足以下配置:
如果你的设备不达标,也可以使用云服务如Google Colab运行SD,后文会详细介绍。
推荐使用Automatic1111的WebUI,这是目前最流行的SD界面:
bash复制# 克隆仓库
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
# 安装依赖
pip install -r requirements.txt
# 下载基础模型(约4GB)
wget https://huggingface.co/runwayml/stable-diffusion-v1-5/resolve/main/v1-5-pruned.ckpt -O models/Stable-diffusion/v1-5-pruned.ckpt
# 启动WebUI
python launch.py
启动后,在浏览器访问http://localhost:7860即可看到操作界面。
Prompt(提示词)是与SD沟通的关键。一个好的Prompt应该:
示例Prompt:
code复制cyberpunk catgirl, neon city background, leather jacket, glowing eyes, anime style, detailed face, masterpiece, 8k
负面Prompt告诉SD哪些元素不要出现在图像中。常用负面Prompt:
code复制lowres, bad anatomy, extra fingers, mutated hands, poorly drawn face, mutation, deformed, blurry, bad proportions, extra limbs, cloned face, disfigured, out of frame, ugly, extra limbs, bad anatomy, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, mutated hands, fused fingers, too many fingers, long neck
在WebUI中:
等待约30秒,你的第一张AI猫娘就诞生了!
直接生成高分辨率图像容易导致显存不足。Hires.fix采用两阶段生成:
启用方法:
ControlNet允许你精确控制生成图像的构图和姿势:
bash复制git clone https://github.com/Mikubill/sd-webui-controlnet.git extensions/sd-webui-controlnet
bash复制wget https://huggingface.co/lllyasviel/ControlNet-v1-1/resolve/main/control_v11p_sd15_openpose.pth -O models/ControlNet/control_v11p_sd15_openpose.pth
LoRA(Low-Rank Adaptation)是小型的风格适配模型,可以快速改变生成图像的风格:
bash复制wget https://civitai.com/api/download/models/12345 -O models/Lora/ghibliStyle.safetensors
code复制<lora:ghibliStyle:0.8> 1girl, ghibli background
症状:生成的人物面部畸形、比例失调
解决方案:
症状:生成的图像细节不足、模糊
解决方案:
症状:生成过程中报CUDA out of memory错误
解决方案:
bash复制pip install xformers
不同采样器适合不同场景:
| 采样器 | 特点 | 适用场景 |
|---|---|---|
| Euler a | 速度快,创意性强 | 快速探索想法 |
| DPM++ 2M Karras | 平衡速度和质量 | 日常使用 |
| DPM++ SDE Karras | 质量最高,速度慢 | 追求极致细节 |
CFG Scale控制SD遵循Prompt的严格程度:
种子值决定随机初始状态:
SD生成的图像可以进一步优化:
基础模型:
动漫风格:
写实风格:
在线社区:
教程推荐:
Prompt工具:
第一阶段(1-2周):
第二阶段(1个月):
第三阶段(长期):
记住,SD只是一个工具,真正的创造力来自于你自己。多尝试、多实验,随着经验的积累,你会逐渐发展出自己独特的工作方式和艺术风格。