AI绘画A卡折腾记录

莱依拉冲鸭 · 2025 年3 月 20 日 04:37

之前在sd吧发过记录贴，这里同步一下，希望跟大家一起交流分享相关技术。
主要内容是尝试用amd的7800xt跑秋叶的comfy整合包。

1-1.下载安装comfy的本体。
选用的是b站“秋葉aaaki”的comfy整合包，版本为v1.6（2025.2.4更新，在他的视频评论区置顶里）。
下载完后先校验压缩包的完整性，与他置顶评论的SHA1校验码经比对是一致的，于是解压。
解压后得到一个新的文件夹。由于我是webui老用户，电脑已经装的有webui，所以可以按照秋葉aaaki视频里的做法，将webui的模型共享给comfy，不用重复复制模型了。

1-2.打开“绘世启动器.exe”，如果直接点一键启动，可能会出现以下报错。
这个报错的意思是你没有安装amd的hip sdk。
解决方法：直接点下面的选项“前往AMD官网下载HIP SDK”，一定要下载【5.7.1】这个版本。其他版本绘世启动器不支持，哪怕比5.7.1还要新的也无法被绘世启动器识别到。

安装完hip sdk后，再次打开绘世启动器，直接点一键启动，但这次可能会出现一个新的报错。
新的报错的意思是绘世启动器自带的pytorch版本不兼容zluda。
解决方法：直接点下面的选项“前往高级选项安装PyTorch”。在“安装PyTorch”这一栏选择要安装的版本，一定要选带有【CUDA 11.8】字样的版本，选完后点下面的安装。

莱依拉冲鸭 · 2025 年3 月 20 日 04:39

2.Comfy正式启动
学comfy我推荐先把SD文生图的原理理解清楚，要不然到时候自己搬弄节点时根本不知道哪里连哪里。
Stable Diffusion文生图的原理简单来讲如下图所示：
先由CLIP模型将人类语言文本翻译成机器语言（文本特征向量），
然后SD模型和采样器一起合作，将机器语言（文本特征向量）转换成类似机器眼里的图像（潜在空间信息），
最后由VAE模型将机器眼里的图像（潜在空间信息）翻译成人类能看懂的图像，也就是我们看到的ai图。

理解完上述原理后，还有一个知识点我们也能看懂了：
编码（Encode）和解码（Decode），这两个词就是上面讲到的“翻译”。
编码是把人类语言翻译成机器语言，解码就是把机器语言翻译成人类语言或人类能看懂的东西。
所以，CLIP模型在SD里也叫做文本编码器（Text Encoder），与此相对，VAE模型也叫做图像解码器（Image Decoder）。