GGUF量化对比:

F16版本理论精度最高、效果最好(占用内存显存依然较高,计算速度有所提升),Q8牺牲一定精度换取速度和内存(类比dev fp8.safetensor),Q6其次,Q5再次,Q4同理(Q4_1版本运行速度快,占用内存小,效果优于sdxl底模,属于家庭版PC显卡可用的状态,猫子推荐使用)。


请将下载模型文件放在ComfyUI/models/unet中


模型文件需要配合ComfyUI-GGUF自定义节点一起使用:

本地克隆请在cmd中输入git clone  https://github.com/city96/ComfyUI-GGUF.git

或者 查看GitHub自述以了解更多说明  https://github.com/city96/ComfyUI-GGUF


这是black forest-labs/FLUX.1-dev的直接GGUF转换。低显存即可使用,理论上甚至6GB即可。。。转载自:city96: https://huggingface.co/city96/FLUX.1-dev-gguf


这是量化模型而不是微调,故与原模型所有的限制/许可条款一致。



如尝试自行转换请参考GGUF文档: https://github.com/intel/neural-speed/blob/main/neural_speed/convert/convert_chatglm.py#L148


请参考这张图表了解量化类型的基本概述: https://github.com/ggerganov/llama.cpp/blob/master/examples/perplexity/README.md#llama-3-8b-scoreboard