Wan2.2 GGUF 版本
- QuantStack/Wan2.2-TI2V-5B-GGUF(文生图&图生视频)
Wan2.2-TI2V-5B-Q8_0.gguf
- QuantStack/Wan2.2-T2V-A14B-GGUF(文生图)
Wan2.2-T2V-A14B-HighNoise-Q6_K.gguf
Wan2.2-T2V-A14B-LowNoise-Q6_K.gguf
- QuantStack/Wan2.2-I2V-A14B-GGUF(图生视频)
Wan2.2-I2V-A14B-LowNoise-Q6_K.gguf
Wan2.2-I2V-A14B-HighNoise-Q6_K.gguf
---------------------------------------------------------------------
万相GGUF量化版 Wan2.2-TI2V-5B-Q8_0
GGUF量化版是基于GGUF格式的量化模型:
GGUF即GPT-Generated Unified Format,是一种专为大型语言模型设计的二进制文件格式,由llama.cpp创始人Georgi Gerganov提出,用于高效存储和交换大模型的预训练结果。其量化原理是通过降低模型权重的精度,如将32位浮点数压缩到4位、3位等,减少内存占用,同时保持较高的推理速度和生成质量。
多量化精度支持 :支持多种量化精度,如2-8比特等,用户可根据自身硬件条件和需求选择合适的量化精度,以在模型体积和性能之间达到平衡。例如,Qwen3-30B-A3B的GGUF量化版本支持2比特、3比特、4比特、5比特、6比特和8比特的量化选项。
模型体积小 :通过量化技术,GGUF量化版模型的体积大幅减小,便于存储和分发,降低了对设备存储空间的要求,也使得模型的加载速度更快。
高效推理 :在CPU上推理速度快且内存效率高,特别适用于GPU内存不足的情况。如Qwen1.5模型在4-bit量化后,能够在CPU上达到每秒20个token的吞吐量。
兼容性好 :兼容多种客户端和库,如llama.cpp、LM Studio、text-generation-webui等,便于在不同的平台和环境中部署和使用,如OpenAudio的GGUF量化版本可通过本地URL访问,实现离线运行。
单文件部署 :将模型、分词器以及运行模型所需的所有代码都封装在一个文件中,简化了模型的部署和加载过程,用户只需加载一个文件即可开始推理,无需额外的配置或依赖。
资源受限设备 :可在显存有限的设备上运行,如普通个人电脑、老旧设备等,降低了硬件门槛,使更多用户能够使用复杂的模型进行推理和生成任务,如Flux的GGUF版本最低仅需6GB显存即可运行。
离线应用 :由于其单文件部署和良好的兼容性,适合在离线环境中使用,如在没有网络连接的设备上进行文本生成、图像生成等任务,保证了数据的隐私性和安全性。
多模态任务 :能够支持多模态输入和文本输出,具备长上下文处理、视觉识别和结构化输出能力,可应用于视觉智能**、文档处理等场景。