论文
登录后可查看剩余解析次数。
标签筛选
大语言模型量化
OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting
发表:2025/1/23
大语言模型量化正交与缩放变换量化空间利用率KL-Top损失函数后训练量化
本文提出了一种名为OSTQuant的新方法,通过正交和缩放变换优化大型语言模型的量化,旨在解决数据分布不均和重尾问题。引入的量化空间利用率(QSUR)有效评估数据的可量化性,并采用KLTop损失函数提高量化精度,测试结果显示该方法在保持高精度的同时显著优于现有技术。
02
FlatQuant: Flatness Matters for LLM Quantization
发表:2024/10/12
大语言模型量化后训练量化方法权重和激活扁平化Kronecker积矩阵优化LLaMA-3-70B模型评估
本文提出了一种新的训练后量化方法FlatQuant,通过优化权重和激活的平坦度,显著减少了大语言模型的量化误差。FlatQuant为每个线性层识别最佳仿射变换,利用克罗内克积降低运行时开销,实验表明其在LLaMA370B模型上设立了新基准,准确率下降不到1%,速度提升达2.3倍。
05