# 解析量化误差:集中对齐的视角 ## 摘要 量化是一种关键的模型压缩技术。。
量化可以大幅提高大型语言和视觉模型的效率,但通常会导致精度下降。最近,函数保留变换(例如旋转、Hadamard变换、通道级缩放)已被成功应用于降低后训练量化误差,但其原理解释仍不明确。我们通过信噪比(SQNR)分析线性层量化,表明对于固定比特宽度的均匀整数量化,SQNR分解为(i)权重和激活的浓度(捕捉分布和异常值),以及(ii)其主要变化方向的对齐。这揭示了一个可操作的洞察:除了浓度——大多数先前变换(例如旋转或Hadamard)的重点——改进权重和激活之间的对齐可以进一步降低量化误差。基于这一动机,我们引入块浓度-对齐变换(CAT),一种轻量级线性变换,使用小校准集的协方差估计来联合改进浓度和对齐,近似最大化SQNR。在多个大型语言模型上的实验表明,CAT在4比特精度下始终匹配或超越先前的基于变换的量化方法,确认了我们框架中获得的洞察。
赞
评论
请
登录后发表观点
