一、量化领域的核心矛盾 — 为什么这事到 2026 还没做完
🎵 一个类比:把一首交响乐压成 MP3。
原始信号是 16-bit 浮点(FP16/BF16),有几乎无损的细腻度。要省存储和带宽,得把它压成 4-bit、2-bit 甚至 1-bit。问题是音乐里有些片段(鼓点峰值、特定乐器独奏)能量极强(outlier),如果用一个统一的"音量旋钮"去调,要么峰值削顶失真,要么其他段听不清。量化研究的本质,就是给不同段落动态选不同的"音量旋钮",并且要让放音设备(GPU)能高效解码。
大语言模型的"信号"是权重(W)、激活(A)、KV cache、梯度、优化器状态。把它们压到 4-bit 的吸引力是显存 4×、带宽 4×、Tensor Core 算力 2-4×、单位 token 成本下降一个量级。但每一类信号都有自己的 outlier 模式,每一种压缩方式都要和硬件指令集对齐。这件事看似在 2024 年(QuaRot/SpinQuant 的 W4A4 风暴)就要做完了,但到 2026 年依然有 91 篇 ICLR 论文在做——为什么?
三条根本原因让量化研究在 2026 仍然热门:
- 过训模型反量化 — Kumar et al. (ICLR 2025) 证明:训练 token 越多,PTQ 退化越严重。LLaMA-3 (15T)、Qwen3 (36T) 撞墙明显。Tim Dettmers 评为"近期最重要的 paper"。
- 新硬件格式重塑游戏 — NVFP4/MXFP4/MXFP8 不是简单的 INT4 替代品,每种格式有独特的缩放行为,"4-bit"已经不是一个概念,而是 INT4/MXFP4/NVFP4 三套不同的算法-硬件协同。
- 量化与推理模型的相互作用 — DeepSeek-R1 类长 CoT 模型的 W4A4 退化高度任务依赖:常规 PPL/MMLU 几乎无损,但 AIME-120 类硬题最高掉 4×。误差沿 CoT 累积,是 2026 年最热的开放问题。
二、ICLR 2026 量化论文总览(94 → 91 篇)
本调研从 OpenReview API 用 ~50 个量化相关关键词穷尽扫描 ICLR 2026 全部接收论文(>5300 篇),过滤后得 197 个候选;再经人工边缘案例审计,最终圈定 94 篇送入逐篇 HTML 写作流程。其中有 3 篇被 Sonnet 阅读 PDF 后判定为误判(详见下表 stride 跳过项),实际收录 91 篇真正的模型量化论文。
2.1 按方向分布(一篇可在多个类别)
| 方向 | 论文数 | 代表作 | 战线饱和度 |
| PTQ(含 PTQ-analysis) | 38 | TurboBoA, OBR, MR-GPTQ, SliderQuant, SERQ | 中等 主战场 |
| Hardware-aware | 21 | MicroMix, MR-GPTQ, AnyBCQ, LogART | 高速增长 |
| Mixed-precision | 20 | Compute-Optimal QAT, ChanMix, STaMP, MoE-Quant | 活跃 |
| KV cache quant | 15 | PM-KVQ, ThinKV, ChanMix, KV Transform Coding | 最热 |
| Quant + Prune / LowRank | 13 | OBR, QWHA, SERQ, CoA-LoRA, SNAP-UQ | 活跃 |
| Diffusion / Video Quant | 12 | SVDQuant 衍生、QVGen、DVD-Quant、QuantSparse | 高速增长 |
| Vector quant(含边缘案例) | 10 | DiVeQ, KBVQ-MoE, NuBitQ, Multi-Boolean | 活跃 |
| Rotation / Hadamard | 8 | ParoQuant, MR-GPTQ, QWHA, CodeQuant, Qronos | 饱和 |
| QAT | 8 | BBQ, Compute-Optimal QAT, Tequila, Arbitrary Precision | 复活 |
| Binary / Ternary | 6 | Tequila, PT²-LLM, Multi-Boolean, BEP, Masked Binary U-Net | 突破期 |
| Optimizer-quant / Low-precision-training | 5+3 | Metis, MOSS, Low-bit Muon, Adam FP convergence | 最热 |
| Vision quant(专用) | 4 | InlierQ Object Detection, PTQ Video Matting, SPR²Q, Masked Binary U-Net | 中等 |
| VLM / VLA quant | 4+1 | QVLA, WSVD, LLaVA-FA, Multi-Boolean | 突破期 |
| Quant for RL | 3 | QeRL, QuRL, ATPO(误判) | 突破期 |
| MoE quant | 3 | MoE-Quant, CodeQuant, KBVQ-MoE | 活跃 |
| Quant for Fairness / Adversarial | 2 | TriQDef, Fair Multi-Feature | 小众 |
| Continual Quant | 1 | QGP Continual | 小众 |
2.2 按目标模型分布
LLM 主流(含 Reasoning-LLM, MoE)
30+ 篇
绝对主战场。Reasoning-LLM 单独成势(11 篇)。
扩散 / 视频生成
16 篇
Video DiT 量化大爆发。SANA-Video 是 Oral。
VLM/VLA/Vision
9 篇
QVLA 是首个 VLA 量化工作(Oral 候选水平)。
SSM / 新架构
2-3 篇
SSDi8 把 Mamba-2 的 SSD 内部打通 INT8。
三、发展时间线 — ICLR 2026 在历史中的位置
从 2024 到 2026 的三大范式转移
| 维度 | 2024 | 2026 (ICLR) |
| 主流低位格式 | INT4 (Marlin/per-group 128) | NVFP4 / MXFP4 / FP4 三足并立 |
| "4-bit"含义 | Weight 量化 + group scale | Weight + Activation + KV + Optimizer 全 4-bit |
| Outlier 处理范式 | Smoothing / Mixed precision | Rotation 已成事实标准(QuaRot/SpinQuant 后继) |
| 评估 metric | WikiText-2 PPL + MMLU | +AIME / MATH / 长 CoT / FID-视频 |
| 研究焦点 | "如何不掉点" | "硬件协同 + 长 CoT 推理一致 + native 训练" |
四、分类体系 — 13 个研究方向
五、PTQ 主线(GPTQ/AWQ/Rotation 后继者)
PTQ 是 ICLR 2026 数量最多的方向(38 篇)。从 ICLR 2025 的 OSTQuant 之后,PTQ 主线分裂为四条支流:(1) 更精的补偿(GPTQ 系列改进)、(2) 更好的旋转(Hadamard 后继)、(3) 结构化分析(理论等价性 / lattice)、(4) 更快的算法(去 BP / 一次过)。
5.1 GPTQ 补偿与误差控制(5 篇)
[017] TurboBoA — 多通道闭合解把 BoA 顺序量化步数从 128 降到 8(N=16),3-4× 速度,与 QuaRot/OSTQuant 组合刷新 INT2 / W2A4KV4 双 SOTA。
[010] Rethinking Residual Errors — 揭示 GPTAQ 把"补偿后输出"当目标的系统偏差,CAE 项加 5% 时间换 LLaMA2-7B C4 PPL 13.60→8.34。
[023/025] GPTQ as Babai's Nearest Plane(双独立等价证明) — 两篇独立证明 GPTQ 与 1986 年 Babai 算法等价,自动继承格论误差上界,开启 LLL 改进路径。
[051] LogART — 对数后训量化的极限推进,硬件友好 LUT 实现。
5.2 Rotation 后继 — 不再是 Hadamard 一家独大
[006] ParoQuant — Givens 成对旋转替代全 Hadamard,CUDA 完全并行;推理任务 Avg 61.9(vs AWQ 59.5, QTIP 61.0),W4A16。
[018] MR-GPTQ (Bridging MXFP4 Gap) — 关键论文:解析证明 Hadamard 旋转对 NVFP4 (G=16) 有害,提出块级 micro-rotation;MXFP4 W4A4 recovery 87.83% → 93.31%,QuTLASS 内核反超 NVFP4 ~15%。
[021] QWHA — Walsh-Hadamard adapter for QA-PEFT,2-bit 极限上 LLaMA-3.1-8B GSM8K +3.94。
[031] SliderQuant — 不是新旋转,而是发现"浅/深层比中间层难量化",三种自适应滑窗(PESW/FSSW/PCSW);W4A4 LLaMA2-7B PPL 12.73→8.34,无额外推理开销。
[054] Qronos — 跨模态(KV/Diffusion)的旋转-补偿统一框架。
[064] Quantized VGGT — 把 rotation 范式搬到 Vision Geometry Transformer。
5.3 结构化补偿 / 联合压缩(4 篇)
[008] OBR (Optimal Brain Restoration) — Hessian 群误差闭合解 Δw_R* = −H_RR⁻¹·H_RE·e_E 化解量化偏好平坦 vs 剪枝偏好高方差的根本冲突;W4A4KV4 + 50% 稀疏,LLaMA2-7B PPL 8.40 (vs SparseGPT+GPTQ 12.94),4.72× 推理加速。
[019] SERQ — 单一 Saliency-Aware 低秩矩阵替代 L²QER 的两个串行矩阵,消除推理期在线量化;W4A4 LLaMA-2-7B PPL 5.97。
[045] UniQL — 统一量化 + 低秩压缩,目标 SSM/边缘 LLM。
[072] GlowQ — Group-shared low-rank approximation,分组共享降低低秩开销。
5.4 PTQ 公式核心(取 OBR 的 Hessian 群补偿为例)
对 group-wise 量化误差 e_E ∈ ℝ^|E|,未量化区 R 的最优补偿:
Δw_R* = − H_RR⁻¹ · H_RE · e_E
其中 H = X^T X 是 calibration Hessian,下标 R / E 分别是未量化与已量化通道集合。
这条闭合解是 OBS(Optimal Brain Surgeon, 1992)的现代复活——把"删一个权重"换成"动一组权重应对量化-稀疏耦合误差",统一了 GPTQ/SparseGPT/AWQ 的补偿哲学。
六、KV cache 量化与长上下文(15 篇)
KV cache 量化是 ICLR 2026 增长最快的子方向。原因:长上下文(100K-1M token)+ 推理模型(长 CoT 输出 5K-20K token)让 KV 显存挤压成为部署瓶颈。
[052] PM-KVQ — Progressive Mixed-precision KV:长 CoT 中"早期 token 重要、后期 token 可激进降位"。
[058] ThinKV — Thought-adaptive:在思考链不同阶段(draft/refine/conclude)用不同 bit-width。
[039] ChanMix — 关键发现:检索通道(retrieval channels)对 2-bit 极敏感;仅升它们到 4-bit,Mistral RULER 从 72.13 恢复到 86.12(接近 86.99 全精度)。
[065] Not All Bits Are Equal — 推理模型上的尺度依赖内存策略:不同模型规模需要不同的 KV 配置。
[066] KV Transform Coding — 把图像压缩的 transform coding 思想搬到 KV cache。
[081] SANA-Video (Oral) — 视频生成中的 block linear diffusion + NVFP4 KV cache,720×1280 / 分钟级视频。
[054] Qronos — KV / diffusion 统一旋转补偿。
[068] Reasoning Inference Serving Unveiled — 大规模实测:KV 量化在 vLLM/SGLang/TRT-LLM 三家上的差异。
[083] Progressive Thought Encoding — 训练阶段引入渐进 KV 压缩,对齐推理时的 KV-quant。
[084] CARE — Covariance-aware + rank-enhanced,让 MLA(Multi-head Latent Attention)的 KV 进一步压缩。
[085] Multi-Head Low-Rank Attention — Multi-head 各自学低秩,等价 KV 压缩。
[087] d²Cache — Diffusion-based LLM 的 dual adaptive cache。
[088] Randomization Boosts KV — 随机化(hashing)+ 学习平衡查询负载。
[089] Cross-Layer Fusion KV — 跨层重构 KV 缓存。
[091] Scaling Attention via Feature Sparsity — 注意力特征稀疏化,配合 KV-quant。
KV cache 量化趋势小结:
- 4-bit KV 在 14B+ 模型 + 长上下文上已基本 lossless(< 1% 退化);
- 2-bit KV 仍在挑战长 CoT,需要 channel-aware(ChanMix)或 thought-adaptive(ThinKV)混合精度才能保住推理质量;
- 1-bit KV 仅在向量量化 + 系统协同(Kitty/CommVQ)下勉强可用;
- 新方向:MLA / Multi-head Latent 类的"隐式 KV 压缩"开始与显式量化竞争(CARE, MHLA)。
七、扩散与视频生成模型量化(12 篇)
2025 年的 SVDQuant(FLUX.1 W4A4)打开了扩散量化的工程门。2026 年焦点全面转向 视频扩散——参数量更大(5B-30B)、推理时序更长(25-50 步)、KV cache 也长——量化收益更显著。
| 论文 | 对象 | bit | 关键贡献 |
| [007] Gradient-Aligned Calib | Diffusion | W4A8 | 元学习样本权重,LSUN-Bedrooms FID 3.68→3.40 |
| [026] QVGen | Video DiT | low-bit | QAT for video |
| [029] Quant-dLLM | Diffusion-LLM | 2-bit | LLaDA-8B 平均准确率 42.39→54.06 |
| [037] DVD-Quant | Video DiT | W4A4 | Data-free,质量 61.82 vs ViDiT-Q 40.10 |
| [038] PTQ4ARVG | AutoRegressive Visual | 6-8 bit | 视觉自回归生成专用 |
| [043] QuantSparse | Video DiT | W4A8 + 15%稀疏 | HunyuanVideo-13B PSNR 20.88 vs Q-VDiT 16.85;3.68× 压缩 |
| [048] Q&C | Diffusion | — | 量化 × cache 联合优化 |
| [050] Sample/Freq Meta-Weight | Diffusion | W4A32 | 可学习频率权重契合扩散物理;LSUN FID 3.60→3.16 |
| [076] LongLive | Video Diffusion | FP8 | 实时交互长视频 |
| [078] PnP Fidelity | Diffusion Transformer | — | 累积误差最小化 |
| [081] SANA-Video (Oral) | Video Diffusion | NVFP4 | 720×1280 / 分钟级;block linear diffusion |
| [094] PQGAN | Diffusion | — | Product-quantised image representation |
扩散量化的方法学差异
纯 LLM 量化方法(GPTQ/AWQ)在扩散模型上效果不稳——原因有三:(1) 激活分布随 timestep 显著漂移,单一校准集不够;(2) 视觉质量评估(FID/CLIP/人评)不收敛,PPL 等价物缺失;(3) 多步推理让单步误差通过 ODE 积累。2026 年看到三种范式涌现:
- Time-aware calibration(GAC、Sample/Freq Meta-Weight、TFMQ-DM 后继):让校准分布跟着 timestep 走
- Cumulative error compensation(PnP Fidelity、QuantSparse):显式建模多步误差累积
- Native low-bit data type(SANA-Video NVFP4、LongLive FP8):直接用硬件原生格式,不再做整数 PTQ
八、低精度训练与 FP4/FP8 训练栈
2024 年 DeepSeek-V3 用 FP8 跑通 671B / 14.8T 预训之后,"native 低精度训练"从 toy 实验变成产线可行。ICLR 2026 在这个方向有三条主线工作:
[036] Metis: Training LLMs with FP4 — 本届最重要的低精度训练论文之一。基于"少于 3% 的奇异值主导权重/激活/梯度分布"的发现,用低秩谱分解 + 稀疏随机采样把 FP4 训练损失 gap 从 3-4% 压到 0.4%;GPT-2 上小幅超越 BF16。
[060] MOSS — Microscaling + Automatic Scaling for FP8 LLM Training。让 FP8 训练自动适配不同层的尺度差异。
[082] Why Low-Precision Transformer Training Fails (Oral) — 一篇分析论文,定位 Flash Attention 在低精度训练中的失效根源。本届 3 篇 Oral 之一。
[020] Adam FP convergence (Theory) — Adam 对二阶矩量化极度敏感(需 q_V = O(1/T²));Muon 完全规避二阶矩,理论解释了 LLM 低精度训练中 Muon 优于 AdamW 的现象。
[032] Robust Arbitrary Precision (Oral) — 首次定位 STE 反向传播的"量化无感"是 1-bit 训练不稳定根因;闭合形式去噪去量化变换(λ=0.01 全场景无调参)首次实现稳定 A1W1 训练;Gemma3 4B-A4W1 + 2:4 稀疏(C4=0.4517)超越 BF16 Gemma3 1B(0.4494)且体积更小。
8.1 Adam vs Muon 量化敏感度(取自论文 020 的理论)
Adam 二阶矩量化精度需求:q_V = O(1/T²)(极严苛,T 是训练步数)
Muon 量化精度需求:q ~ O(√T) ~ O(T^{3/2})(宽松约 T² 倍)
原因:Adam 1/√V_t 对小 V 高度非线性放大;Muon 用 SVD 符号算子直接绕过二阶矩。
九、QAT 与极低比特(≤2-bit)(8+6 篇)
QAT 在 2024 年被 PTQ + Rotation 抢走风头,但 2026 年因为 BitNet b1.58 + Compute-Optimal QAT + BitNet Distillation 等工作复活。核心问题变成:要做到 ≤2-bit,是从头训(BitNet)还是后蒸馏(BitDistiller / Tequila)?
[001] BBQ (Bell Box Quantization) — 概率积分变换把 Gauss 拉平为均匀再均匀量化,首次同时满足 ITO 和 compute-efficient;2-bit 比 QuEST 降 PPL 5 点,1-bit 降 18 点;推理加速比 FP16 快 40%。
[022] Compute-Optimal QAT — 本届最重要的 scaling-law 论文。最优 QAT 比例不是固定 10%,而是随 tokens-per-parameter-byte 单调增长;1-bit 极端情况下次优分配多花约 50% 算力。
[014] QAT for Ultra-Low-Bit Reasoning — 2-bit Qwen3-8B 在 5 项推理基准平均 55.1%(vs PTQ baseline ~4%),不足 1B tokens 微调超越 BitNet1.58 2B4T 用 4 万亿 token 训出来的(MATH-500: 80.4 vs 43.4)。
[042] Tequila (Trapping-free Ternary) — 解决 ternary QAT 的"陷阱"问题,硬件友好。
[062] PT²-LLM (Post-Training Ternarization) — 后训三值化,无需 from-scratch。
[074] BEP (Binary Error Propagation) — Binary NN 训练新算法。
[070] Multi-Boolean Architecture — 多 boolean 层架构,二值化的工程实践。
[069] Masked Binary U-Net — Image segmentation 二值 U-Net + Tensor Core 加速。
十、混合精度与硬件协同(MXFP4/NVFP4)(20+21 篇)
本届最显著的趋势:"算法-硬件协同"取代"纯算法 PTQ"。Blackwell 上 NVFP4/MXFP4 落地后,新一代 PTQ 必须考虑 block 16 / block 32 / E8M0 vs E4M3 scale 等硬件细节,否则在新卡上无法发挥。
[047] MicroMix (NVIDIA) — 利用 Blackwell FP4 Tensor Core 的混合精度(MXFP4 + MXFP6 + MXFP8);论文提到"INT4 kernels fail to fully exploit FP4 capability due to mismatched data formats",用 micro-scaling 充分发挥新硬件。
[018] MR-GPTQ (MXFP4 Bridging) — 上文已介绍。关键贡献:解析证明 Hadamard 旋转对 NVFP4 (G=16) 有害。
[055] Is Finer Better? (Microscaling Limits) — 分析论文:探讨 microscaling 块大小(Group=16 vs 32 vs 64)的精度极限。
[027] AnyBCQ — Hardware Efficient flexible Binary-Coded Quantization,多精度可切换。2-bit MMLU 35.96 vs Any-Precision LLM 24.66 (+11.3)。
[080] To Compress or Not? — 用指数集中(exponent concentration)做无损 GenAI 模型权重压缩。
[009] STaMP (Sequence Mixed Precision) — DCT/DWT 序列变换 + 混合精度激活,与 Hadamard 类正交叠加。
[011] MoE Quant w/ Theoretical Guarantee — 用路由器 l₂ 范数变化量 Λ_s 作为专家敏感度信号;零 GPU 校准开销,Mixtral 8x22B 仍优于需要 350GB+6000s 的 PMQ。
[067] Prune-then-Quantize or vice versa? — 系统研究压缩顺序对联合压缩的影响。
[013] QeRL — NVFP4 + RL 训练加速;Qwen2.5-7B GSM8K 达 90.8%(vs 全参 91.2%),比 QLoRA 快 1.5-2×、显存仅 5.9 GB。
[075] NLI — Non-uniform Linear Interpolation 近似非线性算子(Softmax/SiLU)的硬件友好实现。
⚠️ 关键反直觉发现:MR-GPTQ 揭示 Hadamard 在 NVFP4 上失效
MR-GPTQ 论文从解析角度证明:随机 Hadamard 旋转把高 kurtosis 激活变成高斯,但 NVFP4(G=16, scale=E4M3)的最优分布不是高斯,而是"块内方差差异化"形态——Hadamard 反而抹平了这种差异,导致 recovery 下降。
这意味着 QuaRot/SpinQuant 不能直接套用到 NVFP4,必须用块级 micro-rotation(仅在 16-channel block 内旋转)。这是 2024 → 2026 范式转移的具体技术体现:旋转本身没错,但旋转的粒度必须与硬件块大小对齐。
十一、量化与推理模型(Long-CoT)(11 篇)
这是 ICLR 2026 最具差异性的方向。问题陈述:DeepSeek-R1 / OpenAI-o1 类推理模型输出 5K-20K token 的长 CoT,常规 PPL/MMLU 在 W4A4 上看着 lossless(< 1% 退化),但 AIME-120 类硬题最高掉 4×。误差沿 CoT 累积。
[057] When Reasoning Meets Compression — 本届最系统的分析论文:揭示量化对推理模型的非均匀影响——难题退化更严重。
[006] ParoQuant — Reasoning 推理任务 Avg 61.9(最强 W4A16 之一)。
[014] QAT for Ultra-Low-Bit Reasoning — 2-bit Qwen3-8B 推理 5 项基准 55.1%,超越 BitNet1.58 2B4T。
[028] Low-bit Muon — Newton-Schulz 正交化使顶部奇异子空间量化误差被放大 40×;GRASP 8-bit 子空间 + 4-bit 残差,1.1B 预训 PPL 与 fp32 完全持平。
[031] SliderQuant — DeepSeek-R1-Distill-Qwen-14B W4A16 几乎无损(MATH-500 95.00→94.60)。
[040] QuRL — INT8 RL 训练,DeepScaleR 上 55.48 vs 全精 56.40,差距仅 0.92;32B 模型 Rollout 吞吐 +83%。
[047] MicroMix — 推理 LLM 上 NVFP4 mixed-precision SOTA。
[052/058/065] 三篇 Long-CoT KV 量化(PM-KVQ / ThinKV / Not All Bits Are Equal)。
[068] Reasoning Inference Serving Unveiled — 大规模实测推理模型在不同框架的量化表现。
[083] Progressive Thought Encoding — 训练时引入渐进 KV 压缩。
十二、量化与 RL / Optimizer 状态(5+3 篇)
新兴子方向:把量化从"推理压缩"扩展到"训练 / RL 加速"。
[013] QeRL — 反直觉发现:量化噪声在 RL 中充当隐式探索机制(与 SFT 中的有害效果相反),NVFP4 + AQN 让 Qwen2.5-7B GSM8K 达 90.8%(追平全参 91.2%)。
[040] QuRL — Importance Sampling 长期漂移 + 权重更新失效两个挑战;ACR + UAQ 修复。
[002] Beyond Outliers (Optimizers Quant) — 不同优化器训出来的模型量化敏感度差异巨大:Muon 训出来的 1.5B 模型 W4A4 仅剩 47.75%(最差),Shampoo 训的 760M 仅掉 0.46pp。
[028] Low-bit Muon (GRASP) — 优化器状态量化,混合精度。
[061] QGP Continual Learning — 量化梯度投影,持续学习场景。
[041] QZO (Zeroth-Order) — 仅扰动连续量化缩放因子绕开"ZO 不兼容量化"的矛盾,Llama-2-7B SQuAD F1=85.5(5GB)超越 MeZO(14.8GB)。
[005] DPQuant — 差分隐私 + FP4 训练,PLS + LLP 把 FP4 量化方差压回可控(FP16 baseline 的 1×),90% 层量化下理论 2.21× 加速 + 精度损失 ≤ 2%。
十三、VLM/VLA/Vision/MoE 跨架构量化(9+3 篇)
[044] QVLA — 首个 Vision-Language-Action 量化工作。揭示 VLA 各通道差异:动作 token 比视觉/语言 token 量化敏感度高一个量级;low-bit 下保持机械臂控制可用性。
[056] WSVD — Weighted Low-Rank Approximation for VLM。
[063] LLaVA-FA — Fourier Approximation for compressing LMM。
[070] Multi-Boolean LLMs — 二值架构。
[015] InlierQ — 目标检测 PTQ:用梯度 L1 范数定义体积显著性,EM 高斯混合分内点/异常点;W4A4 下 2D mAP +2.0%, 3D LiDAR mAP +3.2%。
[033] PTQ for Video Matting — VM 数据集 W4A4 MAD 20.81 vs 次优 QDrop 24.36 (-15%)。
[046] SPR²Q — 图像超分辨率 PTQ。
[064] Quantized VGGT — Visual Geometry Grounded Transformer 量化。
[030] SSDi8 — Mamba-2 SSD 内部首个完整持久 INT8 路径,最高 1.47× 加速。
[011/012/053] MoE 三连:MoE-Quant(理论保证)/ CodeQuant(聚类+旋转)/ KBVQ-MoE(KLT-SVD VQ)。
十四、理论分析(GPTQ-Babai 等价、Scaling Law、收敛性)
本届理论论文异常密集——这是量化领域走向"成熟科学"的标志。当一个领域开始反思"我们之前在干什么 / 为什么 work"时,说明工程主战场已逐步收敛。
| 论文 | 定理 / 结论 | 价值 |
| [023] GPTQ as Babai's Nearest Plane | GPTQ 与 1986 年格论 Babai 算法严格等价(坐标系差异) | 自动继承格论误差上界;指明 LLL 改进路径 |
| [025] Lattice Geometry of NN Quantization | 同上独立证明,更短 | 两组独立小组同时发现,验证可信度 |
| [004] Linear Regression under Quantization | FP 量化(乘性误差)维度无关;INT 量化(加性误差)维度发散 | 首次给出 FP > INT 的精确理论条件 |
| [020] Adam FP Convergence | Adam q_V=O(1/T²),Muon q=O(√T)~O(T^{3/2}) | 解释为何 LLM 低精度训练 Muon > AdamW |
| [022] Compute-Optimal QAT | 最优 QAT 比例随 tokens-per-param-byte 单调增长,1-bit 次优多花 50% 算力 | 给出 QAT 的 Chinchilla 式 scaling law |
| [003] Training Dynamics Impact PTQ | 量化误差突变由学习率衰减触发,不是 token 数 | 反驳"训得越多越难量化"主流结论,给出 LAWA 干预法 |
| [032] Robust Arbitrary Precision (Oral) | STE 反向传播"量化无感"是 1-bit 训练不稳定的根因 | 首次稳定 A1W1 训练;闭合形式去噪去量化 |
| [011] MoE Theoretical Guarantee | 路由器 l₂ 范数变化量 Λ_s 作为专家敏感度信号有理论保证 | 零 GPU 校准开销的 MoE 混合精度 |
理论收敛带来的两个明显趋势
趋势 1:量化研究从"经验调优"走向"几何 / 优化理论支撑"。GPTQ-Babai 等价、Lattice 几何、FP vs INT 的 d→∞ 收敛性,都让算法设计有了第一性原理依据。
趋势 2:scaling law 化。Compute-Optimal QAT 给出 QAT 的"Chinchilla 公式",预测最优 QAT 比例。下一步可能出现 PTQ 版的 scaling law(已被 [003] 论文动摇了基线)。
十五、关键趋势归纳(5 条共识)
共识 1:Rotation 已是 W4A4 事实标准,但"旋转粒度"必须与硬件块对齐
QuaRot/SpinQuant 在 LLaMA-2 上把 W4A4KV4 拉到 99% 性能保留——这条战线在 70B 大模型上基本结束。但 LLaMA-3-8B / Qwen3-8B 仍掉 5+ 点;MR-GPTQ 进一步揭示 NVFP4 必须用 block-16 micro-rotation 而非全矩阵 Hadamard。"如何旋"已经不是问题,"以什么粒度旋"才是 2026 年新焦点。
共识 2:NVFP4 重塑"4-bit"含义;MXFP4 因 E8M0 power-of-2 缩放天然弱 ~10% recovery
B200 上 NVFP4 实测准确率 < 1% 退化于 FP8,吞吐 2× FP8、成本 0.130 vs 0.182 美元/M tokens。但 MXFP4 因 scale 是 E8M0(power-of-2)天然不准,MR-GPTQ 把 LLaMA-3.1-8B 的 MXFP4 recovery 从 73% 拉到 93% 才追平 NVFP4。2026 主战场是 INT4 / MXFP4 / NVFP4 的算法-硬件-框架协同。
共识 3:量化 + 推理模型是 2025-2026 最热的开放问题
DeepSeek-R1 distill-Qwen-32B 在 W4A4KV4 上 AIME-120 掉 3.9%,7B/1.5B 直接掉 > 10%。长 CoT 上量化误差累积——常规 PPL/MMLU 在 4-bit 看着 lossless,但 AIME/MATH 类硬题"难度越高、退化越大"(最高 4× gap)。本届 11 篇 reasoning-quant 论文是 2026 年最有立论空间的方向。
共识 4:低精度训练不再是 toy;FP8 是产线、FP4 已可行
DeepSeek-V3 671B / 14.8T token FP8 预训跑通;Metis 把 FP4 训练 gap 从 3-4% 压到 0.4%;NVIDIA 宣称 NVFP4 训练"16-bit 精度 + 4-bit 速度"。2026-2027 将看到首批 native NVFP4 / MXFP8 预训的 7B+ 开源模型。
共识 5:量化研究开始走向"成熟科学"——理论收敛 + scaling law 化
本届 8 篇理论论文(占总数 ~9%)构成历届最高比例:GPTQ-Babai 等价、Lattice 几何、Adam vs Muon 收敛、Compute-Optimal QAT scaling law。这通常发生在一个领域工程主战场逐步收敛、需要第一性原理整合的时候。下一步可能出现 PTQ 版 Chinchilla 公式。
十六、值得做的方向 vs 不值得做的方向
16.1 已经做透了的方向(不建议再做)
| 方向 | 为什么饱和 | 例外(仍可做的子问题) |
| W8A8 LLM 量化 | SmoothQuant 已 essentially lossless;FP8 兜底 | Mamba/SSM 等新架构的 W8A8(如 SSDi8) |
| 大模型(70B+)weight-only W4A16 | OSTQuant 已推到 0.29 点退化 | FP4 / NVFP4 native 上的 W4A16 等价问题 |
| W4A4 在 LLaMA-2 系列 | QuaRot/SpinQuant 99% 保留 | 同算法到 LLaMA-3 / Qwen3 仍有 5+ 点 gap |
| 2-bit KV 14B+ 常规任务 | < 0.5 PPL 退化已经 1M-10M context(KVQuant) | 2-bit KV 长 CoT 推理任务(仍掉 1-3 点) |
| 校准集大小研究 | 128-1024 个 1024-token sample 已足够(共识) | — |
| 纯 Hadamard 旋转的进一步优化 | QuaRot/SpinQuant/OSTQuant 已经接近上界 | Hadamard 与新硬件块大小(NVFP4 G=16)的协同 |
| PTQ 与 RTN/AbsMax 的边角对比 | 大量论文已对比;增量 < 0.5 点 | — |
16.2 仍是公开问题(值得做)
| 方向 | 瓶颈与机会 | 本届相关工作 |
| 小模型(< 7B)极低位 PTQ/QAT | W4A4 在 1.5B-7B 上仍掉 10+ 点;on-device 部署硬骨头 | BBQ [001], InlierQ [015] 边缘场景 |
| 推理模型量化(reasoning quantization) | 2025-2026 最热。长 CoT 误差累积,AIME 类硬题 W4A4 掉 4-10% | [057], [014], [040], [065], [058], [083] |
| 过训模型的 PTQ ceiling | LLaMA-3 (15T)、Qwen3 (36T) 撞墙;需新 precision-aware scaling law | [003] 反驳了"训得越久越差"的简单论断 |
| MXFP4 vs NVFP4 vs INT4 算法-硬件协同 | 三种"4-bit"性能差异 ~10%;新算法须区分对待 | [018] MR-GPTQ, [047] MicroMix, [055] Microscaling Limits |
| ternary / binary 在 70B+ | BitNet scaling law 未验证到 70B+;BitNet Distillation 是绕开方案 | [042] Tequila, [062] PT²-LLM, [014] Ultra-Low-Bit Reasoning |
| VLM/VLA 视觉模态量化 | 视觉 encoder outlier 模式与 LLM body 不同;VLA 动作 token 极敏感 | [044] QVLA, [056] WSVD, [063] LLaVA-FA |
| 扩散模型客观质量 metric | FID/CLIP 不够细,人评太贵;缺"扩散版 PPL" | 本届 12 篇 diffusion 量化都在用混合 metric |
| 量化与长上下文互动 | 100K-1M context 下误差是否随 token 累积?2-bit needle-in-haystack 已开始失效 | [052] PM-KVQ, [066] KV Transform Coding, [088] Random KV |
| 量化感知预训练(NVFP4 native pretrain) | FP8 已通;FP4 / NVFP4 native scaling law 尚未稳定 | [036] Metis, [060] MOSS, [032] Robust Arbitrary Precision |
| 量化 × RL / RLHF 相容性 | RL 训完的模型量化退化更大;原因不明 | [013] QeRL, [040] QuRL — 已有突破口 |
| 混合精度搜索的 sample efficiency | IMPQ/SliM-LLM/ScaleBITS 仍是计算昂贵 ILP | [011] MoE 用路由 l₂ 是低成本启发式 |
| Optimizer 状态量化(4-bit Adam/Muon) | Adam 二阶矩对量化极敏感;Muon 友好但还在演化 | [020] Adam FP, [028] Low-bit Muon, [061] QGP |
16.3 我们的研究方向建议
如果你要在 2026-2027 入场量化,三条最高 ROI 路线:
- 路线 A:Reasoning-quant 深耕。集中攻"长 CoT 量化误差累积"。题目可以从「找到 quantization 触发推理崩塌的 token-level signature」起步——这个问题没人系统做过,且通往可发顶会的具体子问题(量化感知 thinking budget / KV-quant + reasoning loss alignment)。
- 路线 B:MXFP4-native 算法。Blackwell GPU 大量铺货后,全部新 PTQ 算法都要在 NVFP4/MXFP4 上重做一遍。MR-GPTQ 只是开端;下一步是 NVFP4 native QAT、NVFP4 KV cache、NVFP4 Diffusion。门槛是要有 B200/RTX 5090。
- 路线 C:Optimizer-quant + RL。QeRL/QuRL 已经证明 RL 训练量化可行,但只触及表层。Adam 二阶矩量化([020] 给出理论困难)+ RL 训练([013/040] 给出实验路径)的交集是未开垦的高价值区。
⚠️ 不建议入场的两类研究
- 不要再做 INT4 weight-only PTQ on LLaMA-2-7B/13B/70B。这是 2024-2025 的主战场,已经被 OSTQuant/QuaRot/SpinQuant/AWQ 等十数个工作压扁,每个新算法只能在小数点后两位刷新;ICLR/NeurIPS 评审已经审美疲劳。
- 不要再做"我们改进了 SmoothQuant 在 OPT-1.3B 上的 W8A8 PPL"。这是 2023 年 idea,2026 年提交基本不会过。
十七、资源汇总
17.1 关键 baseline 论文(2022-2025)
- GPTQ (Frantar et al., ICLR 2023) — PTQ 起点
- AWQ (Lin et al., MLSys 2024) — 激活感知缩放
- SmoothQuant (Xiao et al., ICML 2023) — outlier 迁移
- OmniQuant (Shao et al., ICLR 2024) — 可微 PTQ
- QuaRot (Ashkboos et al., 2024) — Hadamard 旋转
- SpinQuant (Liu et al., ICLR 2025) — 学习旋转
- KIVI (Liu et al., ICML 2024) — KV 量化起点
- BitNet b1.58 (Ma et al., 2024) — Ternary QAT
- Scaling Laws for Precision (Kumar et al., ICLR 2025) — 训得越久越难量化
- SVDQuant (Li et al., ICLR 2025 spotlight) — Diffusion W4A4
17.2 工业部署框架
| 框架 | 支持的量化格式 |
| vLLM | AutoAWQ, GPTQModel, BitsAndBytes, GGUF, INT4 W4A16, INT8 W8A8, FP8 W8A8, NVFP4/MXFP4 (via NVIDIA Model Optimizer), TorchAO, AMD Quark, Quantized KV Cache |
| TensorRT-LLM | W4A16, W4A16_AWQ, FP8, FP8_PER_CHANNEL_PER_TOKEN, NVFP4, MXFP4, MXFP8 |
| SGLang | NVFP4 via NVIDIA Model Optimizer 互通 |
| HF Transformers | BitsAndBytes, GPTQ, AWQ, AQLM, HQQ, quanto, torchao |
17.3 官方量化模型
- Qwen3(2025-05-12 发布):GGUF/AWQ/GPTQ/FP8 全套,0.6B - 397B-A17B (MoE)
- LLaMA-3.1-8B-NVFP4, LLaMA-3.3-70B-NVFP4(NVIDIA 发布)
- DeepSeek-V3:原生 FP8 预训权重
- DeepSeek-R1:Red Hat / Neural Magic 发布 W4A16 / W8A8 / FP8 量化版(accuracy recovery > 99%)
- Qwen2.5-VL:官方 AWQ 3B/7B/72B
- FLUX.1-dev:Nunchaku 引擎 + SVDQuant W4A4