目录

一、量化领域的核心矛盾 — 为什么这事到 2026 还没做完

🎵 一个类比:把一首交响乐压成 MP3。 原始信号是 16-bit 浮点(FP16/BF16),有几乎无损的细腻度。要省存储和带宽,得把它压成 4-bit、2-bit 甚至 1-bit。问题是音乐里有些片段(鼓点峰值、特定乐器独奏)能量极强(outlier),如果用一个统一的"音量旋钮"去调,要么峰值削顶失真,要么其他段听不清。量化研究的本质,就是给不同段落动态选不同的"音量旋钮",并且要让放音设备(GPU)能高效解码。

大语言模型的"信号"是权重(W)、激活(A)、KV cache、梯度、优化器状态。把它们压到 4-bit 的吸引力是显存 4×、带宽 4×、Tensor Core 算力 2-4×、单位 token 成本下降一个量级。但每一类信号都有自己的 outlier 模式,每一种压缩方式都要和硬件指令集对齐。这件事看似在 2024 年(QuaRot/SpinQuant 的 W4A4 风暴)就要做完了,但到 2026 年依然有 91 篇 ICLR 论文在做——为什么?

三条根本原因让量化研究在 2026 仍然热门:
  1. 过训模型反量化 — Kumar et al. (ICLR 2025) 证明:训练 token 越多,PTQ 退化越严重。LLaMA-3 (15T)、Qwen3 (36T) 撞墙明显。Tim Dettmers 评为"近期最重要的 paper"。
  2. 新硬件格式重塑游戏 — NVFP4/MXFP4/MXFP8 不是简单的 INT4 替代品,每种格式有独特的缩放行为,"4-bit"已经不是一个概念,而是 INT4/MXFP4/NVFP4 三套不同的算法-硬件协同。
  3. 量化与推理模型的相互作用 — DeepSeek-R1 类长 CoT 模型的 W4A4 退化高度任务依赖:常规 PPL/MMLU 几乎无损,但 AIME-120 类硬题最高掉 4×。误差沿 CoT 累积,是 2026 年最热的开放问题。

二、ICLR 2026 量化论文总览(94 → 91 篇)

本调研从 OpenReview API 用 ~50 个量化相关关键词穷尽扫描 ICLR 2026 全部接收论文(>5300 篇),过滤后得 197 个候选;再经人工边缘案例审计,最终圈定 94 篇送入逐篇 HTML 写作流程。其中有 3 篇被 Sonnet 阅读 PDF 后判定为误判(详见下表 stride 跳过项),实际收录 91 篇真正的模型量化论文。

91
最终收录论文数
3
Oral 论文
88
Poster 论文
13
研究方向

2.1 按方向分布(一篇可在多个类别)

方向论文数代表作战线饱和度
PTQ(含 PTQ-analysis)38TurboBoA, OBR, MR-GPTQ, SliderQuant, SERQ中等 主战场
Hardware-aware21MicroMix, MR-GPTQ, AnyBCQ, LogART高速增长
Mixed-precision20Compute-Optimal QAT, ChanMix, STaMP, MoE-Quant活跃
KV cache quant15PM-KVQ, ThinKV, ChanMix, KV Transform Coding最热
Quant + Prune / LowRank13OBR, QWHA, SERQ, CoA-LoRA, SNAP-UQ活跃
Diffusion / Video Quant12SVDQuant 衍生、QVGen、DVD-Quant、QuantSparse高速增长
Vector quant(含边缘案例)10DiVeQ, KBVQ-MoE, NuBitQ, Multi-Boolean活跃
Rotation / Hadamard8ParoQuant, MR-GPTQ, QWHA, CodeQuant, Qronos饱和
QAT8BBQ, Compute-Optimal QAT, Tequila, Arbitrary Precision复活
Binary / Ternary6Tequila, PT²-LLM, Multi-Boolean, BEP, Masked Binary U-Net突破期
Optimizer-quant / Low-precision-training5+3Metis, MOSS, Low-bit Muon, Adam FP convergence最热
Vision quant(专用)4InlierQ Object Detection, PTQ Video Matting, SPR²Q, Masked Binary U-Net中等
VLM / VLA quant4+1QVLA, WSVD, LLaVA-FA, Multi-Boolean突破期
Quant for RL3QeRL, QuRL, ATPO(误判)突破期
MoE quant3MoE-Quant, CodeQuant, KBVQ-MoE活跃
Quant for Fairness / Adversarial2TriQDef, Fair Multi-Feature小众
Continual Quant1QGP Continual小众

2.2 按目标模型分布

LLM 主流(含 Reasoning-LLM, MoE)
30+ 篇

绝对主战场。Reasoning-LLM 单独成势(11 篇)。

扩散 / 视频生成
16 篇

Video DiT 量化大爆发。SANA-Video 是 Oral。

VLM/VLA/Vision
9 篇

QVLA 是首个 VLA 量化工作(Oral 候选水平)。

SSM / 新架构
2-3 篇

SSDi8 把 Mamba-2 的 SSD 内部打通 INT8。

三、发展时间线 — ICLR 2026 在历史中的位置

2022 LLM.int8() 揭示 outlier;GPTQ 起家 2023 AWQ / SmoothQuant / OmniQuant 三足;KIVI 启动 KV-quant 2024 QuaRot/SpinQuant — Rotation 时代;BitNet 1.58;LLaMA-3 撞墙 2025 上 OSTQuant;SVDQuant(diffusion W4A4);NVFP4 落地 Blackwell 2025 中 Scaling Laws for Precision (Kumar);ParetoQ 系统比较 1-4 bit QAT 2025 下 DeepSeek-V3 FP8 预训 14.8T;Qwen3 官方 GGUF/AWQ/GPTQ/FP8 全套 2026 (ICLR — 本调研) 91 篇——FP4 native + 推理模型量化 + Mamba/MoE/VLA 跨架构 + Optimizer-quant Oral: SANA-Video (NVFP4)、Why Low-Precision Training Fails、Robust Arbitrary Precision 关键转折:从"如何把 INT4 做对"到"如何把 NVFP4/MXFP4 配套硬件做对"

从 2024 到 2026 的三大范式转移

维度20242026 (ICLR)
主流低位格式INT4 (Marlin/per-group 128)NVFP4 / MXFP4 / FP4 三足并立
"4-bit"含义Weight 量化 + group scaleWeight + Activation + KV + Optimizer 全 4-bit
Outlier 处理范式Smoothing / Mixed precisionRotation 已成事实标准(QuaRot/SpinQuant 后继)
评估 metricWikiText-2 PPL + MMLU+AIME / MATH / 长 CoT / FID-视频
研究焦点"如何不掉点""硬件协同 + 长 CoT 推理一致 + native 训练"

四、分类体系 — 13 个研究方向

ICLR 2026 量化 91 篇 / 13 方向 PTQ (38) KV-quant (15) Diffusion-quant (12) Hardware-aware (21) Mixed-precision (20) QAT (8) Binary/Ternary (6) Reasoning-LLM (11) Optimizer/RL (8) VLM/VLA/Vision (9) 同一篇可属于多个方向;这里按主要贡献展示

五、PTQ 主线(GPTQ/AWQ/Rotation 后继者)

PTQ 是 ICLR 2026 数量最多的方向(38 篇)。从 ICLR 2025 的 OSTQuant 之后,PTQ 主线分裂为四条支流:(1) 更精的补偿(GPTQ 系列改进)、(2) 更好的旋转(Hadamard 后继)、(3) 结构化分析(理论等价性 / lattice)、(4) 更快的算法(去 BP / 一次过)。

5.1 GPTQ 补偿与误差控制(5 篇)

[017] TurboBoA — 多通道闭合解把 BoA 顺序量化步数从 128 降到 8(N=16),3-4× 速度,与 QuaRot/OSTQuant 组合刷新 INT2 / W2A4KV4 双 SOTA。
[010] Rethinking Residual Errors — 揭示 GPTAQ 把"补偿后输出"当目标的系统偏差,CAE 项加 5% 时间换 LLaMA2-7B C4 PPL 13.60→8.34。
[023/025] GPTQ as Babai's Nearest Plane(双独立等价证明) — 两篇独立证明 GPTQ 与 1986 年 Babai 算法等价,自动继承格论误差上界,开启 LLL 改进路径。
[051] LogART — 对数后训量化的极限推进,硬件友好 LUT 实现。

5.2 Rotation 后继 — 不再是 Hadamard 一家独大

[006] ParoQuant — Givens 成对旋转替代全 Hadamard,CUDA 完全并行;推理任务 Avg 61.9(vs AWQ 59.5, QTIP 61.0),W4A16。
[018] MR-GPTQ (Bridging MXFP4 Gap)关键论文:解析证明 Hadamard 旋转对 NVFP4 (G=16) 有害,提出块级 micro-rotation;MXFP4 W4A4 recovery 87.83% → 93.31%,QuTLASS 内核反超 NVFP4 ~15%。
[021] QWHA — Walsh-Hadamard adapter for QA-PEFT,2-bit 极限上 LLaMA-3.1-8B GSM8K +3.94。
[031] SliderQuant — 不是新旋转,而是发现"浅/深层比中间层难量化",三种自适应滑窗(PESW/FSSW/PCSW);W4A4 LLaMA2-7B PPL 12.73→8.34,无额外推理开销。
[054] Qronos — 跨模态(KV/Diffusion)的旋转-补偿统一框架。
[064] Quantized VGGT — 把 rotation 范式搬到 Vision Geometry Transformer。

5.3 结构化补偿 / 联合压缩(4 篇)

[008] OBR (Optimal Brain Restoration) — Hessian 群误差闭合解 Δw_R* = −H_RR⁻¹·H_RE·e_E 化解量化偏好平坦 vs 剪枝偏好高方差的根本冲突;W4A4KV4 + 50% 稀疏,LLaMA2-7B PPL 8.40 (vs SparseGPT+GPTQ 12.94),4.72× 推理加速。
[019] SERQ — 单一 Saliency-Aware 低秩矩阵替代 L²QER 的两个串行矩阵,消除推理期在线量化;W4A4 LLaMA-2-7B PPL 5.97。
[045] UniQL — 统一量化 + 低秩压缩,目标 SSM/边缘 LLM。
[072] GlowQ — Group-shared low-rank approximation,分组共享降低低秩开销。

5.4 PTQ 公式核心(取 OBR 的 Hessian 群补偿为例)

对 group-wise 量化误差 e_E ∈ ℝ^|E|,未量化区 R 的最优补偿:
    Δw_R* = − H_RR⁻¹ · H_RE · e_E
其中 H = X^T X 是 calibration Hessian,下标 R / E 分别是未量化与已量化通道集合。

这条闭合解是 OBS(Optimal Brain Surgeon, 1992)的现代复活——把"删一个权重"换成"动一组权重应对量化-稀疏耦合误差",统一了 GPTQ/SparseGPT/AWQ 的补偿哲学。

六、KV cache 量化与长上下文(15 篇)

KV cache 量化是 ICLR 2026 增长最快的子方向。原因:长上下文(100K-1M token)+ 推理模型(长 CoT 输出 5K-20K token)让 KV 显存挤压成为部署瓶颈。

[052] PM-KVQ — Progressive Mixed-precision KV:长 CoT 中"早期 token 重要、后期 token 可激进降位"。
[058] ThinKV — Thought-adaptive:在思考链不同阶段(draft/refine/conclude)用不同 bit-width。
[039] ChanMix关键发现:检索通道(retrieval channels)对 2-bit 极敏感;仅升它们到 4-bit,Mistral RULER 从 72.13 恢复到 86.12(接近 86.99 全精度)。
[065] Not All Bits Are Equal — 推理模型上的尺度依赖内存策略:不同模型规模需要不同的 KV 配置。
[066] KV Transform Coding — 把图像压缩的 transform coding 思想搬到 KV cache。
[081] SANA-Video (Oral) — 视频生成中的 block linear diffusion + NVFP4 KV cache,720×1280 / 分钟级视频。
[054] Qronos — KV / diffusion 统一旋转补偿。
[068] Reasoning Inference Serving Unveiled — 大规模实测:KV 量化在 vLLM/SGLang/TRT-LLM 三家上的差异。
[083] Progressive Thought Encoding — 训练阶段引入渐进 KV 压缩,对齐推理时的 KV-quant。
[084] CARE — Covariance-aware + rank-enhanced,让 MLA(Multi-head Latent Attention)的 KV 进一步压缩。
[085] Multi-Head Low-Rank Attention — Multi-head 各自学低秩,等价 KV 压缩。
[087] d²Cache — Diffusion-based LLM 的 dual adaptive cache。
[088] Randomization Boosts KV — 随机化(hashing)+ 学习平衡查询负载。
[089] Cross-Layer Fusion KV — 跨层重构 KV 缓存。
[091] Scaling Attention via Feature Sparsity — 注意力特征稀疏化,配合 KV-quant。
KV cache 量化趋势小结:

七、扩散与视频生成模型量化(12 篇)

2025 年的 SVDQuant(FLUX.1 W4A4)打开了扩散量化的工程门。2026 年焦点全面转向 视频扩散——参数量更大(5B-30B)、推理时序更长(25-50 步)、KV cache 也长——量化收益更显著。

论文对象bit关键贡献
[007] Gradient-Aligned CalibDiffusionW4A8元学习样本权重,LSUN-Bedrooms FID 3.68→3.40
[026] QVGenVideo DiTlow-bitQAT for video
[029] Quant-dLLMDiffusion-LLM2-bitLLaDA-8B 平均准确率 42.39→54.06
[037] DVD-QuantVideo DiTW4A4Data-free,质量 61.82 vs ViDiT-Q 40.10
[038] PTQ4ARVGAutoRegressive Visual6-8 bit视觉自回归生成专用
[043] QuantSparseVideo DiTW4A8 + 15%稀疏HunyuanVideo-13B PSNR 20.88 vs Q-VDiT 16.85;3.68× 压缩
[048] Q&CDiffusion量化 × cache 联合优化
[050] Sample/Freq Meta-WeightDiffusionW4A32可学习频率权重契合扩散物理;LSUN FID 3.60→3.16
[076] LongLiveVideo DiffusionFP8实时交互长视频
[078] PnP FidelityDiffusion Transformer累积误差最小化
[081] SANA-Video (Oral)Video DiffusionNVFP4720×1280 / 分钟级;block linear diffusion
[094] PQGANDiffusionProduct-quantised image representation

扩散量化的方法学差异

纯 LLM 量化方法(GPTQ/AWQ)在扩散模型上效果不稳——原因有三:(1) 激活分布随 timestep 显著漂移,单一校准集不够;(2) 视觉质量评估(FID/CLIP/人评)不收敛,PPL 等价物缺失;(3) 多步推理让单步误差通过 ODE 积累。2026 年看到三种范式涌现:

八、低精度训练与 FP4/FP8 训练栈

2024 年 DeepSeek-V3 用 FP8 跑通 671B / 14.8T 预训之后,"native 低精度训练"从 toy 实验变成产线可行。ICLR 2026 在这个方向有三条主线工作:

[036] Metis: Training LLMs with FP4本届最重要的低精度训练论文之一。基于"少于 3% 的奇异值主导权重/激活/梯度分布"的发现,用低秩谱分解 + 稀疏随机采样把 FP4 训练损失 gap 从 3-4% 压到 0.4%;GPT-2 上小幅超越 BF16。
[060] MOSS — Microscaling + Automatic Scaling for FP8 LLM Training。让 FP8 训练自动适配不同层的尺度差异。
[082] Why Low-Precision Transformer Training Fails (Oral) — 一篇分析论文,定位 Flash Attention 在低精度训练中的失效根源。本届 3 篇 Oral 之一
[020] Adam FP convergence (Theory) — Adam 对二阶矩量化极度敏感(需 q_V = O(1/T²));Muon 完全规避二阶矩,理论解释了 LLM 低精度训练中 Muon 优于 AdamW 的现象。
[032] Robust Arbitrary Precision (Oral) — 首次定位 STE 反向传播的"量化无感"是 1-bit 训练不稳定根因;闭合形式去噪去量化变换(λ=0.01 全场景无调参)首次实现稳定 A1W1 训练;Gemma3 4B-A4W1 + 2:4 稀疏(C4=0.4517)超越 BF16 Gemma3 1B(0.4494)且体积更小。

8.1 Adam vs Muon 量化敏感度(取自论文 020 的理论)

Adam 二阶矩量化精度需求:q_V = O(1/T²)(极严苛,T 是训练步数)
Muon 量化精度需求:q ~ O(√T) ~ O(T^{3/2})(宽松约 T² 倍)

原因:Adam 1/√V_t 对小 V 高度非线性放大;Muon 用 SVD 符号算子直接绕过二阶矩。

九、QAT 与极低比特(≤2-bit)(8+6 篇)

QAT 在 2024 年被 PTQ + Rotation 抢走风头,但 2026 年因为 BitNet b1.58 + Compute-Optimal QAT + BitNet Distillation 等工作复活。核心问题变成:要做到 ≤2-bit,是从头训(BitNet)还是后蒸馏(BitDistiller / Tequila)?

[001] BBQ (Bell Box Quantization) — 概率积分变换把 Gauss 拉平为均匀再均匀量化,首次同时满足 ITO 和 compute-efficient;2-bit 比 QuEST 降 PPL 5 点,1-bit 降 18 点;推理加速比 FP16 快 40%。
[022] Compute-Optimal QAT本届最重要的 scaling-law 论文。最优 QAT 比例不是固定 10%,而是随 tokens-per-parameter-byte 单调增长;1-bit 极端情况下次优分配多花约 50% 算力。
[014] QAT for Ultra-Low-Bit Reasoning — 2-bit Qwen3-8B 在 5 项推理基准平均 55.1%(vs PTQ baseline ~4%),不足 1B tokens 微调超越 BitNet1.58 2B4T 用 4 万亿 token 训出来的(MATH-500: 80.4 vs 43.4)。
[042] Tequila (Trapping-free Ternary) — 解决 ternary QAT 的"陷阱"问题,硬件友好。
[062] PT²-LLM (Post-Training Ternarization) — 后训三值化,无需 from-scratch。
[074] BEP (Binary Error Propagation) — Binary NN 训练新算法。
[070] Multi-Boolean Architecture — 多 boolean 层架构,二值化的工程实践。
[069] Masked Binary U-Net — Image segmentation 二值 U-Net + Tensor Core 加速。

十、混合精度与硬件协同(MXFP4/NVFP4)(20+21 篇)

本届最显著的趋势:"算法-硬件协同"取代"纯算法 PTQ"。Blackwell 上 NVFP4/MXFP4 落地后,新一代 PTQ 必须考虑 block 16 / block 32 / E8M0 vs E4M3 scale 等硬件细节,否则在新卡上无法发挥。

[047] MicroMix (NVIDIA) — 利用 Blackwell FP4 Tensor Core 的混合精度(MXFP4 + MXFP6 + MXFP8);论文提到"INT4 kernels fail to fully exploit FP4 capability due to mismatched data formats",用 micro-scaling 充分发挥新硬件。
[018] MR-GPTQ (MXFP4 Bridging) — 上文已介绍。关键贡献:解析证明 Hadamard 旋转对 NVFP4 (G=16) 有害
[055] Is Finer Better? (Microscaling Limits)分析论文:探讨 microscaling 块大小(Group=16 vs 32 vs 64)的精度极限。
[027] AnyBCQ — Hardware Efficient flexible Binary-Coded Quantization,多精度可切换。2-bit MMLU 35.96 vs Any-Precision LLM 24.66 (+11.3)。
[080] To Compress or Not? — 用指数集中(exponent concentration)做无损 GenAI 模型权重压缩。
[009] STaMP (Sequence Mixed Precision) — DCT/DWT 序列变换 + 混合精度激活,与 Hadamard 类正交叠加。
[011] MoE Quant w/ Theoretical Guarantee — 用路由器 l₂ 范数变化量 Λ_s 作为专家敏感度信号;零 GPU 校准开销,Mixtral 8x22B 仍优于需要 350GB+6000s 的 PMQ。
[067] Prune-then-Quantize or vice versa? — 系统研究压缩顺序对联合压缩的影响。
[013] QeRL — NVFP4 + RL 训练加速;Qwen2.5-7B GSM8K 达 90.8%(vs 全参 91.2%),比 QLoRA 快 1.5-2×、显存仅 5.9 GB。
[075] NLI — Non-uniform Linear Interpolation 近似非线性算子(Softmax/SiLU)的硬件友好实现。

⚠️ 关键反直觉发现:MR-GPTQ 揭示 Hadamard 在 NVFP4 上失效

MR-GPTQ 论文从解析角度证明:随机 Hadamard 旋转把高 kurtosis 激活变成高斯,但 NVFP4(G=16, scale=E4M3)的最优分布不是高斯,而是"块内方差差异化"形态——Hadamard 反而抹平了这种差异,导致 recovery 下降。

这意味着 QuaRot/SpinQuant 不能直接套用到 NVFP4,必须用块级 micro-rotation(仅在 16-channel block 内旋转)。这是 2024 → 2026 范式转移的具体技术体现:旋转本身没错,但旋转的粒度必须与硬件块大小对齐。

十一、量化与推理模型(Long-CoT)(11 篇)

这是 ICLR 2026 最具差异性的方向。问题陈述:DeepSeek-R1 / OpenAI-o1 类推理模型输出 5K-20K token 的长 CoT,常规 PPL/MMLU 在 W4A4 上看着 lossless(< 1% 退化),但 AIME-120 类硬题最高掉 4×。误差沿 CoT 累积。

[057] When Reasoning Meets Compression本届最系统的分析论文:揭示量化对推理模型的非均匀影响——难题退化更严重。
[006] ParoQuant — Reasoning 推理任务 Avg 61.9(最强 W4A16 之一)。
[014] QAT for Ultra-Low-Bit Reasoning — 2-bit Qwen3-8B 推理 5 项基准 55.1%,超越 BitNet1.58 2B4T。
[028] Low-bit Muon — Newton-Schulz 正交化使顶部奇异子空间量化误差被放大 40×;GRASP 8-bit 子空间 + 4-bit 残差,1.1B 预训 PPL 与 fp32 完全持平。
[031] SliderQuant — DeepSeek-R1-Distill-Qwen-14B W4A16 几乎无损(MATH-500 95.00→94.60)。
[040] QuRL — INT8 RL 训练,DeepScaleR 上 55.48 vs 全精 56.40,差距仅 0.92;32B 模型 Rollout 吞吐 +83%。
[047] MicroMix — 推理 LLM 上 NVFP4 mixed-precision SOTA。
[052/058/065] 三篇 Long-CoT KV 量化(PM-KVQ / ThinKV / Not All Bits Are Equal)。
[068] Reasoning Inference Serving Unveiled — 大规模实测推理模型在不同框架的量化表现。
[083] Progressive Thought Encoding — 训练时引入渐进 KV 压缩。

十二、量化与 RL / Optimizer 状态(5+3 篇)

新兴子方向:把量化从"推理压缩"扩展到"训练 / RL 加速"。

[013] QeRL反直觉发现:量化噪声在 RL 中充当隐式探索机制(与 SFT 中的有害效果相反),NVFP4 + AQN 让 Qwen2.5-7B GSM8K 达 90.8%(追平全参 91.2%)。
[040] QuRL — Importance Sampling 长期漂移 + 权重更新失效两个挑战;ACR + UAQ 修复。
[002] Beyond Outliers (Optimizers Quant) — 不同优化器训出来的模型量化敏感度差异巨大:Muon 训出来的 1.5B 模型 W4A4 仅剩 47.75%(最差),Shampoo 训的 760M 仅掉 0.46pp。
[028] Low-bit Muon (GRASP) — 优化器状态量化,混合精度。
[061] QGP Continual Learning — 量化梯度投影,持续学习场景。
[041] QZO (Zeroth-Order) — 仅扰动连续量化缩放因子绕开"ZO 不兼容量化"的矛盾,Llama-2-7B SQuAD F1=85.5(5GB)超越 MeZO(14.8GB)。
[005] DPQuant — 差分隐私 + FP4 训练,PLS + LLP 把 FP4 量化方差压回可控(FP16 baseline 的 1×),90% 层量化下理论 2.21× 加速 + 精度损失 ≤ 2%。

十三、VLM/VLA/Vision/MoE 跨架构量化(9+3 篇)

[044] QVLA首个 Vision-Language-Action 量化工作。揭示 VLA 各通道差异:动作 token 比视觉/语言 token 量化敏感度高一个量级;low-bit 下保持机械臂控制可用性。
[056] WSVD — Weighted Low-Rank Approximation for VLM。
[063] LLaVA-FA — Fourier Approximation for compressing LMM。
[070] Multi-Boolean LLMs — 二值架构。
[015] InlierQ — 目标检测 PTQ:用梯度 L1 范数定义体积显著性,EM 高斯混合分内点/异常点;W4A4 下 2D mAP +2.0%, 3D LiDAR mAP +3.2%。
[033] PTQ for Video Matting — VM 数据集 W4A4 MAD 20.81 vs 次优 QDrop 24.36 (-15%)。
[046] SPR²Q — 图像超分辨率 PTQ。
[064] Quantized VGGT — Visual Geometry Grounded Transformer 量化。
[030] SSDi8 — Mamba-2 SSD 内部首个完整持久 INT8 路径,最高 1.47× 加速。
[011/012/053] MoE 三连:MoE-Quant(理论保证)/ CodeQuant(聚类+旋转)/ KBVQ-MoE(KLT-SVD VQ)。

十四、理论分析(GPTQ-Babai 等价、Scaling Law、收敛性)

本届理论论文异常密集——这是量化领域走向"成熟科学"的标志。当一个领域开始反思"我们之前在干什么 / 为什么 work"时,说明工程主战场已逐步收敛。

论文定理 / 结论价值
[023] GPTQ as Babai's Nearest PlaneGPTQ 与 1986 年格论 Babai 算法严格等价(坐标系差异)自动继承格论误差上界;指明 LLL 改进路径
[025] Lattice Geometry of NN Quantization同上独立证明,更短两组独立小组同时发现,验证可信度
[004] Linear Regression under QuantizationFP 量化(乘性误差)维度无关;INT 量化(加性误差)维度发散首次给出 FP > INT 的精确理论条件
[020] Adam FP ConvergenceAdam q_V=O(1/T²),Muon q=O(√T)~O(T^{3/2})解释为何 LLM 低精度训练 Muon > AdamW
[022] Compute-Optimal QAT最优 QAT 比例随 tokens-per-param-byte 单调增长,1-bit 次优多花 50% 算力给出 QAT 的 Chinchilla 式 scaling law
[003] Training Dynamics Impact PTQ量化误差突变由学习率衰减触发,不是 token 数反驳"训得越多越难量化"主流结论,给出 LAWA 干预法
[032] Robust Arbitrary Precision (Oral)STE 反向传播"量化无感"是 1-bit 训练不稳定的根因首次稳定 A1W1 训练;闭合形式去噪去量化
[011] MoE Theoretical Guarantee路由器 l₂ 范数变化量 Λ_s 作为专家敏感度信号有理论保证零 GPU 校准开销的 MoE 混合精度

理论收敛带来的两个明显趋势

趋势 1:量化研究从"经验调优"走向"几何 / 优化理论支撑"。GPTQ-Babai 等价、Lattice 几何、FP vs INT 的 d→∞ 收敛性,都让算法设计有了第一性原理依据。

趋势 2:scaling law 化。Compute-Optimal QAT 给出 QAT 的"Chinchilla 公式",预测最优 QAT 比例。下一步可能出现 PTQ 版的 scaling law(已被 [003] 论文动摇了基线)。

十五、关键趋势归纳(5 条共识)

共识 1:Rotation 已是 W4A4 事实标准,但"旋转粒度"必须与硬件块对齐

QuaRot/SpinQuant 在 LLaMA-2 上把 W4A4KV4 拉到 99% 性能保留——这条战线在 70B 大模型上基本结束。但 LLaMA-3-8B / Qwen3-8B 仍掉 5+ 点;MR-GPTQ 进一步揭示 NVFP4 必须用 block-16 micro-rotation 而非全矩阵 Hadamard。"如何旋"已经不是问题,"以什么粒度旋"才是 2026 年新焦点。

共识 2:NVFP4 重塑"4-bit"含义;MXFP4 因 E8M0 power-of-2 缩放天然弱 ~10% recovery

B200 上 NVFP4 实测准确率 < 1% 退化于 FP8,吞吐 2× FP8、成本 0.130 vs 0.182 美元/M tokens。但 MXFP4 因 scale 是 E8M0(power-of-2)天然不准,MR-GPTQ 把 LLaMA-3.1-8B 的 MXFP4 recovery 从 73% 拉到 93% 才追平 NVFP4。2026 主战场是 INT4 / MXFP4 / NVFP4 的算法-硬件-框架协同。

共识 3:量化 + 推理模型是 2025-2026 最热的开放问题

DeepSeek-R1 distill-Qwen-32B 在 W4A4KV4 上 AIME-120 掉 3.9%,7B/1.5B 直接掉 > 10%。长 CoT 上量化误差累积——常规 PPL/MMLU 在 4-bit 看着 lossless,但 AIME/MATH 类硬题"难度越高、退化越大"(最高 4× gap)。本届 11 篇 reasoning-quant 论文是 2026 年最有立论空间的方向。

共识 4:低精度训练不再是 toy;FP8 是产线、FP4 已可行

DeepSeek-V3 671B / 14.8T token FP8 预训跑通;Metis 把 FP4 训练 gap 从 3-4% 压到 0.4%;NVIDIA 宣称 NVFP4 训练"16-bit 精度 + 4-bit 速度"。2026-2027 将看到首批 native NVFP4 / MXFP8 预训的 7B+ 开源模型。

共识 5:量化研究开始走向"成熟科学"——理论收敛 + scaling law 化

本届 8 篇理论论文(占总数 ~9%)构成历届最高比例:GPTQ-Babai 等价、Lattice 几何、Adam vs Muon 收敛、Compute-Optimal QAT scaling law。这通常发生在一个领域工程主战场逐步收敛、需要第一性原理整合的时候。下一步可能出现 PTQ 版 Chinchilla 公式。

十六、值得做的方向 vs 不值得做的方向

16.1 已经做透了的方向(不建议再做)

方向为什么饱和例外(仍可做的子问题)
W8A8 LLM 量化SmoothQuant 已 essentially lossless;FP8 兜底Mamba/SSM 等新架构的 W8A8(如 SSDi8)
大模型(70B+)weight-only W4A16OSTQuant 已推到 0.29 点退化FP4 / NVFP4 native 上的 W4A16 等价问题
W4A4 在 LLaMA-2 系列QuaRot/SpinQuant 99% 保留同算法到 LLaMA-3 / Qwen3 仍有 5+ 点 gap
2-bit KV 14B+ 常规任务< 0.5 PPL 退化已经 1M-10M context(KVQuant)2-bit KV 长 CoT 推理任务(仍掉 1-3 点)
校准集大小研究128-1024 个 1024-token sample 已足够(共识)
纯 Hadamard 旋转的进一步优化QuaRot/SpinQuant/OSTQuant 已经接近上界Hadamard 与新硬件块大小(NVFP4 G=16)的协同
PTQ 与 RTN/AbsMax 的边角对比大量论文已对比;增量 < 0.5 点

16.2 仍是公开问题(值得做)

方向瓶颈与机会本届相关工作
小模型(< 7B)极低位 PTQ/QATW4A4 在 1.5B-7B 上仍掉 10+ 点;on-device 部署硬骨头BBQ [001], InlierQ [015] 边缘场景
推理模型量化(reasoning quantization)2025-2026 最热。长 CoT 误差累积,AIME 类硬题 W4A4 掉 4-10%[057], [014], [040], [065], [058], [083]
过训模型的 PTQ ceilingLLaMA-3 (15T)、Qwen3 (36T) 撞墙;需新 precision-aware scaling law[003] 反驳了"训得越久越差"的简单论断
MXFP4 vs NVFP4 vs INT4 算法-硬件协同三种"4-bit"性能差异 ~10%;新算法须区分对待[018] MR-GPTQ, [047] MicroMix, [055] Microscaling Limits
ternary / binary 在 70B+BitNet scaling law 未验证到 70B+;BitNet Distillation 是绕开方案[042] Tequila, [062] PT²-LLM, [014] Ultra-Low-Bit Reasoning
VLM/VLA 视觉模态量化视觉 encoder outlier 模式与 LLM body 不同;VLA 动作 token 极敏感[044] QVLA, [056] WSVD, [063] LLaVA-FA
扩散模型客观质量 metricFID/CLIP 不够细,人评太贵;缺"扩散版 PPL"本届 12 篇 diffusion 量化都在用混合 metric
量化与长上下文互动100K-1M context 下误差是否随 token 累积?2-bit needle-in-haystack 已开始失效[052] PM-KVQ, [066] KV Transform Coding, [088] Random KV
量化感知预训练(NVFP4 native pretrain)FP8 已通;FP4 / NVFP4 native scaling law 尚未稳定[036] Metis, [060] MOSS, [032] Robust Arbitrary Precision
量化 × RL / RLHF 相容性RL 训完的模型量化退化更大;原因不明[013] QeRL, [040] QuRL — 已有突破口
混合精度搜索的 sample efficiencyIMPQ/SliM-LLM/ScaleBITS 仍是计算昂贵 ILP[011] MoE 用路由 l₂ 是低成本启发式
Optimizer 状态量化(4-bit Adam/Muon)Adam 二阶矩对量化极敏感;Muon 友好但还在演化[020] Adam FP, [028] Low-bit Muon, [061] QGP

16.3 我们的研究方向建议

如果你要在 2026-2027 入场量化,三条最高 ROI 路线:

  1. 路线 A:Reasoning-quant 深耕。集中攻"长 CoT 量化误差累积"。题目可以从「找到 quantization 触发推理崩塌的 token-level signature」起步——这个问题没人系统做过,且通往可发顶会的具体子问题(量化感知 thinking budget / KV-quant + reasoning loss alignment)。
  2. 路线 B:MXFP4-native 算法。Blackwell GPU 大量铺货后,全部新 PTQ 算法都要在 NVFP4/MXFP4 上重做一遍。MR-GPTQ 只是开端;下一步是 NVFP4 native QAT、NVFP4 KV cache、NVFP4 Diffusion。门槛是要有 B200/RTX 5090。
  3. 路线 C:Optimizer-quant + RL。QeRL/QuRL 已经证明 RL 训练量化可行,但只触及表层。Adam 二阶矩量化([020] 给出理论困难)+ RL 训练([013/040] 给出实验路径)的交集是未开垦的高价值区。

⚠️ 不建议入场的两类研究

十七、资源汇总

17.1 关键 baseline 论文(2022-2025)

17.2 工业部署框架

框架支持的量化格式
vLLMAutoAWQ, GPTQModel, BitsAndBytes, GGUF, INT4 W4A16, INT8 W8A8, FP8 W8A8, NVFP4/MXFP4 (via NVIDIA Model Optimizer), TorchAO, AMD Quark, Quantized KV Cache
TensorRT-LLMW4A16, W4A16_AWQ, FP8, FP8_PER_CHANNEL_PER_TOKEN, NVFP4, MXFP4, MXFP8
SGLangNVFP4 via NVIDIA Model Optimizer 互通
HF TransformersBitsAndBytes, GPTQ, AWQ, AQLM, HQQ, quanto, torchao

17.3 官方量化模型