ICLR 2026 模型量化论文全景调研 (2026.04)

一、量化领域的核心矛盾 — 为什么这事到 2026 还没做完
二、ICLR 2026 量化论文总览（94→91 篇）
三、发展时间线 — ICLR 2026 在历史中的位置
四、分类体系 — 13 个研究方向
五、PTQ 主线（GPTQ/AWQ/Rotation 后继者）
六、KV cache 量化与长上下文
七、扩散与视频生成模型量化
八、低精度训练与 FP4/FP8 训练栈
九、QAT 与极低比特（≤2-bit）
十、混合精度与硬件协同（MXFP4/NVFP4）
十一、量化与推理模型（Long-CoT）
十二、量化与 RL / Optimizer 状态
十三、VLM/VLA/Vision/MoE 跨架构量化
十四、理论分析（GPTQ-Babai 等价、Scaling Law、收敛性）
十五、关键趋势归纳（5 条共识）
十六、值得做的方向 vs 不值得做的方向
十七、资源汇总（论文索引 + 链接）

一、量化领域的核心矛盾 — 为什么这事到 2026 还没做完

🎵 一个类比：把一首交响乐压成 MP3。 原始信号是 16-bit 浮点（FP16/BF16），有几乎无损的细腻度。要省存储和带宽，得把它压成 4-bit、2-bit 甚至 1-bit。问题是音乐里有些片段（鼓点峰值、特定乐器独奏）能量极强（outlier），如果用一个统一的"音量旋钮"去调，要么峰值削顶失真，要么其他段听不清。量化研究的本质，就是给不同段落动态选不同的"音量旋钮"，并且要让放音设备（GPU）能高效解码。

大语言模型的"信号"是权重（W）、激活（A）、KV cache、梯度、优化器状态。把它们压到 4-bit 的吸引力是显存 4×、带宽 4×、Tensor Core 算力 2-4×、单位 token 成本下降一个量级。但每一类信号都有自己的 outlier 模式，每一种压缩方式都要和硬件指令集对齐。这件事看似在 2024 年（QuaRot/SpinQuant 的 W4A4 风暴）就要做完了，但到 2026 年依然有 91 篇 ICLR 论文在做——为什么？

三条根本原因让量化研究在 2026 仍然热门：
过训模型反量化 — Kumar et al. (ICLR 2025) 证明：训练 token 越多，PTQ 退化越严重。LLaMA-3 (15T)、Qwen3 (36T) 撞墙明显。Tim Dettmers 评为"近期最重要的 paper"。
新硬件格式重塑游戏 — NVFP4/MXFP4/MXFP8 不是简单的 INT4 替代品，每种格式有独特的缩放行为，"4-bit"已经不是一个概念，而是 INT4/MXFP4/NVFP4 三套不同的算法-硬件协同。
量化与推理模型的相互作用 — DeepSeek-R1 类长 CoT 模型的 W4A4 退化高度任务依赖：常规 PPL/MMLU 几乎无损，但 AIME-120 类硬题最高掉 4×。误差沿 CoT 累积，是 2026 年最热的开放问题。

二、ICLR 2026 量化论文总览（94 → 91 篇）

本调研从 OpenReview API 用 ~50 个量化相关关键词穷尽扫描 ICLR 2026 全部接收论文（>5300 篇），过滤后得 197 个候选；再经人工边缘案例审计，最终圈定 94 篇送入逐篇 HTML 写作流程。其中有 3 篇被 Sonnet 阅读 PDF 后判定为误判（详见下表 stride 跳过项），实际收录 91 篇真正的模型量化论文。

最终收录论文数

Oral 论文

Poster 论文

研究方向

2.1 按方向分布（一篇可在多个类别）

方向	论文数	代表作	战线饱和度
PTQ（含 PTQ-analysis）	38	TurboBoA, OBR, MR-GPTQ, SliderQuant, SERQ	中等主战场
Hardware-aware	21	MicroMix, MR-GPTQ, AnyBCQ, LogART	高速增长
Mixed-precision	20	Compute-Optimal QAT, ChanMix, STaMP, MoE-Quant	活跃
KV cache quant	15	PM-KVQ, ThinKV, ChanMix, KV Transform Coding	最热
Quant + Prune / LowRank	13	OBR, QWHA, SERQ, CoA-LoRA, SNAP-UQ	活跃
Diffusion / Video Quant	12	SVDQuant 衍生、QVGen、DVD-Quant、QuantSparse	高速增长
Vector quant（含边缘案例）	10	DiVeQ, KBVQ-MoE, NuBitQ, Multi-Boolean	活跃
Rotation / Hadamard	8	ParoQuant, MR-GPTQ, QWHA, CodeQuant, Qronos	饱和
QAT	8	BBQ, Compute-Optimal QAT, Tequila, Arbitrary Precision	复活
Binary / Ternary	6	Tequila, PT²-LLM, Multi-Boolean, BEP, Masked Binary U-Net	突破期
Optimizer-quant / Low-precision-training	5+3	Metis, MOSS, Low-bit Muon, Adam FP convergence	最热
Vision quant（专用）	4	InlierQ Object Detection, PTQ Video Matting, SPR²Q, Masked Binary U-Net	中等
VLM / VLA quant	4+1	QVLA, WSVD, LLaVA-FA, Multi-Boolean	突破期
Quant for RL	3	QeRL, QuRL, ATPO（误判）	突破期
MoE quant	3	MoE-Quant, CodeQuant, KBVQ-MoE	活跃
Quant for Fairness / Adversarial	2	TriQDef, Fair Multi-Feature	小众
Continual Quant	1	QGP Continual	小众

2.2 按目标模型分布

LLM 主流（含 Reasoning-LLM, MoE）
30+ 篇

绝对主战场。Reasoning-LLM 单独成势（11 篇）。

扩散 / 视频生成
16 篇

Video DiT 量化大爆发。SANA-Video 是 Oral。

VLM/VLA/Vision
9 篇

QVLA 是首个 VLA 量化工作（Oral 候选水平）。

SSM / 新架构
2-3 篇

SSDi8 把 Mamba-2 的 SSD 内部打通 INT8。

三、发展时间线 — ICLR 2026 在历史中的位置

从 2024 到 2026 的三大范式转移

维度	2024	2026 (ICLR)
主流低位格式	INT4 (Marlin/per-group 128)	NVFP4 / MXFP4 / FP4 三足并立
"4-bit"含义	Weight 量化 + group scale	Weight + Activation + KV + Optimizer 全 4-bit
Outlier 处理范式	Smoothing / Mixed precision	Rotation 已成事实标准（QuaRot/SpinQuant 后继）
评估 metric	WikiText-2 PPL + MMLU	+AIME / MATH / 长 CoT / FID-视频
研究焦点	"如何不掉点"	"硬件协同 + 长 CoT 推理一致 + native 训练"

四、分类体系 — 13 个研究方向

五、PTQ 主线（GPTQ/AWQ/Rotation 后继者）

PTQ 是 ICLR 2026 数量最多的方向（38 篇）。从 ICLR 2025 的 OSTQuant 之后，PTQ 主线分裂为四条支流：(1) 更精的补偿（GPTQ 系列改进）、(2) 更好的旋转（Hadamard 后继）、(3) 结构化分析（理论等价性 / lattice）、(4) 更快的算法（去 BP / 一次过）。

5.1 GPTQ 补偿与误差控制（5 篇）

[017] TurboBoA — 多通道闭合解把 BoA 顺序量化步数从 128 降到 8（N=16），3-4× 速度，与 QuaRot/OSTQuant 组合刷新 INT2 / W2A4KV4 双 SOTA。

[010] Rethinking Residual Errors — 揭示 GPTAQ 把"补偿后输出"当目标的系统偏差，CAE 项加 5% 时间换 LLaMA2-7B C4 PPL 13.60→8.34。

[023/025] GPTQ as Babai's Nearest Plane（双独立等价证明） — 两篇独立证明 GPTQ 与 1986 年 Babai 算法等价，自动继承格论误差上界，开启 LLL 改进路径。

[051] LogART — 对数后训量化的极限推进，硬件友好 LUT 实现。

5.2 Rotation 后继 — 不再是 Hadamard 一家独大

[006] ParoQuant — Givens 成对旋转替代全 Hadamard，CUDA 完全并行；推理任务 Avg 61.9（vs AWQ 59.5, QTIP 61.0），W4A16。

[018] MR-GPTQ (Bridging MXFP4 Gap) — 关键论文：解析证明 Hadamard 旋转对 NVFP4 (G=16) 有害，提出块级 micro-rotation；MXFP4 W4A4 recovery 87.83% → 93.31%，QuTLASS 内核反超 NVFP4 ~15%。

[021] QWHA — Walsh-Hadamard adapter for QA-PEFT，2-bit 极限上 LLaMA-3.1-8B GSM8K +3.94。

[031] SliderQuant — 不是新旋转，而是发现"浅/深层比中间层难量化"，三种自适应滑窗（PESW/FSSW/PCSW）；W4A4 LLaMA2-7B PPL 12.73→8.34，无额外推理开销。

[054] Qronos — 跨模态（KV/Diffusion）的旋转-补偿统一框架。

[064] Quantized VGGT — 把 rotation 范式搬到 Vision Geometry Transformer。

5.3 结构化补偿 / 联合压缩（4 篇）

[008] OBR (Optimal Brain Restoration) — Hessian 群误差闭合解 Δw_R* = −H_RR⁻¹·H_RE·e_E 化解量化偏好平坦 vs 剪枝偏好高方差的根本冲突；W4A4KV4 + 50% 稀疏，LLaMA2-7B PPL 8.40 (vs SparseGPT+GPTQ 12.94)，4.72× 推理加速。

[019] SERQ — 单一 Saliency-Aware 低秩矩阵替代 L²QER 的两个串行矩阵，消除推理期在线量化；W4A4 LLaMA-2-7B PPL 5.97。

[045] UniQL — 统一量化 + 低秩压缩，目标 SSM/边缘 LLM。

[072] GlowQ — Group-shared low-rank approximation，分组共享降低低秩开销。

5.4 PTQ 公式核心（取 OBR 的 Hessian 群补偿为例）

对 group-wise 量化误差 e_E ∈ ℝ^|E|，未量化区 R 的最优补偿：
Δw_R* = − H_RR⁻¹ · H_RE · e_E
其中 H = X^T X 是 calibration Hessian，下标 R / E 分别是未量化与已量化通道集合。

这条闭合解是 OBS（Optimal Brain Surgeon, 1992）的现代复活——把"删一个权重"换成"动一组权重应对量化-稀疏耦合误差"，统一了 GPTQ/SparseGPT/AWQ 的补偿哲学。

六、KV cache 量化与长上下文（15 篇）

KV cache 量化是 ICLR 2026 增长最快的子方向。原因：长上下文（100K-1M token）+ 推理模型（长 CoT 输出 5K-20K token）让 KV 显存挤压成为部署瓶颈。

[052] PM-KVQ — Progressive Mixed-precision KV：长 CoT 中"早期 token 重要、后期 token 可激进降位"。

[058] ThinKV — Thought-adaptive：在思考链不同阶段（draft/refine/conclude）用不同 bit-width。

[039] ChanMix — 关键发现：检索通道（retrieval channels）对 2-bit 极敏感；仅升它们到 4-bit，Mistral RULER 从 72.13 恢复到 86.12（接近 86.99 全精度）。

[065] Not All Bits Are Equal — 推理模型上的尺度依赖内存策略：不同模型规模需要不同的 KV 配置。

[066] KV Transform Coding — 把图像压缩的 transform coding 思想搬到 KV cache。

[081] SANA-Video (Oral) — 视频生成中的 block linear diffusion + NVFP4 KV cache，720×1280 / 分钟级视频。

[054] Qronos — KV / diffusion 统一旋转补偿。

[068] Reasoning Inference Serving Unveiled — 大规模实测：KV 量化在 vLLM/SGLang/TRT-LLM 三家上的差异。

[083] Progressive Thought Encoding — 训练阶段引入渐进 KV 压缩，对齐推理时的 KV-quant。

[084] CARE — Covariance-aware + rank-enhanced，让 MLA（Multi-head Latent Attention）的 KV 进一步压缩。

[085] Multi-Head Low-Rank Attention — Multi-head 各自学低秩，等价 KV 压缩。

[087] d²Cache — Diffusion-based LLM 的 dual adaptive cache。

[088] Randomization Boosts KV — 随机化（hashing）+ 学习平衡查询负载。

[089] Cross-Layer Fusion KV — 跨层重构 KV 缓存。

[091] Scaling Attention via Feature Sparsity — 注意力特征稀疏化，配合 KV-quant。

KV cache 量化趋势小结：
4-bit KV 在 14B+ 模型 + 长上下文上已基本 lossless（< 1% 退化）；
2-bit KV 仍在挑战长 CoT，需要 channel-aware（ChanMix）或 thought-adaptive（ThinKV）混合精度才能保住推理质量；
1-bit KV 仅在向量量化 + 系统协同（Kitty/CommVQ）下勉强可用；
新方向：MLA / Multi-head Latent 类的"隐式 KV 压缩"开始与显式量化竞争（CARE, MHLA）。

七、扩散与视频生成模型量化（12 篇）

2025 年的 SVDQuant（FLUX.1 W4A4）打开了扩散量化的工程门。2026 年焦点全面转向 视频扩散——参数量更大（5B-30B）、推理时序更长（25-50 步）、KV cache 也长——量化收益更显著。

论文	对象	bit	关键贡献
[007] Gradient-Aligned Calib	Diffusion	W4A8	元学习样本权重，LSUN-Bedrooms FID 3.68→3.40
[026] QVGen	Video DiT	low-bit	QAT for video
[029] Quant-dLLM	Diffusion-LLM	2-bit	LLaDA-8B 平均准确率 42.39→54.06
[037] DVD-Quant	Video DiT	W4A4	Data-free，质量 61.82 vs ViDiT-Q 40.10
[038] PTQ4ARVG	AutoRegressive Visual	6-8 bit	视觉自回归生成专用
[043] QuantSparse	Video DiT	W4A8 + 15%稀疏	HunyuanVideo-13B PSNR 20.88 vs Q-VDiT 16.85；3.68× 压缩
[048] Q&C	Diffusion	—	量化 × cache 联合优化
[050] Sample/Freq Meta-Weight	Diffusion	W4A32	可学习频率权重契合扩散物理；LSUN FID 3.60→3.16
[076] LongLive	Video Diffusion	FP8	实时交互长视频
[078] PnP Fidelity	Diffusion Transformer	—	累积误差最小化
[081] SANA-Video (Oral)	Video Diffusion	NVFP4	720×1280 / 分钟级；block linear diffusion
[094] PQGAN	Diffusion	—	Product-quantised image representation

扩散量化的方法学差异

纯 LLM 量化方法（GPTQ/AWQ）在扩散模型上效果不稳——原因有三：(1) 激活分布随 timestep 显著漂移，单一校准集不够；(2) 视觉质量评估（FID/CLIP/人评）不收敛，PPL 等价物缺失；(3) 多步推理让单步误差通过 ODE 积累。2026 年看到三种范式涌现：

Time-aware calibration（GAC、Sample/Freq Meta-Weight、TFMQ-DM 后继）：让校准分布跟着 timestep 走
Cumulative error compensation（PnP Fidelity、QuantSparse）：显式建模多步误差累积
Native low-bit data type（SANA-Video NVFP4、LongLive FP8）：直接用硬件原生格式，不再做整数 PTQ

八、低精度训练与 FP4/FP8 训练栈

2024 年 DeepSeek-V3 用 FP8 跑通 671B / 14.8T 预训之后，"native 低精度训练"从 toy 实验变成产线可行。ICLR 2026 在这个方向有三条主线工作：

[036] Metis: Training LLMs with FP4 — 本届最重要的低精度训练论文之一。基于"少于 3% 的奇异值主导权重/激活/梯度分布"的发现，用低秩谱分解 + 稀疏随机采样把 FP4 训练损失 gap 从 3-4% 压到 0.4%；GPT-2 上小幅超越 BF16。

[060] MOSS — Microscaling + Automatic Scaling for FP8 LLM Training。让 FP8 训练自动适配不同层的尺度差异。

[082] Why Low-Precision Transformer Training Fails (Oral) — 一篇分析论文，定位 Flash Attention 在低精度训练中的失效根源。本届 3 篇 Oral 之一。

[020] Adam FP convergence (Theory) — Adam 对二阶矩量化极度敏感（需 q_V = O(1/T²)）；Muon 完全规避二阶矩，理论解释了 LLM 低精度训练中 Muon 优于 AdamW 的现象。

[032] Robust Arbitrary Precision (Oral) — 首次定位 STE 反向传播的"量化无感"是 1-bit 训练不稳定根因；闭合形式去噪去量化变换（λ=0.01 全场景无调参）首次实现稳定 A1W1 训练；Gemma3 4B-A4W1 + 2:4 稀疏（C4=0.4517）超越 BF16 Gemma3 1B（0.4494）且体积更小。

8.1 Adam vs Muon 量化敏感度（取自论文 020 的理论）

Adam 二阶矩量化精度需求：q_V = O(1/T²)（极严苛，T 是训练步数）
Muon 量化精度需求：q ~ O(√T) ~ O(T^{3/2})（宽松约 T² 倍）

原因：Adam 1/√V_t 对小 V 高度非线性放大；Muon 用 SVD 符号算子直接绕过二阶矩。

九、QAT 与极低比特（≤2-bit）（8+6 篇）

QAT 在 2024 年被 PTQ + Rotation 抢走风头，但 2026 年因为 BitNet b1.58 + Compute-Optimal QAT + BitNet Distillation 等工作复活。核心问题变成：要做到 ≤2-bit，是从头训（BitNet）还是后蒸馏（BitDistiller / Tequila）？

[001] BBQ (Bell Box Quantization) — 概率积分变换把 Gauss 拉平为均匀再均匀量化，首次同时满足 ITO 和 compute-efficient；2-bit 比 QuEST 降 PPL 5 点，1-bit 降 18 点；推理加速比 FP16 快 40%。

[022] Compute-Optimal QAT — 本届最重要的 scaling-law 论文。最优 QAT 比例不是固定 10%，而是随 tokens-per-parameter-byte 单调增长；1-bit 极端情况下次优分配多花约 50% 算力。

[014] QAT for Ultra-Low-Bit Reasoning — 2-bit Qwen3-8B 在 5 项推理基准平均 55.1%（vs PTQ baseline ~4%），不足 1B tokens 微调超越 BitNet1.58 2B4T 用 4 万亿 token 训出来的（MATH-500: 80.4 vs 43.4）。

[042] Tequila (Trapping-free Ternary) — 解决 ternary QAT 的"陷阱"问题，硬件友好。

[062] PT²-LLM (Post-Training Ternarization) — 后训三值化，无需 from-scratch。

[074] BEP (Binary Error Propagation) — Binary NN 训练新算法。

[070] Multi-Boolean Architecture — 多 boolean 层架构，二值化的工程实践。

[069] Masked Binary U-Net — Image segmentation 二值 U-Net + Tensor Core 加速。

十、混合精度与硬件协同（MXFP4/NVFP4）（20+21 篇）

本届最显著的趋势："算法-硬件协同"取代"纯算法 PTQ"。Blackwell 上 NVFP4/MXFP4 落地后，新一代 PTQ 必须考虑 block 16 / block 32 / E8M0 vs E4M3 scale 等硬件细节，否则在新卡上无法发挥。

[047] MicroMix (NVIDIA) — 利用 Blackwell FP4 Tensor Core 的混合精度（MXFP4 + MXFP6 + MXFP8）；论文提到"INT4 kernels fail to fully exploit FP4 capability due to mismatched data formats"，用 micro-scaling 充分发挥新硬件。

[018] MR-GPTQ (MXFP4 Bridging) — 上文已介绍。关键贡献：解析证明 Hadamard 旋转对 NVFP4 (G=16) 有害。

[055] Is Finer Better? (Microscaling Limits) — 分析论文：探讨 microscaling 块大小（Group=16 vs 32 vs 64）的精度极限。

[027] AnyBCQ — Hardware Efficient flexible Binary-Coded Quantization，多精度可切换。2-bit MMLU 35.96 vs Any-Precision LLM 24.66 (+11.3)。

[080] To Compress or Not? — 用指数集中（exponent concentration）做无损 GenAI 模型权重压缩。

[009] STaMP (Sequence Mixed Precision) — DCT/DWT 序列变换 + 混合精度激活，与 Hadamard 类正交叠加。

[011] MoE Quant w/ Theoretical Guarantee — 用路由器 l₂ 范数变化量 Λ_s 作为专家敏感度信号；零 GPU 校准开销，Mixtral 8x22B 仍优于需要 350GB+6000s 的 PMQ。

[067] Prune-then-Quantize or vice versa? — 系统研究压缩顺序对联合压缩的影响。

[013] QeRL — NVFP4 + RL 训练加速；Qwen2.5-7B GSM8K 达 90.8%（vs 全参 91.2%），比 QLoRA 快 1.5-2×、显存仅 5.9 GB。

[075] NLI — Non-uniform Linear Interpolation 近似非线性算子（Softmax/SiLU）的硬件友好实现。

⚠️ 关键反直觉发现：MR-GPTQ 揭示 Hadamard 在 NVFP4 上失效

MR-GPTQ 论文从解析角度证明：随机 Hadamard 旋转把高 kurtosis 激活变成高斯，但 NVFP4（G=16, scale=E4M3）的最优分布不是高斯，而是"块内方差差异化"形态——Hadamard 反而抹平了这种差异，导致 recovery 下降。

这意味着 QuaRot/SpinQuant 不能直接套用到 NVFP4，必须用块级 micro-rotation（仅在 16-channel block 内旋转）。这是 2024 → 2026 范式转移的具体技术体现：旋转本身没错，但旋转的粒度必须与硬件块大小对齐。

十一、量化与推理模型（Long-CoT）（11 篇）

这是 ICLR 2026 最具差异性的方向。问题陈述：DeepSeek-R1 / OpenAI-o1 类推理模型输出 5K-20K token 的长 CoT，常规 PPL/MMLU 在 W4A4 上看着 lossless（< 1% 退化），但 AIME-120 类硬题最高掉 4×。误差沿 CoT 累积。

[057] When Reasoning Meets Compression — 本届最系统的分析论文：揭示量化对推理模型的非均匀影响——难题退化更严重。

[006] ParoQuant — Reasoning 推理任务 Avg 61.9（最强 W4A16 之一）。

[014] QAT for Ultra-Low-Bit Reasoning — 2-bit Qwen3-8B 推理 5 项基准 55.1%，超越 BitNet1.58 2B4T。

[028] Low-bit Muon — Newton-Schulz 正交化使顶部奇异子空间量化误差被放大 40×；GRASP 8-bit 子空间 + 4-bit 残差，1.1B 预训 PPL 与 fp32 完全持平。

[031] SliderQuant — DeepSeek-R1-Distill-Qwen-14B W4A16 几乎无损（MATH-500 95.00→94.60）。

[040] QuRL — INT8 RL 训练，DeepScaleR 上 55.48 vs 全精 56.40，差距仅 0.92；32B 模型 Rollout 吞吐 +83%。

[047] MicroMix — 推理 LLM 上 NVFP4 mixed-precision SOTA。

[052/058/065] 三篇 Long-CoT KV 量化（PM-KVQ / ThinKV / Not All Bits Are Equal）。

[068] Reasoning Inference Serving Unveiled — 大规模实测推理模型在不同框架的量化表现。

[083] Progressive Thought Encoding — 训练时引入渐进 KV 压缩。

十二、量化与 RL / Optimizer 状态（5+3 篇）

新兴子方向：把量化从"推理压缩"扩展到"训练 / RL 加速"。

[013] QeRL — 反直觉发现：量化噪声在 RL 中充当隐式探索机制（与 SFT 中的有害效果相反），NVFP4 + AQN 让 Qwen2.5-7B GSM8K 达 90.8%（追平全参 91.2%）。

[040] QuRL — Importance Sampling 长期漂移 + 权重更新失效两个挑战；ACR + UAQ 修复。

[002] Beyond Outliers (Optimizers Quant) — 不同优化器训出来的模型量化敏感度差异巨大：Muon 训出来的 1.5B 模型 W4A4 仅剩 47.75%（最差），Shampoo 训的 760M 仅掉 0.46pp。

[028] Low-bit Muon (GRASP) — 优化器状态量化，混合精度。

[061] QGP Continual Learning — 量化梯度投影，持续学习场景。

[041] QZO (Zeroth-Order) — 仅扰动连续量化缩放因子绕开"ZO 不兼容量化"的矛盾，Llama-2-7B SQuAD F1=85.5（5GB）超越 MeZO（14.8GB）。

[005] DPQuant — 差分隐私 + FP4 训练，PLS + LLP 把 FP4 量化方差压回可控（FP16 baseline 的 1×），90% 层量化下理论 2.21× 加速 + 精度损失 ≤ 2%。

十三、VLM/VLA/Vision/MoE 跨架构量化（9+3 篇）

[044] QVLA — 首个 Vision-Language-Action 量化工作。揭示 VLA 各通道差异：动作 token 比视觉/语言 token 量化敏感度高一个量级；low-bit 下保持机械臂控制可用性。

[056] WSVD — Weighted Low-Rank Approximation for VLM。

[063] LLaVA-FA — Fourier Approximation for compressing LMM。

[070] Multi-Boolean LLMs — 二值架构。

[015] InlierQ — 目标检测 PTQ：用梯度 L1 范数定义体积显著性，EM 高斯混合分内点/异常点；W4A4 下 2D mAP +2.0%, 3D LiDAR mAP +3.2%。

[033] PTQ for Video Matting — VM 数据集 W4A4 MAD 20.81 vs 次优 QDrop 24.36 (-15%)。

[046] SPR²Q — 图像超分辨率 PTQ。

[064] Quantized VGGT — Visual Geometry Grounded Transformer 量化。

[030] SSDi8 — Mamba-2 SSD 内部首个完整持久 INT8 路径，最高 1.47× 加速。

[011/012/053] MoE 三连：MoE-Quant（理论保证）/ CodeQuant（聚类+旋转）/ KBVQ-MoE（KLT-SVD VQ）。

十四、理论分析（GPTQ-Babai 等价、Scaling Law、收敛性）

本届理论论文异常密集——这是量化领域走向"成熟科学"的标志。当一个领域开始反思"我们之前在干什么 / 为什么 work"时，说明工程主战场已逐步收敛。

论文	定理 / 结论	价值
[023] GPTQ as Babai's Nearest Plane	GPTQ 与 1986 年格论 Babai 算法严格等价（坐标系差异）	自动继承格论误差上界；指明 LLL 改进路径
[025] Lattice Geometry of NN Quantization	同上独立证明，更短	两组独立小组同时发现，验证可信度
[004] Linear Regression under Quantization	FP 量化（乘性误差）维度无关；INT 量化（加性误差）维度发散	首次给出 FP > INT 的精确理论条件
[020] Adam FP Convergence	Adam q_V=O(1/T²)，Muon q=O(√T)~O(T^{3/2})	解释为何 LLM 低精度训练 Muon > AdamW
[022] Compute-Optimal QAT	最优 QAT 比例随 tokens-per-param-byte 单调增长，1-bit 次优多花 50% 算力	给出 QAT 的 Chinchilla 式 scaling law
[003] Training Dynamics Impact PTQ	量化误差突变由学习率衰减触发，不是 token 数	反驳"训得越多越难量化"主流结论，给出 LAWA 干预法
[032] Robust Arbitrary Precision (Oral)	STE 反向传播"量化无感"是 1-bit 训练不稳定的根因	首次稳定 A1W1 训练；闭合形式去噪去量化
[011] MoE Theoretical Guarantee	路由器 l₂ 范数变化量 Λ_s 作为专家敏感度信号有理论保证	零 GPU 校准开销的 MoE 混合精度

理论收敛带来的两个明显趋势

趋势 1：量化研究从"经验调优"走向"几何 / 优化理论支撑"。GPTQ-Babai 等价、Lattice 几何、FP vs INT 的 d→∞ 收敛性，都让算法设计有了第一性原理依据。

趋势 2：scaling law 化。Compute-Optimal QAT 给出 QAT 的"Chinchilla 公式"，预测最优 QAT 比例。下一步可能出现 PTQ 版的 scaling law（已被 [003] 论文动摇了基线）。

十五、关键趋势归纳（5 条共识）

共识 1：Rotation 已是 W4A4 事实标准，但"旋转粒度"必须与硬件块对齐

QuaRot/SpinQuant 在 LLaMA-2 上把 W4A4KV4 拉到 99% 性能保留——这条战线在 70B 大模型上基本结束。但 LLaMA-3-8B / Qwen3-8B 仍掉 5+ 点；MR-GPTQ 进一步揭示 NVFP4 必须用 block-16 micro-rotation 而非全矩阵 Hadamard。"如何旋"已经不是问题，"以什么粒度旋"才是 2026 年新焦点。

共识 2：NVFP4 重塑"4-bit"含义；MXFP4 因 E8M0 power-of-2 缩放天然弱 ~10% recovery

B200 上 NVFP4 实测准确率 < 1% 退化于 FP8，吞吐 2× FP8、成本 0.130 vs 0.182 美元/M tokens。但 MXFP4 因 scale 是 E8M0（power-of-2）天然不准，MR-GPTQ 把 LLaMA-3.1-8B 的 MXFP4 recovery 从 73% 拉到 93% 才追平 NVFP4。2026 主战场是 INT4 / MXFP4 / NVFP4 的算法-硬件-框架协同。

共识 3：量化 + 推理模型是 2025-2026 最热的开放问题

DeepSeek-R1 distill-Qwen-32B 在 W4A4KV4 上 AIME-120 掉 3.9%，7B/1.5B 直接掉 > 10%。长 CoT 上量化误差累积——常规 PPL/MMLU 在 4-bit 看着 lossless，但 AIME/MATH 类硬题"难度越高、退化越大"（最高 4× gap）。本届 11 篇 reasoning-quant 论文是 2026 年最有立论空间的方向。

共识 4：低精度训练不再是 toy；FP8 是产线、FP4 已可行

DeepSeek-V3 671B / 14.8T token FP8 预训跑通；Metis 把 FP4 训练 gap 从 3-4% 压到 0.4%；NVIDIA 宣称 NVFP4 训练"16-bit 精度 + 4-bit 速度"。2026-2027 将看到首批 native NVFP4 / MXFP8 预训的 7B+ 开源模型。

共识 5：量化研究开始走向"成熟科学"——理论收敛 + scaling law 化

本届 8 篇理论论文（占总数 ~9%）构成历届最高比例：GPTQ-Babai 等价、Lattice 几何、Adam vs Muon 收敛、Compute-Optimal QAT scaling law。这通常发生在一个领域工程主战场逐步收敛、需要第一性原理整合的时候。下一步可能出现 PTQ 版 Chinchilla 公式。

十六、值得做的方向 vs 不值得做的方向

16.1 已经做透了的方向（不建议再做）

方向为什么饱和例外（仍可做的子问题）
W8A8 LLM 量化SmoothQuant 已 essentially lossless；FP8 兜底Mamba/SSM 等新架构的 W8A8（如 SSDi8）
大模型（70B+）weight-only W4A16OSTQuant 已推到 0.29 点退化FP4 / NVFP4 native 上的 W4A16 等价问题
W4A4 在 LLaMA-2 系列QuaRot/SpinQuant 99% 保留同算法到 LLaMA-3 / Qwen3 仍有 5+ 点 gap
2-bit KV 14B+ 常规任务< 0.5 PPL 退化已经 1M-10M context（KVQuant）2-bit KV 长 CoT 推理任务（仍掉 1-3 点）
校准集大小研究128-1024 个 1024-token sample 已足够（共识）—
纯 Hadamard 旋转的进一步优化QuaRot/SpinQuant/OSTQuant 已经接近上界Hadamard 与新硬件块大小（NVFP4 G=16）的协同
PTQ 与 RTN/AbsMax 的边角对比大量论文已对比；增量 < 0.5 点—

方向	为什么饱和	例外（仍可做的子问题）
W8A8 LLM 量化	SmoothQuant 已 essentially lossless；FP8 兜底	Mamba/SSM 等新架构的 W8A8（如 SSDi8）
大模型（70B+）weight-only W4A16	OSTQuant 已推到 0.29 点退化	FP4 / NVFP4 native 上的 W4A16 等价问题
W4A4 在 LLaMA-2 系列	QuaRot/SpinQuant 99% 保留	同算法到 LLaMA-3 / Qwen3 仍有 5+ 点 gap
2-bit KV 14B+ 常规任务	< 0.5 PPL 退化已经 1M-10M context（KVQuant）	2-bit KV 长 CoT 推理任务（仍掉 1-3 点）
校准集大小研究	128-1024 个 1024-token sample 已足够（共识）	—
纯 Hadamard 旋转的进一步优化	QuaRot/SpinQuant/OSTQuant 已经接近上界	Hadamard 与新硬件块大小（NVFP4 G=16）的协同
PTQ 与 RTN/AbsMax 的边角对比	大量论文已对比；增量 < 0.5 点	—

16.2 仍是公开问题（值得做）

方向瓶颈与机会本届相关工作
小模型（< 7B）极低位 PTQ/QATW4A4 在 1.5B-7B 上仍掉 10+ 点；on-device 部署硬骨头BBQ [001], InlierQ [015] 边缘场景
推理模型量化（reasoning quantization）2025-2026 最热。长 CoT 误差累积，AIME 类硬题 W4A4 掉 4-10%[057], [014], [040], [065], [058], [083]
过训模型的 PTQ ceilingLLaMA-3 (15T)、Qwen3 (36T) 撞墙；需新 precision-aware scaling law[003] 反驳了"训得越久越差"的简单论断
MXFP4 vs NVFP4 vs INT4 算法-硬件协同三种"4-bit"性能差异 ~10%；新算法须区分对待[018] MR-GPTQ, [047] MicroMix, [055] Microscaling Limits
ternary / binary 在 70B+BitNet scaling law 未验证到 70B+；BitNet Distillation 是绕开方案[042] Tequila, [062] PT²-LLM, [014] Ultra-Low-Bit Reasoning
VLM/VLA 视觉模态量化视觉 encoder outlier 模式与 LLM body 不同；VLA 动作 token 极敏感[044] QVLA, [056] WSVD, [063] LLaVA-FA
扩散模型客观质量 metricFID/CLIP 不够细，人评太贵；缺"扩散版 PPL"本届 12 篇 diffusion 量化都在用混合 metric
量化与长上下文互动100K-1M context 下误差是否随 token 累积？2-bit needle-in-haystack 已开始失效[052] PM-KVQ, [066] KV Transform Coding, [088] Random KV
量化感知预训练（NVFP4 native pretrain）FP8 已通；FP4 / NVFP4 native scaling law 尚未稳定[036] Metis, [060] MOSS, [032] Robust Arbitrary Precision
量化 × RL / RLHF 相容性RL 训完的模型量化退化更大；原因不明[013] QeRL, [040] QuRL — 已有突破口
混合精度搜索的 sample efficiencyIMPQ/SliM-LLM/ScaleBITS 仍是计算昂贵 ILP[011] MoE 用路由 l₂ 是低成本启发式
Optimizer 状态量化（4-bit Adam/Muon）Adam 二阶矩对量化极敏感；Muon 友好但还在演化[020] Adam FP, [028] Low-bit Muon, [061] QGP

方向	瓶颈与机会	本届相关工作
小模型（< 7B）极低位 PTQ/QAT	W4A4 在 1.5B-7B 上仍掉 10+ 点；on-device 部署硬骨头	BBQ [001], InlierQ [015] 边缘场景
推理模型量化（reasoning quantization）	2025-2026 最热。长 CoT 误差累积，AIME 类硬题 W4A4 掉 4-10%	[057], [014], [040], [065], [058], [083]
过训模型的 PTQ ceiling	LLaMA-3 (15T)、Qwen3 (36T) 撞墙；需新 precision-aware scaling law	[003] 反驳了"训得越久越差"的简单论断
MXFP4 vs NVFP4 vs INT4 算法-硬件协同	三种"4-bit"性能差异 ~10%；新算法须区分对待	[018] MR-GPTQ, [047] MicroMix, [055] Microscaling Limits
ternary / binary 在 70B+	BitNet scaling law 未验证到 70B+；BitNet Distillation 是绕开方案	[042] Tequila, [062] PT²-LLM, [014] Ultra-Low-Bit Reasoning
VLM/VLA 视觉模态量化	视觉 encoder outlier 模式与 LLM body 不同；VLA 动作 token 极敏感	[044] QVLA, [056] WSVD, [063] LLaVA-FA
扩散模型客观质量 metric	FID/CLIP 不够细，人评太贵；缺"扩散版 PPL"	本届 12 篇 diffusion 量化都在用混合 metric
量化与长上下文互动	100K-1M context 下误差是否随 token 累积？2-bit needle-in-haystack 已开始失效	[052] PM-KVQ, [066] KV Transform Coding, [088] Random KV
量化感知预训练（NVFP4 native pretrain）	FP8 已通；FP4 / NVFP4 native scaling law 尚未稳定	[036] Metis, [060] MOSS, [032] Robust Arbitrary Precision
量化 × RL / RLHF 相容性	RL 训完的模型量化退化更大；原因不明	[013] QeRL, [040] QuRL — 已有突破口
混合精度搜索的 sample efficiency	IMPQ/SliM-LLM/ScaleBITS 仍是计算昂贵 ILP	[011] MoE 用路由 l₂ 是低成本启发式
Optimizer 状态量化（4-bit Adam/Muon）	Adam 二阶矩对量化极敏感；Muon 友好但还在演化	[020] Adam FP, [028] Low-bit Muon, [061] QGP

16.3 我们的研究方向建议

如果你要在 2026-2027 入场量化，三条最高 ROI 路线：

路线 A：Reasoning-quant 深耕。集中攻"长 CoT 量化误差累积"。题目可以从「找到 quantization 触发推理崩塌的 token-level signature」起步——这个问题没人系统做过，且通往可发顶会的具体子问题（量化感知 thinking budget / KV-quant + reasoning loss alignment）。
路线 B：MXFP4-native 算法。Blackwell GPU 大量铺货后，全部新 PTQ 算法都要在 NVFP4/MXFP4 上重做一遍。MR-GPTQ 只是开端；下一步是 NVFP4 native QAT、NVFP4 KV cache、NVFP4 Diffusion。门槛是要有 B200/RTX 5090。
路线 C：Optimizer-quant + RL。QeRL/QuRL 已经证明 RL 训练量化可行，但只触及表层。Adam 二阶矩量化（[020] 给出理论困难）+ RL 训练（[013/040] 给出实验路径）的交集是未开垦的高价值区。

⚠️ 不建议入场的两类研究

不要再做 INT4 weight-only PTQ on LLaMA-2-7B/13B/70B。这是 2024-2025 的主战场，已经被 OSTQuant/QuaRot/SpinQuant/AWQ 等十数个工作压扁，每个新算法只能在小数点后两位刷新；ICLR/NeurIPS 评审已经审美疲劳。
不要再做"我们改进了 SmoothQuant 在 OPT-1.3B 上的 W8A8 PPL"。这是 2023 年 idea，2026 年提交基本不会过。

十七、资源汇总

17.1 关键 baseline 论文（2022-2025）

GPTQ (Frantar et al., ICLR 2023) — PTQ 起点
AWQ (Lin et al., MLSys 2024) — 激活感知缩放
SmoothQuant (Xiao et al., ICML 2023) — outlier 迁移
OmniQuant (Shao et al., ICLR 2024) — 可微 PTQ
QuaRot (Ashkboos et al., 2024) — Hadamard 旋转
SpinQuant (Liu et al., ICLR 2025) — 学习旋转
KIVI (Liu et al., ICML 2024) — KV 量化起点
BitNet b1.58 (Ma et al., 2024) — Ternary QAT
Scaling Laws for Precision (Kumar et al., ICLR 2025) — 训得越久越难量化
SVDQuant (Li et al., ICLR 2025 spotlight) — Diffusion W4A4

17.2 工业部署框架

框架	支持的量化格式
vLLM	AutoAWQ, GPTQModel, BitsAndBytes, GGUF, INT4 W4A16, INT8 W8A8, FP8 W8A8, NVFP4/MXFP4 (via NVIDIA Model Optimizer), TorchAO, AMD Quark, Quantized KV Cache
TensorRT-LLM	W4A16, W4A16_AWQ, FP8, FP8_PER_CHANNEL_PER_TOKEN, NVFP4, MXFP4, MXFP8
SGLang	NVFP4 via NVIDIA Model Optimizer 互通
HF Transformers	BitsAndBytes, GPTQ, AWQ, AQLM, HQQ, quanto, torchao

17.3 官方量化模型

Qwen3（2025-05-12 发布）：GGUF/AWQ/GPTQ/FP8 全套，0.6B - 397B-A17B (MoE)
LLaMA-3.1-8B-NVFP4, LLaMA-3.3-70B-NVFP4（NVIDIA 发布）
DeepSeek-V3：原生 FP8 预训权重
DeepSeek-R1：Red Hat / Neural Magic 发布 W4A16 / W8A8 / FP8 量化版（accuracy recovery > 99%）
Qwen2.5-VL：官方 AWQ 3B/7B/72B
FLUX.1-dev：Nunchaku 引擎 + SVDQuant W4A4

ICLR 2026 模型量化论文全景调研 91 篇接收论文 / 13 个研究方向 / 全方位趋势分析

目录