MiniCPM-V 4.6 多模态"小钢炮"，6GB内存可流畅运行

2026/5/29大约 3 分钟

MiniCPM-V 4.6 多模态"小钢炮"，6GB内存可流畅运行

2026年5月11日，面壁智能联合清华大学及OpenBMB开源社区正式发布并开源了新一代端侧多模态大模型MiniCPM-V 4.6。这款仅1.3B参数的模型，仅需约6GB内存即可流畅运行。

一、核心特性：小身板蕴含大能量

1.1 极致轻量化，端侧部署门槛大幅降低

参数规模：仅1.2B参数，是MiniCPM-V系列有史以来参数规模最小的一款
内存需求：端侧设备仅需约6GB内存即可流畅运行
模型体积：Q4_K_M量化版本总大小约1.6GB（LLM 0.5GB + mmproj 1.1GB）
支持平台：全面适配iOS、Android、HarmonyOS三大主流移动操作系统

1.2 性能跨级，超越同尺寸标杆

MiniCPM-V 4.6提供了Instruct（直接回答）和Thinking（深度推理）两个版本，在通用图文理解、STEM数理推理、文档OCR及视频时序理解等任务上全面超越了Qwen3.5-0.8B和Gemma4-E2B-it等模型。

在最新的Artificial Analysis评测中，MiniCPM-V 4.6以13分的成绩超越了更大尺寸的Ministral 3 3B（11分）和Qwen3.5-0.8B-Thinking（11分），整体能力接近Qwen3.5-2B级别。

1.3 效率革命，参数更大反而更快

最令人惊叹的是，尽管参数规模比Qwen3.5-0.8B更大，MiniCPM-V 4.6在推理效率上却实现了反超：

Token吞吐量：基于vLLM框架的推理测试中，达到Qwen3.5-0.8B的1.5倍
计算Token消耗：仅为Qwen3.5-0.8B的2.5%左右
Artificial Analysis评测：1.3B非推理版本仅消耗约540万Token，仅为Qwen3.5-0.8B非推理版本的1/19

这意味着开发者可以用同样的硬件承载更多的线上流量，或者在端侧实现更快的响应速度。

1.4 高分辨率图像处理能力突出

首字响应延迟：处理3132×3132分辨率高清大图时，仅约75.7毫秒，较Qwen3.5-0.8B快2.2倍
高并发吞吐量：单张RTX 4090显卡每秒可处理54.79张1344×1344分辨率图片，处理吞吐量约为Qwen3.5-0.8B的1.5倍

二、技术创新：LLaVA-UHD v4架构的突破

MiniCPM-V 4.6的卓越性能，源于面壁智能与清华大学联合研发的第四代LLaVA-UHD v4架构，两大技术创新解决了高分辨率图像处理的痛点。

3.1 ViT内部视觉Token"早压缩"技术

传统全局编码方案导致算力随分辨率二次方膨胀，LLaVA-UHD v4采用了切片编码+早期压缩的创新方案：

将大图分块处理，规避算力爆炸
在ViT浅层插入压缩模块，配合窗口注意力机制与参数复用
视觉编码计算量降低55.8%，兼顾性能与效率

图：LLaVA-UHD v4架构图

3.2 4倍/16倍混合视觉Token压缩

首创双模式动态切换，让开发者可以根据应用场景在性能优先与速度优先之间灵活选择：

4倍压缩模式：细粒度视觉解析，适配医疗影像、文档识别等高精场景
16倍压缩模式：极致吞吐量，适配手机实时交互、云端高并发业务