
MiniCPM-V 4.6 多模态"小钢炮",6GB内存可流畅运行
2026/5/29 大约 3 分钟
MiniCPM-V 4.6 多模态"小钢炮",6GB内存可流畅运行
2026年5月11日,面壁智能联合清华大学及OpenBMB开源社区正式发布并开源了新一代端侧多模态大模型MiniCPM-V 4.6。这款仅1.3B参数的模型,仅需约6GB内存即可流畅运行。
一、核心特性:小身板蕴含大能量
1.1 极致轻量化,端侧部署门槛大幅降低
- 参数规模:仅1.2B参数,是MiniCPM-V系列有史以来参数规模最小的一款
- 内存需求:端侧设备仅需约6GB内存即可流畅运行
- 模型体积:Q4_K_M量化版本总大小约1.6GB(LLM 0.5GB + mmproj 1.1GB)
- 支持平台:全面适配iOS、Android、HarmonyOS三大主流移动操作系统
1.2 性能跨级,超越同尺寸标杆
MiniCPM-V 4.6提供了Instruct(直接回答)和Thinking(深度推理)两个版本,在通用图文理解、STEM数理推理、文档OCR及视频时序理解等任务上全面超越了Qwen3.5-0.8B和Gemma4-E2B-it等模型。
在最新的Artificial Analysis评测中,MiniCPM-V 4.6以13分的成绩超越了更大尺寸的Ministral 3 3B(11分)和Qwen3.5-0.8B-Thinking(11分),整体能力接近Qwen3.5-2B级别。
1.3 效率革命,参数更大反而更快
最令人惊叹的是,尽管参数规模比Qwen3.5-0.8B更大,MiniCPM-V 4.6在推理效率上却实现了反超:
- Token吞吐量:基于vLLM框架的推理测试中,达到Qwen3.5-0.8B的1.5倍
- 计算Token消耗:仅为Qwen3.5-0.8B的2.5%左右
- Artificial Analysis评测:1.3B非推理版本仅消耗约540万Token,仅为Qwen3.5-0.8B非推理版本的1/19
这意味着开发者可以用同样的硬件承载更多的线上流量,或者在端侧实现更快的响应速度。
1.4 高分辨率图像处理能力突出
- 首字响应延迟:处理3132×3132分辨率高清大图时,仅约75.7毫秒,较Qwen3.5-0.8B快2.2倍
- 高并发吞吐量:单张RTX 4090显卡每秒可处理54.79张1344×1344分辨率图片,处理吞吐量约为Qwen3.5-0.8B的1.5倍
二、技术创新:LLaVA-UHD v4架构的突破
MiniCPM-V 4.6的卓越性能,源于面壁智能与清华大学联合研发的第四代LLaVA-UHD v4架构,两大技术创新解决了高分辨率图像处理的痛点。
3.1 ViT内部视觉Token"早压缩"技术
传统全局编码方案导致算力随分辨率二次方膨胀,LLaVA-UHD v4采用了切片编码+早期压缩的创新方案:
- 将大图分块处理,规避算力爆炸
- 在ViT浅层插入压缩模块,配合窗口注意力机制与参数复用
- 视觉编码计算量降低55.8%,兼顾性能与效率
图:LLaVA-UHD v4架构图
3.2 4倍/16倍混合视觉Token压缩
首创双模式动态切换,让开发者可以根据应用场景在性能优先与速度优先之间灵活选择:
- 4倍压缩模式:细粒度视觉解析,适配医疗影像、文档识别等高精场景
- 16倍压缩模式:极致吞吐量,适配手机实时交互、云端高并发业务