OpenBMB 正式开源端侧多模态大模型 MiniCPM-o 4.5。作为一款总参数仅 9B 的模型,它不仅支持图像、视频、文本、音频的混合输入,还能端到端输出文本和语音。
核心亮点
- 全双工多模态直播:实现了输入与输出流的互不阻塞,做到“看、听、说”同步进行,交互体验更流畅。
- 强劲视觉能力:官方数据显示,其在 OpenCompass 评测中得分 77.6。在 9B 规模下,视觉能力超越 GPT-4o 和 Gemini 2.0 Pro,逼近 Gemini 2.5 Flash。
- 语音交互:支持双语实时语音对话,提供可配置音色及声音克隆功能。
- 配套生态:同步发布了
llama.cpp-omni 推理框架及 WebRTC Demo,方便开发者快速上手。
大家怎么看这次“端侧最强”的更新?