【开源】OpenBMB 发布 MiniCPM-o 4.5：9B 参数硬刚 Gemini 2.5 Flash，支持全双工多模态直播

OpenBMB 正式开源端侧多模态大模型 MiniCPM-o 4.5。作为一款总参数仅 9B 的模型，它不仅支持图像、视频、文本、音频的混合输入，还能端到端输出文本和语音。

全双工多模态直播：实现了输入与输出流的互不阻塞，做到“看、听、说”同步进行，交互体验更流畅。
强劲视觉能力：官方数据显示，其在 OpenCompass 评测中得分 77.6。在 9B 规模下，视觉能力超越 GPT-4o 和 Gemini 2.0 Pro，逼近 Gemini 2.5 Flash。
语音交互：支持双语实时语音对话，提供可配置音色及声音克隆功能。
配套生态：同步发布了 llama.cpp-omni 推理框架及 WebRTC Demo，方便开发者快速上手。

大家怎么看这次“端侧最强”的更新？