澳门新浦京游戏下载官网-澳门新浦京app 蚂计划团开源全模态大模子Ming-Flash-Omni 2.0 性能对标Gemini 2.5 Pro

澳门新浦京app 蚂计划团开源全模态大模子Ming-Flash-Omni 2.0 性能对标Gemini 2.5 Pro

发布日期:2026-02-19 17:17  点击次数:136

澳门新浦京app 蚂计划团开源全模态大模子Ming-Flash-Omni 2.0 性能对标Gemini 2.5 Pro

{jz:field.toptypename/}{jz:field.toptypename/}

【TechWeb】2月11日音书,蚂计划团开源发布全模态大模子 Ming-Flash-Omni 2.0。在多项公开基准测试中,该模子在视觉言语领会、语音可控生成、图像生成与裁剪等要道智商阐发杰出。

据先容,Ming-Flash-Omni 2.0是业界首个全场景音频合资生成模子,可在合并条音轨中同期生谚语音、环境音效与音乐。用户只需用当然言语下教唆,即可对音色、语速、语调、音量、心思与方言等进行细巧升天。模子在推理阶段已毕了 3.1Hz 的极低推理帧率,已毕了分钟级长音频的及时高保真生成,在推理收尾与老本升天上保抓业界越过。

业内无数合计,多模态大模子最终会走向更合资的架构,让不同模态与任求已毕更深层协同。但本质是,“全模态”模子常常很难同期作念到通用与专精:在特定单项智商上,开源模子常常不足专用模子。蚂计划团在全模态地点已抓续参增多年,Ming-Omni系列恰是在这一配景下抓续演进:早期版块构建合资多模态智商底座,中期版块考据畛域增长带来的智商造就,而最新2.0版块通过更大畛域数据与系统性老师优化,将全模态领会与生成智商推至开源越过水平,并在部分畛域特别顶级专用模子。

这次将 Ming-Flash-Omni 2.0 开源,意味着其中枢智商以“可复用底座”的阵势对外开释,为端到端多模态运用建筑提供合资智商进口。

Ming-Flash-Omni 2.0 基于 Ling-2.0 架构(MoE,澳门新浦京游戏下载100B-A6B)老师,围绕“看得更准、听得更细、生成更稳”三大观点全面优化。视觉方面,和会亿级细粒度数据与难例老师计策,显赫造就对近缘动植物、工艺细节和豪情文物等复杂对象的识别智商;音频方面,已毕语音、音效、音乐同轨生成,接济当然言语细巧升天音色、语速、心思等参数,并具备零样本音色克隆与定制智商;图像方面,增强复杂裁剪的沉稳性,接济光影调养、场景替换、东谈主物姿态优化及一键修图等功能,在动态场景中仍保抓画面连贯与细节确凿。

百灵模子隆重东谈主周俊暗意,全模态技艺的要道在于通过合资架构已毕多模态智商的深度和会与高效调用。开源后,建筑者可基于合并套框架复用视觉、语音与生成智商,显赫裁汰多模子串联的复杂度与老本。翌日,团队将抓续优化视频时序领会、复杂图像裁剪与长音频生成及时性,完善器具链与评测体系,股东全模态技艺在骨子业务中畛域化落地。

现在,Ming-Flash-Omni 2.0的模子权重、推理代码已在 Hugging Face等开源社区发布。用户也可通过蚂蚁百灵官方平台Ling Studio在线体验与调用。(周小白)

  声明:新浪网独家稿件,未经授权辞谢转载。 -->

推荐资讯
热点资讯
  • 友情链接:

Powered by 澳门新浦京游戏下载官网 @2013-2022 RSS地图 HTML地图