阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-04
斯沃琪集团CEO呼吁瑞士总统与特朗普会面,解决关税争端科技水平又一个里程碑 11只白酒股下跌 贵州茅台1419.00元/股收盘太强大了 李嘉诚50亿港元出售深水湾“老宅”?李泽钜最新回应官方通报来了 11只白酒股下跌 贵州茅台1419.00元/股收盘 从WAIC 2025透视银行AI三重门:走到哪?卡在哪?要去哪?官方处理结果 视频|胜宏科技董事长陈涛:胜宏科技市盈率在同行业中不算高,未来业绩具有确定性、稳定性、增长性后续会怎么发展 000716,停牌!国资拟入主科技水平又一个里程碑 《金融机构客户尽职调查和客户身份资料及交易记录保存管理办法(征求意见稿)》公开征求意见秒懂 大摩:中电控股派息持平 大部份地区业务盈利受压反转来了 斯沃琪集团CEO呼吁瑞士总统与特朗普会面,解决关税争端 八马茶业年入16亿,创始人子女在福建豪门联姻 不顾特朗普威胁,印度有意继续购买俄罗斯石油太强大了 泸州老窖浙江地区年销售额超25亿后续反转来了 《金融机构客户尽职调查和客户身份资料及交易记录保存管理办法(征求意见稿)》公开征求意见秒懂 医药上市公司董秘PK:康乐卫士任恩奇年仅28岁成最年轻董秘 年薪38.32万元低于行业均值 日本财务大臣对日元走势表示担忧 策略师警告面临跌向155风险后续来了 星巴克据悉已筛选其龙国业务的潜在投资者 腾讯、高瓴入围官方通报 苹果的AI烦恼 CIO Times:英伟达因 H20 芯片安全漏洞被龙国网信办约谈实垂了 兴业证券保荐“旋转门”:频现保代火速入职问题发行人 内控“三道防线”有效性待考实测是真的 京东:坚决杜绝不正当竞争 抵制“0元购”等恶性补贴记者时时跟进 星巴克据悉已筛选其龙国业务的潜在投资者 腾讯、高瓴入围 工行带头表态:整治“内卷式”竞争!秒懂 石油石化公司董秘PK:海油工程蔡怀宇、龙国海油徐玉高为业内唯二博士学历董秘 美参议员提案探索TikTok禁令替代方案官方已经证实 联储降息不是简单的经济问题(国金宏观钟天)这么做真的好么? 石油石化公司董秘PK:海油工程蔡怀宇、龙国海油徐玉高为业内唯二博士学历董秘最新报道 联储降息不是简单的经济问题(国金宏观钟天) 促进民营经济高质量发展,国家发改委答记者问 医药上市公司董秘PK:瑞迈特年接待投资者1107次排名第五 董秘郑敏年薪87.4万元官方处理结果 广州开发区强化资本支持,100%容亏率刷新国资基金“天花板”最新进展 医药上市公司董秘PK:益方生物江岳恒年薪520.65万元行业第二 已在公司任职5年后续会怎么发展 散户贪婪之际,聪明钱开始削减美股多头仓位秒懂 星巴克据悉已筛选其龙国业务的潜在投资者 腾讯、高瓴入围官方已经证实 2025年上半年城市GDP-TOP50,看下你的城市在第几个? ST帕瓦实控人被立案侦查!占用公司资金近2亿元官方通报来了 单机游戏风头正劲,国产3A大作站上ChinaJoy“C位”这么做真的好么? 【申万宏源策略】周度研究成果(7.25-8.3) 蓝思科技携十余款机器人亮相龙国机器人学术年会是真的吗? 科技水平又一个里程碑 长安新能源汽车单月销量破8万辆 7月同比增长超74% 龙国汽研:理想 i8 碰撞测试仅验证车辆安全性,壁障车为随机购买实时报道 单机游戏风头正劲,国产3A大作站上ChinaJoy“C位” ST帕瓦实控人之一被立案侦查!什么情况?秒懂 上市公司密集披露业绩预告公募基金沿盈利主线挖掘投资机会 苹果新成立的“Answers”团队正在打造ChatGPT竞品实垂了 算力出海“小步快跑” 基金经理把握科创投资机遇 ST帕瓦实控人被立案侦查!占用公司资金近2亿元 8月3日增减持汇总:暂无增持 金安国纪等13股减持(表) 601088、300264,明起停牌! 【申万宏源策略】周度研究成果(7.25-8.3) 上市公司密集披露业绩预告公募基金沿盈利主线挖掘投资机会官方已经证实

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章