阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

龙国三江化工附属与浩星节能订立能源管理协议学习了 蔚来-SW截至7月末累计汽车交付量达80.67万辆又一个里程碑 西藏水资源发盈喜预计中期净利润同比增长约300% 中信证券：行情需要降温才能行稳致远后续反转来了 丰乐种业控股股东“输血”背后：上半年预计亏损加剧 诺辉健康：委任共同临时清盘人申请继续停牌这么做真的好么？ 丰乐种业控股股东“输血”背后：上半年预计亏损加剧官方通报来了 蔚来-SW截至7月末累计汽车交付量达80.67万辆官方已经证实 保诚7月31日斥资289.49万英镑回购30.16万股后续来了 “股神”巴菲特投错了？伯克希尔减持卡夫亨氏股票，现金储备仍处于高位 龙国三江化工附属与浩星节能订立能源管理协议太强大了 信义能源发布中期业绩权益持有人应占溢利4.5亿元同比增加23.43% 龙国外运拟增持安通控股股份实测是真的 百盛集团赢得绵阳市租赁物业竞标实垂了 德翔海运发盈喜预计中期权益股东应占溢利同比增加约220%至255%实时报道 龙国三江化工附属与浩星节能订立能源管理协议学习了 亚洲金融：股价及成交量不寻常变动业务营运维持正常官方通报 名创优品8月1日斥资193.59万港元回购5.26万股 环球信贷集团附属授出总金额为3058.3万港元的有抵押贷款 乘龙卡车，连着4天“内涵”理想 龙国神华拟“打包”注入控股股东国家能源集团13家优质企业最新进展 桂浩明：险资缘何频繁举牌上市公司？这么做真的好么？ 国家外汇局召开下半年外汇管理工作交流会适时开展逆周期调节维护外汇市场稳定后续反转来了 新增授信23.6万亿元支持小微企业融资协调工作机制见效 美国劳工部长：Wiatrowski将出任劳工统计局代理局长官方处理结果 美国劳工部长：Wiatrowski将出任劳工统计局代理局长官方处理结果 2025年上半年国内居民出游人次32.85亿后续来了 高盛在铜价暴跌前一天建议对冲基金客户做多铜 高盛在铜价暴跌前一天建议对冲基金客户做多铜后续反转来了 资产重估进行时港股主题ETF年内净申购额超千亿元 达华智能涉嫌信披违规被立案！年内5家上市公司涉嫌财务造假被立案调查 破“芯”局筑“ESG”基新质生产力赋能汽车产业加速跑头部车企热议创新与出海后续反转 达华智能涉嫌信披违规被立案！年内5家上市公司涉嫌财务造假被立案调查 高露洁-棕榄公司二季度营收达51.1亿美元最新进展 美国劳工部长：Wiatrowski将出任劳工统计局代理局长秒懂 资产重估进行时港股主题ETF年内净申购额超千亿元 多家车企7月交付再创新高新势力阵营销量分化 特朗普下令立即免职劳工统计局局长称就业数据被政治操控反转来了 泽连斯基：愿以最快速度推进实现和平应举行领导人层级会晤最新进展 美联储理事Adriana Kugler递交辞呈 8月8日生效官方已经证实 RBC： OPEC+不会增产以抵消俄罗斯遭美国制裁的影响实垂了 太强大了 “新陈代谢”持续今年以来超30家港股公司退市 最新裁决：宗馥莉，暂不得提款或转账香港汇丰账户资产官方通报 美国过去三个月非农就业人数平均仅增3.5万人为疫情以来最糟又一个里程碑 百强房企前7月拿地总额同比增长34.3%秒懂 W.W.Grainger公司二季度营收超预期每股收益略逊预期最新报道 富兰克林资源公司第三财季营收超预期是真的？

感谢本站网友乌蝇哥的左手的线索投递！

本站 3 月 27 日消息，今日凌晨，阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni，并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示，该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下：

全能创新架构：Qwen 团队提出了一种全新的 Thinker-Talker 架构，这是一种端到端的多模态模型，旨在支持文本 / 图像 / 音频 / 视频的跨模态理解，同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术，称为 TMRoPE（Time-aligned Multimodal RoPE），通过时间轴对齐实现视频与音频输入的精准同步。

实时音视频交互：架构旨在支持完全实时交互，支持分块输入和即时输出。

自然流畅的语音生成：在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

全模态性能优势：在同等规模的单模态模型进行基准测试时，表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio，并与 Qwen2.5-VL-7B 保持同等水平。

卓越的端到端语音指令跟随能力：Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果，在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

据官方介绍，Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑，负责处理文本、音频、视频等多模态输入，生成高层语义表征及对应文本内容；Talker 模块则类似发声器官，以流式方式接收 Thinker 实时输出的语义表征与文本，流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构，融合音频 / 图像编码器进行特征提取；Talker 则采用双轨自回归 Transformer 解码器设计，在训练和推理过程中直接接收来自 Thinker 的高维表征，并共享全部历史上下文信息，形成端到端的统一模型架构。

模型架构图

模型性能方面，Qwen2.5-Omni 在包括图像，音频，音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在多模态任务 OmniBench，Qwen2.5-Omni 达到了 SOTA 的表现。此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和主观自然听感）。

▲模型性能图

Qwen Chat：//chat.qwenlm.ai

Hugging Face：//huggingface.co/Qwen/Qwen2.5-Omni-7B

ModelScope：//modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

DashScope：//help.aliyun.com/zh/model-studio/user-guide/qwen-omni

GitHub：//github.com/QwenLM/Qwen2.5-Omni

Demo 体验：//modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo