首页 > 百姓社区 > 百姓社区 > 大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题

大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题

发布时间:2026-01-19 21:05:55来源: 13899775532

从 GPT-4o 开启全能(Omni)交互时代至今,Speech LLM 虽然在拟人化和低延迟上取得了长足进步,但面临一个令人困扰的现象:当大语言模型(LLM)被赋予 “听觉” 后,它的智商下降了。

即便是同样的底层模型,一旦输入从文本变成语音,其逻辑推理能力(Reasoning)往往会显著衰退。这种现象被称为“模态推理鸿沟”(Modality Reasoning Gap)

这个难题并非仅存在于学术界,而是 OpenAI、Google、Meta 等行业巨头都在试图跨越的 “天花板”:

 

  • 根据Big Bench Audio评测,以 GPT-4o 为例,在纯文本任务(Text-to-Text)的准确率达92%;但一旦切换到端到端语音模式(Speech-to-Speech),其得分跌至66%。这中间26%的巨大跌幅,就是模型引入语音而付出的代价。
  • Google Gemini 团队在技术分享中将其定义为Intelligence Gap;而 Meta 研究员在 NeurIPS 2025 上更是直言这是一种Intelligence Regression,并提出了一个生动的概念Multimodal Tax,即引入音频等多模态数据往往会 “挤占” 模型用于纯推理的能力。

 





为了解决这一核心痛点,香港中文大学(深圳)与微软团队联合提出了TARS(Trajectory Alignment for Reasoning in Speech)。这是一项基于强化学习(RL)的全新对齐框架,它不依赖死记硬背的监督微调,而是通过对齐 “思维轨迹”,成功将语音输入的推理表现100% 恢复甚至超越了纯文本基座水平。



 

  • 论文题目: Closing the Modality Reasoning Gap for Speech Large Language Models
  • 论文链接: https://arxiv.org/abs/2601.05543

 

核心痛点:为什么模型 “听” 得越多,“想” 得越偏?

目前的语音大模型(Speech LLM)通常采用 “语音编码器 + 适配器 + LLM” 的三段式架构。理论上,这应该能让语音输入无缝借用 LLM 强大的推理大脑。但现实是:引入语音模态后,推理能力出现了断崖式下跌

此前的研究主要试图从两个方向修补这一鸿沟,但都存在缺陷:

1. 输入端强行对齐(Input Fusion):

试图让语音特征在输入层就长得和文本 Embedding 一样。但语音天然包含语气、停顿等富语言信息,与紧凑的文本本质不同。仅依靠输入对齐这种表面功夫,无法解决深层的表征漂移(Representation Drift)—— 随着 Transformer 层数加深,语音激发的隐藏状态(Hidden States)会逐渐偏离文本的思考轨迹(即相同语义纯文本输入时,文本激发的隐藏状态),导致 “想岔了”。

2. 输出端死记硬背(SFT / 蒸馏):

这是最主流的做法,即通过监督微调(SFT)利用静态的 “语音 - 文本” 数据对进行训练,或者通过知识蒸馏(Distillation)让文本分支作为 “老师” 来指导语音分支这个 “学生”。这些本质上都属于 Off-policy(离线策略),试图强行让语音分支去模仿文本的 Token 输出分布。但这有两个问题:

 

  • 目标不可达: 语音的噪声和副语言特征决定了其输出分布不可能和纯文本完全一致。
  • Exposure Bias: 这种静态监督无法容错。推理时只要错一个 Token,模型就会跌入训练未见过的状态,导致后续回复全盘崩溃。

 

TARS 的核心洞察在于: 既然死记硬背行不通,能不能用强化学习(RL),让模型自己在 “思考过程” 中去动态对齐文本的轨迹,而不是对齐具体的字?

TARS:用强化学习重塑语音推理轨迹

TARS 是一个基于On-policy RL(具体采用 GRPO)的对齐框架。它巧妙地利用模型自身的文本分支作为 “动态导师”,通过三个关键创新,把语音分支的 “脑回路” 掰回来。



创新一:表征对齐(Representation Alignment)

既然 Gap 和 “表征漂移” 相关,TARS 选择直接从模型内部开刀。

 

  • 做法: 计算语音作为输入,推理过程中每一层的隐藏状态(Hidden States),与同一模型在文本输入下(文本输入和语音输入在语义上完全相同)的隐藏状态计算余弦相似度,作为表征对齐奖励。

 



 

  • 作用: 这就像给语音分支装了一个 “导航仪”。它不再只关注结果,而是引导语音分支的每一层思维路径都时刻紧跟文本分支的轨迹,防止跑偏。

 

创新二:行为对齐(Behavior Alignment)

为了避免 SFT 的死板,TARS 在输出端引入了更灵活的对齐标准。





 

  • 作用: 解决了 “目标不可达” 的问题。允许语音和文本在措辞上有差异,只要逻辑对、意思对就能拿分。这让模型在探索中学会了自我修正,而非机械模仿。

 

创新三:非对称奖励与模态归一化

在 RL 训练设计上,TARS 针对模态差异做了对应优化:

1.非对称奖励(Asymmetric Reward): 文本分支只拿基础奖励(保住基本盘),语音分支额外拿对齐奖励(拼命追赶文本)。

百姓社区更多>>

Meta超轻薄头显渲染图流出:高端市场的新挑战者 iPhone 18标准版外观曝光:晃眼一看iPhone17Pro iOS26.3正式版即将发布!这3类情况适合升级! 2026 年第一台新 iPhone:国补后不到 4000,但不推荐买 “爱马仕橙”iPhone 17 Pro助苹果终结三年销售颓势,中国市场猛增38% 华为Pura X2最新爆料:电池容量预计达5500mAh! 鸿蒙手机不会用?试试负一屏的“玩机助手” 2025年中国手机市场出货量3.07亿部,同比下降2.4% iQOO 15 Ultra图赏 硬核科技风格蜂窝能量矩阵 硅谷甘愿“裸奔”,中国大厂连夜“铺路”:Moltbot凭什么横扫中美? 高并发业务如何兼顾稳定与弹性?华为云TaurusDB给出“存算分离”新解 姚顺雨现场颁奖,吉嘉铭、董冠霆等15位青年人才获腾讯青云奖学金 抖音:“年货节”期间品牌礼盒成交额同比增长22% 大模型听懂语音却变笨?港中深与微软联合解决语音大模型降智问题 Anthropic一夜震撼升级:Claude获得「永久记忆」!全球打工人变天 每经热评|1200亿元大单不可戏言 容百科技董事长从头到尾真不知情? “深山林下灵芝第一品牌”,什么来路?有哪些疑点? 北京将迎空中花园!副中心六环高线公园启动段预计今年五一开放 巨人网络:《超自然行动组》推出AI大模型玩法,AI与真人玩家对局数超2500万次 华西证券:首予八马茶业“买入”评级 高端茶企的发展现状与增长密码 Laraki Borac:摩洛哥超跑梦想的未竟之作 XSKY发布AIMesh,想帮AI工厂打通数据“任督二脉” 2026款睿蓝8焕新,续航、动力、舒适、安全全维升级 既有传统,也有NK风格?全新宝马5系长这样,你会喜欢吗? 智谱成为全球大模型第一股,外国人这么看 三大指数开盘涨跌不一 AI概念多股高开 追觅电视斩获CES媒体大奖,Aura Mini LED与AI技术实力获国际认可 微言 | “死了么” APP爆火,戳中独居群体最痛的安全感缺口 全员Pro Max?多款旗舰手机阵容要变! 小米17 Pro系列背屏支持查看股票行情:需升级至澎湃OS 3.0.40.0