大模型听懂语音却变笨？港中深与微软联合解决语音大模型降智问题

从 GPT-4o 开启全能（Omni）交互时代至今，Speech LLM 虽然在拟人化和低延迟上取得了长足进步，但面临一个令人困扰的现象：当大语言模型（LLM）被赋予 “听觉” 后，它的智商下降了。

即便是同样的底层模型，一旦输入从文本变成语音，其逻辑推理能力（Reasoning）往往会显著衰退。这种现象被称为“模态推理鸿沟”（Modality Reasoning Gap）

这个难题并非仅存在于学术界，而是 OpenAI、Google、Meta 等行业巨头都在试图跨越的 “天花板”：

根据Big Bench Audio评测，以 GPT-4o 为例，在纯文本任务（Text-to-Text）的准确率达92%；但一旦切换到端到端语音模式（Speech-to-Speech），其得分跌至66%。这中间26%的巨大跌幅，就是模型引入语音而付出的代价。
Google Gemini 团队在技术分享中将其定义为Intelligence Gap；而 Meta 研究员在 NeurIPS 2025 上更是直言这是一种Intelligence Regression，并提出了一个生动的概念Multimodal Tax，即引入音频等多模态数据往往会 “挤占” 模型用于纯推理的能力。

为了解决这一核心痛点，香港中文大学（深圳）与微软团队联合提出了TARS(Trajectory Alignment for Reasoning in Speech)。这是一项基于强化学习（RL）的全新对齐框架，它不依赖死记硬背的监督微调，而是通过对齐 “思维轨迹”，成功将语音输入的推理表现100% 恢复甚至超越了纯文本基座水平。

大模型听懂语音却变笨？港中深与微软联合解决语音大模型降智问题

论文题目： Closing the Modality Reasoning Gap for Speech Large Language Models
论文链接： https://arxiv.org/abs/2601.05543

核心痛点：为什么模型 “听” 得越多，“想” 得越偏？

目前的语音大模型（Speech LLM）通常采用 “语音编码器 + 适配器 + LLM” 的三段式架构。理论上，这应该能让语音输入无缝借用 LLM 强大的推理大脑。但现实是：引入语音模态后，推理能力出现了断崖式下跌

此前的研究主要试图从两个方向修补这一鸿沟，但都存在缺陷：

1. 输入端强行对齐（Input Fusion）：

试图让语音特征在输入层就长得和文本 Embedding 一样。但语音天然包含语气、停顿等富语言信息，与紧凑的文本本质不同。仅依靠输入对齐这种表面功夫，无法解决深层的表征漂移（Representation Drift）—— 随着 Transformer 层数加深，语音激发的隐藏状态（Hidden States）会逐渐偏离文本的思考轨迹（即相同语义纯文本输入时，文本激发的隐藏状态），导致 “想岔了”。

2. 输出端死记硬背（SFT / 蒸馏）：

这是最主流的做法，即通过监督微调（SFT）利用静态的 “语音 - 文本” 数据对进行训练，或者通过知识蒸馏（Distillation）让文本分支作为 “老师” 来指导语音分支这个 “学生”。这些本质上都属于 Off-policy（离线策略），试图强行让语音分支去模仿文本的 Token 输出分布。但这有两个问题：