即使在具有挑战性的网络场景中,Microsoft Teams 也能保持音频质量

声音杂乱无章。视频被冻结。很可能每个人都经历过由于网络连接不良而导致的会议和通话质量差。混合工作的增长使这成为一个更普遍的挑战,因为组织真正依赖于视频会议工具的连续性、灵活性和包容性。虽然微软Teams不能改善你的网络稳定性,但微软基于人工智能的创新有助于尽量减少甚至消除带宽限制对你的Teams体验的负面影响。

在在线通话和会议期间,音频通过数据“包”跨网络发送。在网络质量较差的情况下,这些数据包可能会丢失,从而导致语音失真。数据包丢失隐藏或 PLC 是一种旨在通过对丢失内容进行假设来解决丢失数据中的空白的技术。但正如您可以想象的那样,这是对解决语音失真的极其复杂的解决方案的简单解释。Teams PLC 基于 AI 的新增强功能允许以更高的准确性隐藏更长的持续时间。

下面的演示演示了新的 PLC 机器学习模型如何改善 Teams 会议体验。对于演示,微软模拟了糟糕的网络条件并录制了 Microsoft Teams 通话。

原始声音
改善后音频

为了实现这一点,微软训练了一个深度学习模型,以基于对先前音频位的实时分析来预测和“填充”丢失的音频位。虽然传统的遮瑕膏可以很好地处理 20 或 40 毫秒这样的短丢失位,但 Teams 中的 AI 模型可以预测多达 80 毫秒的连续音频,这使得 Teams 用户无法检测到常见的丢包。

Teams 的 PLC AI 模型已经在 600 小时的开源音频数据上进行了训练和测试,例如人们阅读书籍和参与播客。出于测试目的,微软还从 Teams 通话中收集了数百万个匿名网络样本或“痕迹”,以确保能够很好地代表所有可能的网络状况。然后从数百个候选者中选出表现最好的模型。

虽然技术分析使微软能够衡量这些改进的有效性,但最终用户会验证其影响。发布后,网络较差的 Teams 通话的参与者报告的语音失真频率降低了 15%。

为了反映这项工作在推进电话技术中的重要性,Microsoft 在 INTERSPEECH 2022 上组织了音频深度丢包隐藏挑战赛,参与者包括来自世界各地的研究人员和从业者。作为比赛的一部分,微软收集了微软开源的网络跟踪以及“PLC平均意见评分模型”,因此大学和个人研究人员可以从真实世界的数据集和人工评分的音频文件中受益,这些文件可以进行模型开发和评估更容易获得。

Windows 上的 Microsoft Teams 用户现在可以体验这些 PLC 改进的好处,这些改进仅在网络质量较差的情况下在本地运行,以避免用户计算机上不必要的 CPU 负载。微软还在 Mac 设备上测试此系统,并将很快扩展到Teams移动客户端。

Scroll to Top
Scroll to Top