语音Agents: 用起来简单，做起来很难

半扩散工作室严选 | semi◦diffusion #44

Jul 25, 2025

作者： Lucy Luo，Greylock合伙人。
原文链接： https://greylock.com/greymatter/voice-agents-easy-to-use-hard-to-build/

语音，已经成为应用型人工智能中被广泛采用的交互方式。

从呼叫中心到日程助手，语音agent正在越来越多的行业场景中进入实际生产环境。尽管用语言交流听起来再自然不过，真正构建一个低延迟、可对话的语音agent却远比想象中复杂。

本文中，我们将探讨团队是如何从核心基础设施、框架和开发者平台和端到端应用三个不同层级，把语音agent系统推向生产环境的。我们也将拆解构建语音agent面临的核心技术挑战，并指出该领域在基础设施上的长期需求。

作为一家风险投资机构，Greylock 对语音系统的技术架构投入了大量研究，以便更好地理解工程复杂性，更准确地评估语音agent产品的深度和技术壁垒。

语音技术堆栈的三层架构

在实际生产中部署语音agent的团队通常会落在如下三个技术层级中的一个：

1. 核心基础设施层（Core Infrastructure）

在这个层级，团队从零搭建自有的语音架构。这不仅包括模型编排（model orchestration），还涉及音频 SDK、实时监控、边缘部署、RAG 检索增强、外部系统集成、特定业务逻辑等一整套系统。尽管这需要深厚的语音和基础设施专业能力，但换来的是最大程度的控制权和灵活性。

2. 框架与开发者平台（Frameworks & Developer Platforms）

像 Vapi 和 Retell 这样的平台提供了一套框架，能够显著降低构建定制语音agent的难度，它们开箱即用，支持函数调用、提示词链式组合（prompt chaining）以及 webhook 接入。这样的工具通常受到那些不愿意从零构建整套技术基础设施、但又希望快速落地并保有灵活可配置基础架构组件的团队的青睐。

3. 端到端应用（End-to-End Applications）

该层公司往往构建自己的基础设施以向客户交付完整的语音agent，涵盖客服、医疗、家政等领域。团队会和客户深度共建，接入知识库、API、业务逻辑。Netic、Cresta、Bland、Simple 都属于这一范式。在这里，工作流整合和 GTM（go-to-market）节奏比技术深度更为关键。

三种路径在速度、灵活性、集成复杂度与工程投入之间各有取舍。

语音Agent的底层结构

当前，大多数生产级的语音系统通常遵循三段式架构：（1）语音转文本（Speech-to-text, STT）模型，（2）大语言模型（LLM），以及（3）文本转语音（Text-to-text, TTS）模型。大多数 STT–LLM–TTS 架构都包含一个语音活动检测（Voice Activity Detection, VAD）层，用于检测用户何时开始和结束说话。VAD 通常在 STT 模型之前或并行运行，以控制何时进行音频转录，从而减少不必要的计算和延迟。在像 Deepgram 这样的系统中，VAD 被直接集成进 STT 的处理流程中，在音频流过程中发出事件，用以标记语音的开始、结束或轮次的完成。一些架构还在 STT 之后引入轮次检测（turn detection），使用基于 Transformer 的语义模型来分析转录内容，从而判断用户是否已经完成了当前的发言【文章】。

一种新兴的替代方案是使用端到端的语音到语音（Speech-to-speech, S2S）模型，它跳过了从音频到文本再回到音频的中间转换过程。这类模型通常在开箱即用时就更具表现力和对话性。尽管这种方案具有吸引力，但由于更高的幻觉风险、功能调用的局限性、推理速度较慢以及推理能力较弱，S2S 系统目前仍不适用于大多数生产级应用场景。

无论采用 STT–LLM–TTS（语音转文本–大语言模型–文本转语音）架构，还是端到端的 S2S（语音转语音）架构，其底层挑战依然极其复杂。要实现高质量的实时语音交互，需要在整条技术栈上解决多个难题。我们在下文中列出了一些关键的技术考量，并重点指出了架构中最相关的部分：

延迟

满足实时语音系统的低延迟要求是一项多层次的挑战。在后端处理开始之前，像 WebRTC 这样的低延迟音频传输协议，通常在音频传输的每个方向上引入大约 250 毫秒的延迟。即使在理想状态下，这也意味着基础延迟大约为 500 毫秒。在后端，STT、LLM 和 TTS 模型通常是顺序调用的，而且常常还伴随着函数调用（function calling），这些调用可能涉及额外的网络请求。每一个环节都会叠加延迟，使得系统难以维持在实时语音交互通常认可的 700 毫秒延迟阈值以内。

为了降低端到端的响应时间，一些系统采用了“预测性技术”，比如在尚未完全确认用户已说完的情况下，提前发出 LLM 请求。尽管这可能会导致冗余的推理调用，但却能显著降低平均延迟。这类设计体现了在实际生产级语音agent系统中，工程师在速度、成本和交互质量之间所做的权衡。

函数调用编排

函数调用使模型能够获取数据并执行操作。面对一组函数和业务逻辑上下文，语音agent不仅需要决定调用哪个函数，还要确定调用的顺序、使用哪些参数，以及在何时暂停以等待用户输入——这些通常都发生在高延迟压力和非确定性环境中。这类函数调用可能包括以下决策行为：转接电话、升级至人工坐席、数据查询、多步骤任务执行，甚至是复杂的分支式工作流管理。

幻觉与护栏机制

在高风险或强监管领域中避免“幻觉”至关重要，尤其当语音agent被用于处理医疗、金融等敏感流程时。此类场景对语音系统的安全性与准确性要求极高。护栏机制（Guardrails）对于确保系统响应扎实、可靠、安全且符合语境起着关键作用。这不仅包括防止对话幻觉——比如事实错误、误导性推理或不当回答，也涵盖语音特有的错误，如发音不准、语气不当或语音失真等问题。

打断与停顿

应对诸如“嗯哼”、“是的”、“等等”、“不”等打断语，或语音重叠现象，乃至区分用户是在对语音助手说话还是在与房间内的其他人交流，这些都远远超出了基础的语音活动检测（VAD）所能胜任的范围。AI 必须具备识别打断发生的能力，理解打断期间的内容，并判断是否应暂停当前回答、修改原始输出或彻底放弃之前的回应。同时，它还需保持语境连续性——也就是说，它需要“记得”自己之前说到了哪一部分，并能判断是继续原先的思路、转向用户新引入的话题，还是同时处理二者。这要求系统具备精确的实时调节能力与复杂的状态管理机制，来追踪并排序多个会话线程。此外，这类挑战在不同的语音系统模式中也有所区别：在“半双工系统”（一次只允许一方说话）中相对简单，而在“全双工系统”（双方可以同时说话）中则更复杂。后者必须能够更高级地处理语音重叠与轮流发言。

语音细节处理

应对口音、不常见的人名、电话号码、地址以及品牌术语，至今仍是容易出错的环节，尤其在嘈杂环境中更为严重。举例来说，一个汽车销售的语音agent应该能正确念出各类汽车品牌名称，但这类发音并不会自动被内建于文本转语音模型中。其他典型示例还包括：正确地读作“9-1-1”（紧急电话），而不是“九百一十一”；或者将 “MIT” 正确读作英文字母缩写，而非“mitt”。这些微妙之处虽小，却对用户体验影响极大。

背景噪音与多说话人识别

区分用户的声音与其他说话者或环境噪音，对于语音转写和理解的准确性至关重要。现实中的环境很少提供干净的音频，稳定可靠的说话人分离技术在许多真实生产场景中仍是一个未解的难题。这类挑战远不止日常对话。例如，语音agent还必须学会如何识别和应对交互式语音应答（IVR）系统、等待音乐以及其他非语音内容。

而这也只是构建语音agent面临的一部分难题。一个高质量的语音agent，不能仅仅满足“转录准确”或“说得像人”这两个标准。它还必须能够处理模糊输入、保持上下文、从中断中恢复，并精确应对各种边缘场景。在语音交互中，即便是细小的时序失误、发音问题或逻辑错误，也会迅速拉低用户体验。

Background Noise and Multi-speaker Detection

语音技术栈中持久存在的基础设施需求

无论团队是从零构建语音agent，还是依赖开发平台和框架，或是部署全托管的应用，有一些基础的基础设施能力始终是核心要素。尽管当前主流架构仍以 STT–LLM–TTS 为主，未来可能转向以 S2S 为原生架构或其他形式，但有一组持续存在的基础性需求不会改变。

我们在与构建者和采购方的交流中反复听到：可靠性、质量、安全性与合规性是决定语音agent是否能够投入生产的关键门槛。构建者需要对其部署的agent在各种边缘场景下的稳定表现有信心；而采购方则需要工具去评估和监测这些agent在真实环境中的行为。这些问题在金融、医疗等高度监管行业中尤为突出，合规性和安全标准在这些领域是不可妥协的底线。

可靠性与质量

无论模型性能如何提升，构建者依然需要依靠强大的基础设施来确保语音agent的行为符合预期。在实际应用中，可靠性与质量主要体现在三个方面：

语音本身的表现：必须避免语音特有的“幻觉”，例如：无意间的笑声、品牌名称或专有名词的发音错误、电话号码或账号的错误读法、缩写词的错误发音等。
对话内容、上下文记忆与执行动作：agent需要能够在各种条件和边缘场景下，持续稳定地理解语义、做出回应，并准确执行正确的操作步骤。像 Braintrust 这样的平台可以为语音agent提供自动化评估工具，帮助团队快速测试提示词和多轮对话的表现。
对话流程与流媒体稳定性：语音agent必须避免对话中出现尴尬的停顿、被打断或轮次混乱等情况。同样重要的是底层音频流的可靠性，比如丢包、重连、网络抖动等问题。尽管这些“低层”问题常常被忽视，但它们却对用户感知的语音agent质量和响应速度有着实质性的影响。

这三方面的能力共同构成了语音agent在高监管行业（如金融与医疗）中落地的基础。在这些领域，安全性与合规性尤为关键。

结论

语音正日益成为软件的重要交互界面，但构建高质量的语音agent仍然是一项技术挑战。从系统编排、延迟控制，到实时音频处理和合规性要求，难点贯穿整个技术栈，解决方案同样如此。无论团队是在基础设施、开发者框架，还是在应用层开展工作，真正实现产品级部署的门槛都非常高。

semidiffusion: the world is your oyster

Discussion about this post

Ready for more?