豆包实时语音模型3.0 API正式上线,全双工交互支持动态判停与工具调用

大西瓜 · 发表于昨天 04:08

6月18日，火山引擎正式上线豆包实时语音模型3.0（Seeduplex）的API服务，目前已开启邀请测试。作为原生全双工端到端语音大模型，该版本跳出了传统语音交互“一问一答”的对讲机模式，从对话流畅度、环境抗干扰、任务执行能力三个维度完成升级，推动人机语音交互向更自然的真人对话形态演进。

对话体验升级，告别生硬交互节奏

过去的语音交互大多采用半双工模式，需要等待用户说完才能开始识别处理，不仅响应有延迟，用户中途打断也很困难，嘈杂环境下还容易出现误识别。
豆包实时语音模型3.0支持持续倾听，可自行判断全局对话节奏。抗干扰层面，模型能持续感知声学环境，精准区分用户语音与背景噪音，即便在多人交谈、环境音混杂的场景中，也能锁定有效指令，大幅降低误回复和误打断的概率。
动态判停能力结合了语音特征与语义理解，可灵活分辨用户是中途思考还是表述结束。相关评测数据显示，相比半双工方案，该模型的判停延迟缩短约250毫秒，抢话比例下降40%；用户主动打断时，响应速度可缩短约300毫秒，整体对话节奏更贴近真人交流的自然感。

支持工具调用，实现边对话边办事

工具调用能力是本次升级的核心亮点。模型支持用户自定义工具接入，可在实时语音对话的过程中直接调用对应工具完成任务，预约日程、发送消息、信息查询、文档总结这类操作，都能通过语音指令在对话流里自然完成，真正实现“边听边说边办事”的实时交互，无需中断对话切换操作界面。

多场景适配，覆盖消费与企业端

得益于原生端到端全双工的架构设计，这款模型的处理延迟更低，交互连贯性更强，落地适配场景十分广泛。企业端可接入车载智能座舱、AI智能硬件、智能呼叫中心、全渠道客服等场景，替代传统生硬的语音交互方案；消费端的豆包App也已落地该模型，用户日常使用语音对话即可体验更流畅的交互效果。

目前该API服务处于邀测阶段，企业与开发者可通过火山引擎渠道申请接入，后续开放范围将逐步扩大。