查看: 14|回复: 0

豆包实时语音模型3.0 API正式上线,全双工交互支持动态判停与工具调用

[复制链接]

10

主题

3

回帖

43

积分

版主

积分
43
发表于 昨天 04:08 来自手机 | 显示全部楼层 |阅读模式
6月18日,火山引擎正式上线豆包实时语音模型3.0(Seeduplex)的API服务,目前已开启邀请测试。作为原生全双工端到端语音大模型,该版本跳出了传统语音交互“一问一答”的对讲机模式,从对话流畅度、环境抗干扰、任务执行能力三个维度完成升级,推动人机语音交互向更自然的真人对话形态演进。
IMG_20260620_040612.webp
对话体验升级,告别生硬交互节奏

过去的语音交互大多采用半双工模式,需要等待用户说完才能开始识别处理,不仅响应有延迟,用户中途打断也很困难,嘈杂环境下还容易出现误识别。
豆包实时语音模型3.0支持持续倾听,可自行判断全局对话节奏。抗干扰层面,模型能持续感知声学环境,精准区分用户语音与背景噪音,即便在多人交谈、环境音混杂的场景中,也能锁定有效指令,大幅降低误回复和误打断的概率。
动态判停能力结合了语音特征与语义理解,可灵活分辨用户是中途思考还是表述结束。相关评测数据显示,相比半双工方案,该模型的判停延迟缩短约250毫秒,抢话比例下降40%;用户主动打断时,响应速度可缩短约300毫秒,整体对话节奏更贴近真人交流的自然感。

支持工具调用,实现边对话边办事

工具调用能力是本次升级的核心亮点。模型支持用户自定义工具接入,可在实时语音对话的过程中直接调用对应工具完成任务,预约日程、发送消息、信息查询、文档总结这类操作,都能通过语音指令在对话流里自然完成,真正实现“边听边说边办事”的实时交互,无需中断对话切换操作界面。

多场景适配,覆盖消费与企业端

得益于原生端到端全双工的架构设计,这款模型的处理延迟更低,交互连贯性更强,落地适配场景十分广泛。企业端可接入车载智能座舱、AI智能硬件、智能呼叫中心、全渠道客服等场景,替代传统生硬的语音交互方案;消费端的豆包App也已落地该模型,用户日常使用语音对话即可体验更流畅的交互效果。

目前该API服务处于邀测阶段,企业与开发者可通过火山引擎渠道申请接入,后续开放范围将逐步扩大。
万狸温馨提示:理性消费
1.数码选品:先定用途,再比参数,拒绝 “加点钱更好” 的超支诱惑。
2.购车决策:看平台生命周期,算长期使用成本,刚需比潮流更重要。
3.重点提醒:多查真实评价,少信首发噱头,买得对远比买得新划算。
4.交流准则:聊产品讲实际体验,不抬杠不诋毁品牌,友善分享。
5.氛围维护:遇到分歧先理性沟通,不贴“粉黑”标签,温馨交流。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关注QQ群
手机版|小黑屋|万狸社区-免费活跃数码论坛,手机/电脑/汽车+旅游美食游戏兴趣社区

相关侵权、举报、投诉及建议等,请发 E-mail:admin@discuz.vip

Powered by Discuz! X5.0 © 2001-2026 Discuz! Team.|桂ICP备16003785号

在本版发帖
联系客服
QQ客服返回顶部