智能语音作为 AI 应用的一种重要交互形式,现已广泛作用到各个领域,例如语音客服、智能家居等等。随着多模态模型的逐渐成熟、语音识别能力的技术突破,智能语音系统也越来越准确和高效。
扣子现推出智能语音 OpenAPI,配合火山方舟提供的视觉理解模型,开发者可以在 Web、App、小程序、终端硬件上集成扣子智能语音和视频识别能力,使终端用户能够和扣子上的智能体进行实时音视频通话。同时,扣子也提供了语音消息、音色复刻的相关 API,帮助开发者管理音色,提升通话效果。各端接入的 SDK 也陆续上线中,使音视频能力的接入变得更加简单。
扣子智能音视频集成了火山引擎实时音视频 RTC 的音视频通信能力,基于优质的全球传输网络实现超低延时,支持自动噪声抑制,以更低的功耗实现更好的音视频通话效果。 除此之外,扣子还提供了 WebSocket OpenAPI,支持通过 WebSocket 协议实现智能语音对话。
扣子智能音视频功能将视觉模型的视觉理解能力和扣子智能语音 OpenAPI 相结合,提供流畅高效的智能体互动体验。集成扣子智能音视频方案后,用户通过终端 SDK 发起音视频通话请求,和 AI 智能体一起加入音视频通话房间。AI 智能体接收到用户的音视频流后,从视频中抽取关键帧,将抽取的帧图像数据传递给视觉模型进行深度理解与分析。模型会根据理解的结果生成相应的响应,并将这一响应结果反馈给用户,从而实现用户与 AI 智能体之间的流畅对话交互。
音视频通话的设备鉴权流程如下:
RTC 场景
WebSocket 场景
扣子音视频通话是在实时语音通话的基础上,通过视觉模型实现视觉理解的能力,根据用户的视频流内容做出对应的反馈。
扣子智能音视频解决方案接入了火山引擎视频云 RTC,实现了低延时、高质量的实时音视频通话能力,让智能体从“能说话”升级成了“会交流”。基于扣子智能音视频方案,可以实现多种应用场景,例如:
在使用扣子智能音视频相关服务时,会产生相应的语音费用,包括语音合成、语音识别、音频通话、视频通话等。详细说明,请参考音视频费用。