资源/插件/音视频官方收费插件/语音识别插件
语音识别插件
更新于: 2026-06-24 15:44:40
扣子编程官方提供两款语音识别插件:语音识别插件和大模型语音识别插件,支持识别音频并转换为文字,适用于播客内容总结、会议记录整理、采访内容加工等场景。本文介绍语音识别插件的使用方法。
语音识别插件基于火山引擎大模型录音文件识别 API 和录音文件识别极速版 API 开发,内置自动标点、语义顺滑、数字规整、智能分句等功能,支持准确地将音频转换为文字,详细功能说明请参见大模型语音识别简介和语音识别简介。
大模型语音识别插件和语音识别插件的区别如下表所示。
|
维度 |
大模型语音识别插件 |
语音识别插件 |
|---|---|---|
|
核心定位 |
支持更多使用场景,且准确率更高。 |
通用的语音转文字服务。 |
|
核心优势 |
|
|
|
语种方言覆盖 |
中英文、上海话、闽南语,四川、陕西、粤语。 |
普通话、粤语、四川话、上海话、英文、日语、韩语、法语、西班牙语、葡萄牙语、印尼语。 |
|
使用场景 |
支持音视频字幕、歌词识别、游戏语音输入、内容审核质检、会议访谈转写、课堂内容分析等场景。 |
支持会议访谈内容转写、内容审核质检、课堂内容分析等场景。 |
使用语音识别插件时,将根据语音文件时长计算语音识别费用,对应的价格请参考音视频费用。涉及的计费项如下:
大模型语音识别插件具备上下文理解能力,能够更准确识别语音内容,更好地支持中英混说等场景。
输入参数说明如下表所示。
|
参数名称 |
是否必填 |
说明 |
|---|---|---|
|
audio_url |
必选 |
待转换为文本的音频。你可以引用开始节点的输入、上游节点的输出、用户变量、应用变量、系统变量,实现音频文件的动态输入。 |
输出参数说明如下表所示。
|
参数 |
说明 |
|---|---|
|
code |
返回状态码, |
|
data.text |
通过语音识别功能生成的文字内容。 |
|
log_id |
日志 ID,用于问题排查和调试。 |
|
msg |
执行插件时的状态描述或错误提示信息。 |
语音识别插件支持方言和小语种,你可以根据实际语音内容选择合适的语种以优化语音识别效果。
输入参数说明如下表所示。
|
参数名称 |
是否必填 |
说明 |
|---|---|---|
|
audio_url |
必选 |
待转换为文本的音频。你可以引用开始节点的输入、上游节点的输出、用户变量、应用变量、系统变量,实现音频文件的动态输入。 |
|
language |
必选 |
填写语种的值,包括普通话、粤语、四川话、上海话、英文、日语、韩语、法语、西班牙语、葡萄牙语、印尼语。 |
输出参数说明如下表所示。
|
参数 |
说明 |
|---|---|
|
code |
返回状态码, |
|
data.text |
通过语音识别功能生成的文字内容。 |
|
log_id |
日志 ID,用于问题排查和调试。 |
|
msg |
执行插件时的状态描述或错误提示信息。 |
在工作流中添加大模型语音识别插件中的 asr_llm 工具。通过上传语音文件或填写语音文件 URL 输入待转换为文本的音频,语音识别插件输出转换后的文本。
|
节点 |
说明 |
示例 |
|---|---|---|
|
开始节点 |
输入参数使用默认的 |
|
|
大模型语音识别插件 |
添加大模型语音识别插件中的 |
|
|
结束节点 |
结束节点输出变量的值引用语音识别插件输出的 |
|
- 语音识别插件 ID:7506818401994735616