短语音识别-极速版 (Automatic Speech Recognition)

简介

短语音识别(ASR)可以将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于手机语音输入、语音搜索、人机对话等语音交互场景。

基本用法

下面是短语音识别的代码示例:

import os
import appbuilder
# 设置环境变量和初始化
os.environ["APPBUILDER_TOKEN"] = "..."

asr = appbuilder.ASR()

with open("./asr_test.pcm", "rb") as f:
    audio_data = f.read()
content_data = {"audio_format": "pcm", "raw_audio": audio_data, "rate": 16000}
msg = appbuilder.Message(content_data)
result = asr.run(msg)

print(result)

参数说明

初始化参数

调用参数

  • run函数中包含以下参数:

    • message: 输入的消息,用于模型的主要输入内容。这是一个必需的参数,例如:Message(content={“raw_audio”: b”…”})

    • audio_format: 定义语言文件的格式,包括”pcm”、”wav”、”amr”、”m4a”,默认值为”pcm”。

    • rate: 定义录音采样率,固定值16000

    • timeout: HTTP超时时间

    • retry: HTTP重试次数

返回值示例:eg: {“result”: [“北京科技馆。”]}

高级用法

目前该模块仅提供基础的语音识别功能。

更新记录和贡献

  • 短语音识别能力 (2023-12)