🥑Python和C++通用语音识别模型

Python | C/C++ | 语音识别

它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。

Transformer 序列到序列模型针对各种语音处理任务进行训练,包括多语言语音识别、语音翻译、口语识别和语音活动检测。 所有这些任务都联合表示为由解码器预测的一系列标记,允许单个模型替换传统语音处理管道的许多不同阶段。 多任务训练格式使用一组特殊标记作为任务说明符或分类目标。

Python中模型使用

设置

命令行应用

Python脚本中执行

C++中模型使用

特点

  • 没有依赖项的普通 C/C++ 实现

  • 通过 Arm Neon 和 Accelerate 框架优化

  • AVX 内在函数支持 x86 架构

  • 混合 F16 / F32 精度

  • 低内存使用率

  • 运行时零内存分配

  • 在 CPU 上运行

使用

首先,下载一个转换为 ggml 格式的模型。例如:

现在构建 main 示例并转录一个音频文件,如下所示:

要快速演示,只需运行 make base.en:

更多音频样本

实时音频输入示例

这是对来自麦克风的音频执行实时推理的简单示例。流工具每半秒对音频进行一次采样,并连续运行转录。问题 #10 中提供了更多信息。

控制生成的文本段的长度

词级时间戳

卡拉OK式电影生成

🏈指点迷津 | Brief

Last updated

Was this helpful?