谐云课堂 - 浅谈智能语音技术在双录质检中的应用

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

一、双录质检场景介绍

什么是双录?

“双录”是指对银行销售的每笔理财产品的过程进行录音和录像。

双录的意义

通过双录,可以实现理财产品及代销的销售环节监管无真空,能够有效保护消费者的知情权,同时还有助于降低监管成本,提高监管效率,实现“买者自负,卖者尽责”。

同时,2017年银监会就颁布了相关文件明确规定银行业金融机构销售专区必须实行双录。

双录的实现方法

  • 引入人工智能技术,通过自动化、智能化的方式取代人工方式的双录质检,实现双录全覆盖、规范化、无死角,在提高效率的同时降低风险。
  • 引入边缘计算,加快算法运行速度的同时实现双录实时质检,及时发现问题并介入。

双录实现内容

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

二、智能语音识别方案

方案具体目标

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

方案具体流程

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

三、语音识别核心技术

四种核心技术

为了实现智能语音识别方案,需要使用四种语音识别核心技术:

  • 语音分割
  • 说话人分类
  • 语音识别
  • 标点恢复

语音分割

语音分割是识别自然语言中的单词,音节或音素之间的边界的过程,即将一段音频按说话人之间停顿的空白进行分割,以获取一段段连续存在语音的音频。语音分割也是语音识别中必不可少的基础性工作,是还原对话效果的基础,其质量对后续系统的影响巨大。

语音分割结果示例

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

说话人分类

说话人分类是对未分类语音序列进行分类,最终输出分类完成的语音序列的算法,其中说话人分类算法中使用了说话人验证模型。

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

说话人验证是一种判断输入的两段说话人的声音信号是否相同的任务,输出的结果是相似度百分比,如果相似度大于阈值,则说明两端语音说话的是同一个人,如果小于阈值则不是同一个人。

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

说话人验证模型改进

  • 数据预处理:对短音频采用多次堆叠的方法
  • 数据集:扩充数据集大小,使用Librispeech+CN-celeb+Aishell+magicdata四个数据集
  • 模型:增加输入数据的特征量,最后增加多层全连接层
  • 算法:设计了一个比较有效的匹配算法
  • 结果:7个测试音频中均分类正确

说话人分类结果示例

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

语音识别

语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,即通过输入的音频文件识别输出文本信息。

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

语音识别实现方法

  1. 合并音频:将分类好的音频序列按顺序组合成一个音频文件,保证采样率为1.6kHz
  2. 数据预处理:读取音频文件转换为fbank特征,大小设置为模型输入大小
  3. 编码:输入到ASR模型的conformer编码器中进行特征提取
  4. 解码:将编码器提取到的特征输入到CTC解码器和注意力解码器计算结果
  5. 得分重建:CTC解码器和注意力解码器的输出结果按照λ的值进行重建,获得最终预测结果
  6. 文字输出:将预测结果和词汇文件进行对应,得到识别的文本信息

语音识别模型

语音识别使用的模型是基于paddlespeech框架在wenetspeech大型语音数据集上预训练的U2Model,即CTC/AED的混合模型,支持流式/非流式语音识别。具体的系统架构如图所示,CTC和AED使用共同的Encoder。U2模型的Shared Encoder使用的是Conformer。

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

语音识别结果示例

真实值:你好今天是二零二一年十二月十五号我是北部湾银行客户经理请问您是小星星贸易有限公司的法定代表人李家河吗是的请问您是否同意在我行开立人民币基本存款账户同意我们的录音录像到此结束(正确率93%)

输出值:

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

真实值:对话全程录音现在可以开始吗请问您是小星星有限公司的法定代表人吗您是否同意开立账户还有其他业务需要咨询吗好的对话结束再见(正确率100%)

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

模型针对普通话效果最好,如果有较多方言的话,建议收集方言数据再训练模型。

标点恢复及其结果示例

ASR模型识别得到的语音文本是没有标点符号的,因此看起来十分困难、不方便。为此,标点恢复任务负责为语音文本添加标点符号,使句子更加完整和容易理解。为了实现标点恢复,我们主要使用百度提出的ERNIE模型,主要采用Transformer作为其骨架。

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

语音技术在双录质检中的应用

谐云课堂 | 浅谈智能语音技术在双录质检中的应用

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章