其他分享
首页 > 其他分享> > ASR项目实战-产品分析

ASR项目实战-产品分析

作者:互联网

ASR项目实战-产品分析

分析Google、讯飞、百度、阿里、QQ、搜狗等大厂的ASR服务,可以罗列出一款ASR服务所需要具备的能力。

产品分类

ASR云服务产品,从用户体验、时效性、音频时长,可以划分为如下几类:

产品特性

从特性上讲,一款ASR产品,在语音识别的过程,可划分为前、中、后,三个阶段,相关的特性可依据不同阶段的特点进行划分,如下是简单的说明。

前处理

在对音频进行识别前,做一些必要的准备工作,增强算法引擎的适应场景,同时减轻算法引擎的负担。

中处理

语音识别的主要工作汇集在本阶段。

后处理

通常而言,狭义的语音识别不包括本阶段的工作。本阶段的工作,主要目的在于将算法引擎的输出结果,还原为对人而言具备良好可读性的文本。

NLP

通常的语音识别产品一般不包含本阶段。

评价指标

评价ASR云服务准确率的指标,比如

处理时延

单路请求场景下的指标,比如

准确率的指标

本指标通常用于对ASR的模型进行评估。
常用指标为WER,包括插入错误、删除错误、多字错误,指标值的计算方法为三类错误数量总和与字数的比值。从定义可知,本指标可能会超出100%,此时的语音识别系统完全不具备可用性。
业界也有场景可能会使用到SER,原理类似。
WER是一个相对的指标,和测试集强相关。当测试集和训练集同分布,则指标会比较好看;当测试集和训练集的特征有差距时,则指标可能会让人很失望。
在项目实战时,可以依据通用场景、特定领域场景来分别构建测试集合,进而对ASR模型进行打分。

衡量一个语音识别系统是否具备商用的条件,通常可以使用如下指标值来度量:

处理时延

对于实时音频识别,目前业界通常基于流式通信协议如websocket来实现客户端和云服务端之间的全双工通信。在客户角度观察,可以计算的指标有首字时延、蹦字时延、尾字时延。

注意:

对于音频文件转写的场景,上述指标并不重要,一个名为实时率或者转写比的指标更加重要。

并发能力

由于音频数据的识别需要花费时间,因而传统业务的TPS指标并不适合此类场景,因此需要定义单独指标用于说明ASR云服务产品的并发能力,即并发路数,表示同一时间点,允许同时活动的会话的数量。
一般而言,本参数对于给定的单台比较有意义,不同的模型和推断框架,在不同的硬件之上得到的数据,没有可比性。

硬件资源

在给定的硬件设备上,CPU、内存、总线、IO等能力已固化,在给定的压力下,可以验证ASR云服务、推断框架、模型在负载场景下,占用的CPU使用量、内存使用量,进而选取一个合适压力值,构建能力基线值,指导生产环境部署,以及后续的性能优化。

需要说明的是,本分类下的指标,在实际验证时,和测试集也有相关性。因而不同测试集下给出的测试结果,只具有参考意义,没有可比性。

本指标和成本相关,因此在工程实践角度,需要花费大量的时间对云服务、推断框架、模型进行打磨,持续优化,改善硬件的占用规模。

标签:实战,ASR,场景,项目,音频,算法,引擎,时延,识别
来源: https://blog.csdn.net/babyblue_963/article/details/113728295