时代拓灵文本无关声纹识别SDK集成调试过程
作者:互联网
时代拓灵文本无关声纹识别SDK效果概述
声纹识别有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。时代拓灵文本无关声纹识别系统则不规定说话人的发音内容,用户使用方便,可应用范围较宽。
根据特定的任务和应用,文本相关和文本无关两种声纹识别SDK是有不同的应用范围的。比如,在银行交易时可以使用文本相关的声纹识别,因为用户自己进行交易时是愿意配合的;而在刑侦或侦听应用中则无法使用文本相关的声纹识别,因为无法要求犯罪嫌疑人或被侦听的人配合。
集成步骤
1.前往时代拓灵官网下载文本无关声纹识别SDK demo
http://www.twirlingvr.com/index.php/home/sdkdownload/index
2.前往时代拓灵官网注册文本无关声纹识别SDK试用项目,申请appid,设置app密码
注意:时代拓灵提供的试用项目,只有14天的试用期,并且20个装机量项目。
http://www.twirlingvr.com/index.php/home/sdkdownload/addTestPro.html
创建成功后页面右上角点击个人中心->项目管理查看自己申请到的appid。
3.解压下载的SDK demo
4.集成调试Demo
sdk 使用说明(Linux)
- 在拓灵开放平台官网
(http://yun.twirlingvr.com/index.php/home/sdkdownload/index.html)下载对应版本的SDK 工具包,并完成注册和购买(试用)操作,获取自己的appid和密码 - 在project文件夹里,简单阅读和修改sample.c : 输入appid,app密码,以及识别声纹相似度的阈值,阈值在0~1之间,0代表没有相似度,1代表完全一样。
- 通过project目录下的64bit_make.sh创建您的可执行程序,生成路径为TwirlingTIVPR/bin/sample
- TwirlingTIVPR/bin/sample 可直接运行,接受两个参数,都是16k采样,16 bit量化,单通道,pcm 文件的具体路径,返回两个音频声纹的相似度打分和说话人id,如果声纹相似度超过阈值,id为1,否则为-1。
SDK接口说明 - char *tlrGetVersion()
返回值:当前版本
功能:确定版本是否正确 - void *tlrInit(const int chs, const int sample_rate, int stride_len, int *features_len, float,threshold, const char *appid, const char *pwd)
chs: 音频通道数,这里应该是单通道,值为1
sample_rate: 音频采样率
stride_len: 帧移点数,通常为160个点即10毫秒
threshold:识别声纹相似度的阈值,在0~1之间
appid[IN]:拓灵账号注册后的token
pwd[IN]:拓灵账号注册的的密码
返回值: 初始化后下一步处理需要的指针
功能: 初始化操作 - int tlrEnroll(void *obj, const short *audio_data, float *features)
obj[IN]:tlrInit 函数返回的指针
audio_data: 音频文件的时域波形
features: 提取的音频文件的dvector特征
返回值:0 成功,features输出特征值
功能:一次性送入2s以上的注册音频audio_data,得到输出feature - int tlrLoad(void *obj, float *vprs, int person_count)
obj[IN]: tlrInit 函数返回的指针
vprs: 提取的说话人的d_vector特征
person_count: 录入的说话人的人数
功能:录入说话人的声纹特征 - int tlrProcess(void *obj, const short *audio_data, float *score, int *person_id)
obj[IN]: tlrInit 函数返回的指针
audio_data:待识别的音频文件的时域波形
score:待识别音频和录入音频声纹相似度的打分,如果超过阈值就返回最大的声
纹相似度打分,否则返回-100
5.Tips:
1、拓灵文本无关声纹识别SDK支持哪些平台和版本?
当前支持Linux平台
2、装机量怎么定义的?
装机量授权:文本无关声纹识别SDK按照装机量收费,购买后即获得相应授权。装机量按照使用了开发者应用的终端设备信息进行统计,即在终端设备上安装了应用并启用了文本无关声纹识别SDK,即记为一个装机量。同一个终端设备上卸载(重装)应用均记为一个装机量,不重复计数。
标签:int,拓灵,装机量,声纹识别,文本,SDK 来源: https://blog.csdn.net/weixin_53368440/article/details/113584277