基于6μW 90nm CMOS的上下文层次信息感知的VAD
作者:互联网
集成在手表和遥控器等能源稀缺设备中的始终监听传感器的兴起,增加了对智能可扩展接口的需求。当代传感器接口对原始传感器数据进行数字化,通过高能耗的计算来提取信息,如FFT,如果最终目标只是为分类任务提取有选择性的信息,如语音活动检测(VAD),那么FFT是低效的。之前的工作表明,通过模拟特征提取[1]或嵌入式分类硬件[2],早期的数据缩减可以获得能量。然而,这些设备的潜在能量节约是有限的,因为它们不能适应感知信息内容或感知上下文的变化,例如背景噪声的数量/类型。在处理器设计界,通过层次计算的概念,积极研究这种对运行条件变化的适应性[3]。该工作将分层操作的概念与自适应的早期数据提取和分类相结合。朝向电源和环境感知的信息提取传感器接口。本文专门报道了一种uW 90nm CMOS VAD,它将感知资源动态地适应于信号信息内容和上下文,从而只在相关信息提取上花费能量。通过利用分层感知、运行时激活/可扩展模拟特征提取和紧密集成的上下文感知混合信号机器学习推理,实现了声学感知领域的新应用[1,4],节省了一个数量级的电能。
图24.2.1说明了高层体系结构和操作范式。一个经典的、可配置的、总是监听的唤醒检测器(A)在W范围内运行。在检测到潜在信息后,一个更强大的可扩展模拟特征提取器和嵌入式混合信号机器学习分类块(B)被激活,在W范围内运行。这些块提取和处理一个特征子集,并通过编程实现当前操作环境下的高分类精度,这取决于背景噪声的数量和类型。上下文感知控制寄存器(CR)仅激活当前上下文的最具区别性的特征,并配置模拟特征提取器,以根据Qos和功率限制,在检测精度和功耗之间进行所需的权衡。基于激活特性,嵌入式mixed-signa决策树(DT)分类器对信号相关性,检测在兴趣,醒来的片外微处理器©。μP负责更先进的声学信号处理(如关键字检测),周期性的背景下检测,再学习DT的上下文的变化和重组的CR。概述了分层激活计划结果在一个弹性传感芯片的功耗,它会根据被感知信号中存在的信息量动态地扩展。另一方面,上下文感知能够在不同的操作上下文中实现最先进的(SotA)检测精度,而只需要花费精力提取带有信息的数据。
可配置的唤醒探测器(图24.2.2上方)工作在750nW以下,如果输入信号超过图24.2.3上方设定的阈值,就会激活B模式。改变比较器阈值控制特征提取器和分类器被激活的频率,权衡总体精度和分类器的功耗。上下文可扩展模拟特征提取器(Fiq. 24.2.2底部)在75Hz到5kHz之间的16个mel间隔频带中提取输入信号的能量含量,从而产生16个单独激活的模拟特征(afl到af16)。每个波段包括一个放大器和BPF,接着是一个整流器和LPF。当DT接受芯片自身模拟特性的训练时,它会自动适应BPF特性的任何工艺变化。图24.2.3显示了4个选定的模拟点对正弦波扫频的实测响应(左下)和实测模拟性能(右下)。基于DT的混合信号分类器(图24.2.4左侧)可以配置为任意7节点(3级深度)的DT(或更少),对af5到af12的任意组合进行决策,因为它们携带了VAD最高的信息与功耗比。特定的DT配置和所需的树参考水平(Vref)被适应于声学环境和系统的能量约束。为此,μP定期访问所有特性(afl到af16),以检测上下文变化并学习运行时针对新环境优化的新DT,支持高效功耗DTs,同时保持准确性。uP[6]的这个学习阶段使用信息增益/瓦特作为成本函数而不是常用的信息增益来优化树,以识别在给定的误检测/误报警精度下导致最低功耗的模拟特征子集。所述可配置DT实现包括模拟特征选择阶段、参考比较阶段和数字决策融合阶段。特征选择阶段将每个决策节点的声特征(an)映射到所需选择的特征st(注意,一个af可以映射到多个sf)。在比较阶段,将所选的7个特征与uP通过外部dac设置的7个参考水平进行比较。反位可以在sf, > Vref或sf, s Vref之间选择。数字决策融合阶段实现树形结构,生成单个语音检测信号唤醒被唤醒者。图24.2.4右侧显示了不同信噪比(SANR)下语音/非语音检测的实测值。来自NOIZEUS[5]数据库的持续时间为168s的音频流,包含50%的声音通过模拟特征提取块发送。随后,利用芯片上测量到的af5到af12的声学特征,在可实现的语音/非语音精度权衡曲线上训练DT。最后,选择一个折衷点,并在嵌入式分类器的芯片上配置相应的DT。测量结果(黑方)证实了模拟特征提取器和嵌入式DT分类器的性能。
图24.2.5描述了将整个分层感知系统集中在一起的好处。虽然每种操作模式都保证了较低的漏检率,但随着更强大的模式在兴趣检测时逐渐唤醒,误报率和上下文特异性都有系统地降低。始终开机模式A确保低平均功耗,运行远低于1uW。特定于上下文的模式B有效地大幅降低了误报率,最大限度地减少了模式C的启动,从而确保系统跨异构上下文工作。功率消耗会偶尔启动,以检查运行上下文的稳定性,并在上下文切换的情况下执行新DT的运行时嵌入式机器学习。图24.2.5中的表格显示,该层次结构上下文感知VAD对12dB的SANR babr噪声的声/噪声精度为89/85%,与VADs[7]软件相当,但混合操作平均仅消耗3.8uW。
图24.2.6比较了我们的层次化上下文感知的90nm CMOS VAD芯片(图24.2.7)与模拟/数字/软件VAD。提出的VAD在语音检测中有一个较大的延迟,但是在自然语音应用的可接受范围内。VAD芯片的最坏情况功耗为6uW,性能远低于当前SotA。将分层上下文感知模拟特征提取与片上混合信号分类紧密集成,清楚地展示了卓越的能源效率,同时在标准化语音/噪声数据库中保持SotA准确性。所提出的范例打开了许多其他声学事件探测应用的大门。范围远不止VAD。也可以移植到其他传感器接口,如手势识别。这项工作是由佛兰德斯基金会资助的。IWT SBO项目的原罪和专家奖学金。
标签:模拟,24.2,90nm,VAD,DT,上下文,感知,CMOS 来源: https://blog.csdn.net/BerryNard/article/details/112095334