OfficialKaldi(一)| 关于Kaldi项目(翻译注解)
作者:互联网
什么是Kaldi?
Kaldi是使用C ++编写的语音识别工具包,并根据Apache License v2.0获得许可。Kaldi供语音识别研究人员使用。有关更详细的历史记录和贡献者列表,请参见Kaldi项目的历史记录。
卡尔迪(Kaldi)这个名字
根据传说,卡尔迪是埃塞俄比亚的牧羊人,发现了咖啡植物。
Kaldi与其他工具箱
Kaldi的目标和范围与HTK相似。目标是拥有易于修改和扩展的用C ++编写的现代而灵活的代码。重要功能包括:
-
与有限状态传感器(FST)的代码级集成
-
我们根据OpenFst工具箱(将其用作库)进行编译。
-
广泛的线性代数支持
-
我们包括一个包装标准BLAS和LAPACK例程的矩阵库。
-
可扩展的设计
-
我们尽可能以最通用的形式提供算法。例如,我们的解码器被模板化在一个对象上,该对象提供由(帧,fst-input-symbol)元组索引的分数。这意味着解码器可以从任何合适的分数源(例如神经网络)工作。
-
公开许可证
-
该代码是根据Apache 2.0许可的,Apache 2.0是可用的限制最少的许可证之一。
-
完整食谱
-
我们的目标是为构建语音识别系统提供完整的配方,这些配方可从语言数据库(LDC)提供的数据库中获得。
发布完整食谱的目标是Kaldi的重要方面。由于该代码是根据允许修改和重新发布的许可证公开提供的,因此,我们鼓励人们以与Kaldi自己的示例脚本类似的格式发布其代码以及脚本目录。
在给定时间限制的情况下,我们试图使Kaldi的文档尽可能完整,但是短期内我们不希望生成与HTK一样详尽的文档。特别是,HTKBook中有很多入门材料,它们为未入门者介绍了统计语音识别,这可能永远不会出现在Kaldi的文档中。Kaldi的许多文档都是以这样的方式编写的,即只有专家才能使用。考虑到我们的目标受众是语音识别研究人员或培训中的研究人员,将来我们希望使其更易于使用。通常,Kaldi并不是用于“假人”的语音识别工具包。它将允许您执行许多没有意义的操作。
卡尔迪的味道
在本节中,我们尝试总结Kaldi工具包的一些更通用的品质。在某种程度上,这描述了当前开发人员的目标,并描述了项目的当前状态。这并不意味着排除工作风格不同的研究人员的贡献。
-
我们强调通用算法和通用配方
-
所谓“通用算法”,是指诸如线性变换之类的事物,而不是某种特定于语音的事物。但是,如果更具体的算法有用,我们就不会太教条。
-
我们希望可以在任何数据集上运行的配方,而不是必须定制的配方。
-
我们更喜欢证明正确的算法
-
配方的设计原则上永远不会以灾难性的方式失败。一直在努力避免可能会失败的配方和算法,即使它们在“正常情况下”也不会失败(例如:FST推压,通常可以帮助但可能导致崩溃或使某些情况变得更糟)情况)。
-
Kaldi代码已经过全面测试。
-
目标是使所有或几乎所有代码都具有相应的测试例程。
-
我们试图使简单的情况保持简单。
-
在构建大型语音工具包时,存在代码可能成为很少使用的替代品的危险。我们试图通过以下方式构造工具箱来避免这种情况。每个命令行程序通常只适用于少数情况(例如,解码器可能仅适用于GMM)。因此,当您添加新类型的模型时,您将创建一个新的命令行解码器(调用相同的基础模板代码)。
-
Kaldi代码很容易理解。
-
即使整个Kaldi工具包可能变得非常庞大,我们的目标还是要使它的每个部分都易于理解,而无需付出太多努力。如果可以提高某些部分的易理解性,我们将接受一些代码重复。
-
Kaldi代码易于重用和重构。
-
我们的目标是使工具包尽可能松散地耦合。通常,这意味着任何给定的标头都应#include尽可能少的其他标头文件。特别是矩阵库仅依赖于另一个子目录中的代码,因此它几乎可以独立于所有Kaldi其余部分使用。
项目状况
当前,我们拥有用于大多数标准技术的代码和脚本,包括所有标准线性变换,MMI,增强型MMI和MCE判别训练,以及特征空间判别训练(例如fMPE,但基于增强型MMI)。我们为《华尔街日报》和《资源管理》以及《总机》提供了工作食谱。由于词汇和语言模型问题,“配电盘”配方尚未提供最新的结果–为此,我们不使用任何外部数据源。
注意:在我们打算将版本号用于Kaldi的主要发行版(“ v1”等)的早期阶段之后,我们意识到这些类型的发行版与自然的开发风格不太吻合,这是非常连续的。当前,我们仅维护“ master”开发分支,这是您应该使用的版本。另外,经常执行“ git pull”以保持其最新状态。有关更多详细信息,请参见下载和安装Kaldi。
参考论文中的Kaldi
如果您想在论文中引用Kaldi,可以使用以下参考。
@INPROCEEDINGS { Povey_ASRU2011, 作者= {Povey,Daniel和Ghoshal,Arnab和Boulianne,Gilles和Burget,Lukas和Glembek,Ondrej和Goel,Nagendra和Hannemann,Mirko和Motlicek,Petr和Qian,Yanmin和Schwarz,Petr和Silovsky,Jan和Stemmer,Georg还有Vesely,Karel}, 关键字= {ASR,自动语音识别,GMM,HTK,SGMM}, 月=十二月 title = {卡尔迪语音识别工具包}, booktitle = {IEEE 2011自动语音识别和理解研讨会”, 年= {2011}, 发布者= {IEEE信号处理协会}, 位置= {美国夏威夷大岛希尔顿唯客乐渡假村}, note = {IEEE目录号:CFP11SRW-USB}, }
标签:OfficialKaldi,代码,Kaldi,工具包,语音,注解,配方,我们 来源: https://blog.csdn.net/qq_42734492/article/details/110506941