湖北二师网站建设排名,如何建立一个外贸公司网站,做购物商城网站设计,去哪个网站可以接单做ps等等编者按#xff1a;本文原作者 Cindi Thompson#xff0c;美国德克萨斯大学奥斯汀分校(University of Texas at Austin)计算机科学博士#xff0c;数据科学咨询公司硅谷数据科学(Silicon Valley Data Science#xff0c;SVDS)首席科学家#xff0c;在机器学习、自然语言处理…编者按本文原作者 Cindi Thompson美国德克萨斯大学奥斯汀分校(University of Texas at Austin)计算机科学博士数据科学咨询公司硅谷数据科学(Silicon Valley Data ScienceSVDS)首席科学家在机器学习、自然语言处理等领域具有丰富的学术研究和产业界从业经验。雷锋网编译。作为 SVDS 研究团队的成员我们会经常接触各种不同的语音识别技术也差不多见证了语音识别技术近几年的发展。直到几年之前最先进的语音技术方案大多都是以语音为基础的(phonetic-based)包括发音模型(Pronunciation models)声学模型(Acoustic Modelling)和语言模型(Language Model)等。通常情况下这些模型大多都是以隐马尔可夫模型(HMM)和 N-gram 模型为核心的。未来我们希望以这些传统模型为基础探索一些诸如与百度 Deep Speech 等最新的语音识别系统相结合的新技术。当然目前互联网上可以找到许多针对这些基础模型进行解释、汇总的文章和资料但针对它们之间的差别和特点展开阐述的却并不多。为此我们对比了五款基于 HMM 和 N-gram 模型的语音识别工具CMU SphinxKaldiHTKJulius 和 ISIP。它们都是开源世界的顶级项目与 Dragon 和 Cortana 等商业语音识别工具不同这些开源、免费的工具可以为开发者提供更大的自由度以及更低的开发成本因此在开发圈始终保持着强大的生命力。需要提前说明的是以下分析大多来源于我们的主观经验同时也参考了互联网上的其他信息。而且这篇文章也并非一个覆盖所有语音识别开源工具的汇总类文章我们只是对比了其中五款相对更主流的产品。另外HTK 并不是严格开源的它的代码并不能重新组织发布也不能用于商业用途。想知道更多语音识别工具的用户请点击以下链接其中列出了几乎所有开源/非开源的语音识别工具非常全面。编程语言根据你对不同编程语言的熟悉程度你可能会更偏爱某一种工具。如上图所示这里列出的五款工具中除了 ISIP 只支持 C 之外全都支持 Python。你可以直接在它们的官网找到不同语言对应的下载链接。不过Python 版有可能并不会覆盖工具包的全部功能有些功能还可能是为其他语言的特性单独设计的。另外值得注意的是CMU Sphinx 还支持 Java、C 和其他更多语言。开发者活跃度这里列出的五个项目均源于学术研究。从名字也能看出CMU Sphinx 是一款源于卡内基梅隆大学的产品。它的研发历史大约可以追溯到 20 年前目前在 GitHub 和 SourceForge 平台同步更新。在 GitHub 平台有 C 和 Java 两个版本而且据说分别只有一个管理员维护。但在 SourceForge 平台却有 9 个管理员和十几个开发者。Kaldi 源于 2009 年的一场研讨会代码目前在 GitHub 平台开源共有 121 位贡献者。HTK 始于 1989 年的剑桥大学曾一度商业化但目前又回归剑桥。如前所述 HTK 现在并不是一款严格意义的开源工具而且更新缓慢(虽然它的最新版本更新于 2015 年 12 月但前一个版本的更新时间却是 2009 年中间隔了差不多 6 年时间)。Julius 始于 1997 年最后一个主要版本更新于 2016 年 9 月据称其 GitHub 平台有三名管理员维护。ISIP 是第一个比较先进的开源语音识别系统起源于密西西比州。它主要在 1996 年到 1999 年之间研发最后一个版本发布于 2011 年在 GitHub 平台出现之前就已经停止更新了。社区活跃度这一部分我们考察了上述五个工具的邮件和社区讨论情况。CMU Sphinx 的论坛讨论热烈回帖积极。但其 SourceForge 和 GitHub 平台存在许多重复的 repository。相比之下Kaldi 的用户则拥有更多交互方式包括邮件、论坛和 GitHub repository 等。HTK 有邮件列表但没有公开的 repository。Julius 官网上的论坛链接目前已经不可用其日本官网上可能有更详细的信息。ISIP 主要用于教育目的其邮件列表目前已不可用。教程和示例CMU Sphinx 的文档简单易读讲解深入浅出且贴近实践操作。Kaldi 的文档覆盖也很全面但是在我看来更难理解。而且Kaldi 同时包括了语音识别解决方案中的语音和深度学习方法。如果你并不熟悉语音识别那么可以通过对 HTK 官方文档(注册后可以使用)的学习对该领域有一个概括的认识。同时HTK 的文档还适用于实际产品设计和使用等场景。Julius 专注于日语其最新的文档也是日语但团队正在积极推动英文版的发布。以下链接提供了一些基于 Julius 的语音识别样例。最后是 ISIP虽然它也有一些文档但是并不系统。预训练模型即使你使用这些开源工具的主要目的是想要学习如何去训练一个专业的语音识别模型但一个开箱即用的预先训练好的模型仍然是一个不可忽略的优点。CMU Sphinx 包括英语、法语、西班牙语和意大利语在内的诸多可以直接使用的模型详情可以参考它的说明文档。Kaldi对现有模型进行解码的指令深藏在文档中不太容易找到但我们仍然发现了贡献者在 egs/voxforge 子目录下基于英文 VoxForge 语料库训练好的一个模型并且还可以通过 online-data 子目录下的一个脚本直接运行。详情可以参考 Kaldi 项目的 repository。我们没有深入挖掘其他三个软件包的模型训练情况但它们应该至少包含一些简单可用的预训练模型而且与 VoxForge 兼容(VoxForge 是一个非常活跃的众包语音识别数据库和经过训练的模型库)。未来我们将陆续推出关于 CMU Sphinx 具体应用和如何将神经网络应用于语音识别的更多文章欢迎大家继续关注。来源kdnuggets雷锋网编译雷锋网(公众号雷锋网)相关阅读雷锋网版权文章未经授权禁止转载。详情见转载须知。