摘要 | Abstract
这是一篇对语音识别中的一种热门技术——DNN-HMM混合系统原理的透彻介绍。本文自2月10日开始撰写,计划一星期内写完。
1.前言 | Introduction
近期想深入了解语音识别(ASR)中隐马尔可夫模型(HMM)和深度神经网络-隐马尔可夫(DNN-HMM)混合模型,但是尽管网络上有许多关于DNN-HMM的介绍,如李宏毅教授的《深度学习人类语言处理》[1],一些博主的语音识别系列文章[2],斯坦福大学HMM课件[3]。但是这些材料要么不够细致完备,要么对初学者来说过于复杂深奥(尤以HMM部分的琳琅满目的概率公式为首)。
因此,笔者在阅读了大量相关资料后希望用深入浅出的方式为大家系统地介绍DNN-HMM混合模型。本文旨在为零基础者从头解析使用DNN-HMM混合方法的语音识别系统的底层原理。
笔者希望让仅仅具备本科概率论基础的人也能读懂,如果你符合这个条件但仍觉得理解起来困难,你可以留下你的疑惑,以帮助我们改进文章。
2.问题描述 | Problem Statement
我们直入主题,语音识别模型是这样一个模型,它将一串语音信号(如一个仅包含语音的.wav音频文件)作为模型的输入,目的在于输出一个与之最为匹配的文字内容(为了简化问题,本文只考虑英文场景,其它语言原理基本类似)。其中,当我们说“最为匹配”的时候,我们主要考虑的是“最有可能”的,亦即,语音识别模型希望在给定时,给出,使得:
,
上式意味着,我们要找使得最大的,记作。
要解决这个问题,一个最直观的办法就是穷举所有可能的,然后比一比他们的概率,再选出最大的那一个。显然这个想法是不现实的,因为所有可能的也许是一个无穷的集合。再者,就算能够缩小范围,枚举出大量比较可能的候选,又如何比较概率的大小呢?因而枚举法似乎不是好的选择。
HMM类的方法则选择使用贝叶斯理论对概率进行处理,这我们在后面会详细说明。在此之前,笔者想为大家简单讲讲其它的更清晰的解决思路。
3.相关研究 | Related Work
得益于今日神经网络技术的快速发展,熟悉深度学习的我们很容易联想到,似乎只要利用大量的音频以及对应的文本标注进行训练,不需要额外的人工处理应该也能做到很好的泛化能力(即拿到新的语音信号时可以准确地给出真实的文字答案)吧?
答案是:确实有,这种办法被称为Listen Attend, and Spell,简称LAS[4]。它使用一个深度学习模型,直接用声音信号和人工标记的文字训练,在推理时听到新的声音信号就能给出服务器托管网它认为最匹配的文字内容。由于直接输入音频信号就能推理出其中的文字,LAS被归为端到端(End to End)模型。
不得不说,LAS这种方法确实是最符合(机器学习研究者的)直觉的,就像其它任何的机器学习任务(如图像识别)一样,训练和推理再好理解不过了。
除了即将要介绍的HMM类模型,LAS、Transformer[5],还有CTC[6],RNN-T[7]等。这些内容不是本文的重点,就不一一介绍了。
尽管LAS等端到端模型操作非常简单无脑,但是在过去的很长一段时间内,这些堪称暴力的方法并没有想象中的那么强。至少在2020年时,商业语音识别系统的主力军还是咱们今天文章的主角DNN-HMM[1],同时DNN-HMM模型也是第一个被宣称达到人类同级别语音识别水平的模型[8]。接下来我们就要展开介绍HMM类模型:GMM-HMM系统和DNN-HMM混合系统。
4.方法 | Method
前文提到,语音识别的任务可以简化为概率问题——在给定时,给出,使得:
,
由于不好直接求得以进行比较,但在HMM系统中,我们可以对人说话的发音方式建模(这部分在后文会详细介绍),进而容易得到的是。故我们引入贝叶斯公式将上式反转,即作以下变型:
,
其中由于去掉分母不影响分式的大小比较,上式又等价于求:
。
这其中,我们称为声学模型(Acoustic Model),称为语言模型(Language Model)。(对,就是Chat GPT一类的语言模型)
这样,我们就将不容易估计的概率转变成容易估计的概率。接下来我们简要解释声学模型和语言模型的含义,以及为什么说他们容易估计。
4.1.声学模型与语言模型
首先是声学模型,按字面意思理解,它就是给定文字内容,其对应发音结果为音频的概率。这个过程是一个正向的过程,是较好估计的。举一个不那么恰当的例子,如在中文里,文字“朝阳”对应的发声结果中,发出类似于“cho yng”或者“zho yng”的概率是比较大的,但发出任何其它的声音的概率都是比较小的。笔者认为,这也是该概率被称为“声学模型”的原因,因为它描述的是“念”某一文字发出某一声音的概率,即某文字的“发声概率”。
以上的例子只是为了简要说明“声学模型”的内涵而并不具有严谨性,对于某一文字内容对应应该发出什么声音,应考虑更全面更深入的因素,而通过拼音的方式进行描述是抽象而模糊的。事实上,HMM正是声学模型,其提出者将文字的发音过程简化作一个隐马尔可夫模型。这部分内容我们会在后文详细介绍,在此不多赘述。
至于语言模型,则是用于描述某一文字出现的概率,也代表其出现的合理性。如在英文里的经典例子,“识别语音”的英文“recognize speech”和“毁坏一个好沙滩”的英文“wreck a nice beach”的发音是一模一样的。但是,由于后者的词语搭配缺乏合理性(也可理解为在大量的各类文字材料中后者出现的频率小得多),其概率也小得多,故在二者的声学模型取值相同(因为发音完全一样)的情况下,“recognize speech”是具有更高可能的识别结果。在实践中,我们会统计各词语在各种语境(上下文环境)中出现的频率,作为语言模型使用。时常,这样的统计还不足够令人满意,我们也会从逻辑的角度出发对目标材料进行合理扩展。另外,作为评判文字出现合理性的语言模型,成果缔造了Chat GPT这类能生成很多“合理”对话的聊天机器人。由于语言模型不是行文的重点,我们推荐有兴趣的读者查阅语言模型的其它相关材料,不再拓展阐述。
值得一提的是,即便是对于LAS之类的端到端模型,也即没有使用贝叶斯公式变换出这一式子,而是直接求解原问题的模型,也会引入语言模型,即LAS等模型在实际上会求解。尽管这一表达式缺乏逻辑,但在实践中却能起到可观的效果,其原因可能在于这些模型本身不能很好地估计,因而来自语言模型的修正可以生效[1]。
回到语音识别的问题上来,我们的目标是找到使得声学模型和语言模型相乘最大的。换一个角度理解:语言模型可以基于声学模型所生成的词组的合理性对语音识别结果进行重打分(rescoring),以帮助改进识别质量。
4.2.声学模型的构建:GMM-HMM系统
前文已经提到,在搭建声学模型的过程中,我们引入了HMM模型,其原因在于可以将发声的过程看作是是隐马尔可夫过程。但是在深入分析HMM相关内容之前,为了叙述逻辑的通畅,我们还是先从这一式子讲起。
当我们想进一步探讨这一式子时,第一个难题立马扑面而来:文本先不提,这个音频也太复杂了点。须知,在概率论里面,我们最喜欢的就是(1)意义明确的、(2)情况可能有限且尽量少的问题(如明天是否下雨这个问题就很好估计,因为情况少而且每种情况有明确的意义)。
但是作为音频的语音信号,即便是在进行数字采样(在这里,我们假定读者已经了解音频数字采样的知识)后,每分钟的语音也至少有:
(1信道) x (8,000赫兹采样率) x (2 ^ 16种信号强度)=524,288,000种可能情况
再加上音频的每一个数值只是代表信号在那个时间点的强度(振幅),没有什么实际的参考意义,因为不能直接和文字信息对应上。
综上,我们需要一种降维+特征提取的手段,这就是音频分帧和特征提取。
4.2.1.预处理语音:音频分帧与特征提取
特征提取的目的是降维和赋予数据意义,而分帧则是特征提取的前提。音频分帧就是将音频切片,分为一小段一小段的内容,一个小段就是一帧(frame)。分好后再对每一帧分别进行特征提取。
在实践中,我们通常会每10ms取一个帧,一个帧的长度是25ms。当然这意味着相邻的帧之间会有重叠。
对于每个分好的帧,(对8k赫兹采样率来说)具有25ms x 8,000Hz=200个采样点,我们对这些采样点进行特征提取。需要提取什么特征呢?有一点很重要的启发就是:人对声音的音高是非常敏感的。因此,我们可以在音高上做文章,用傅里叶变换把每一帧中各个音高的能量表达出来。当然,这还不够,由于人耳在声音提取上是有偏好的,即对不同音高的灵敏度不同,于是人们依据经验设计了一种考虑这个因素的特征表示方法:梅尔倒频谱系数(MFCC)。
在这里,我们不介绍MFCC的具体提取流程,只说明其结果是:将每一帧的音频内容转换为一个39维的向量,这39位数字,代表了39个人耳非常敏感的频段上的强度。
于是,通过MFCC,我们就达到了降维(200+维至39维)和特征提取(39个人耳敏感频段强度)的效果。同时,我们也就将语音信号分解成了个帧,每个帧使用39维向量,表示,即:
当然,除了MFCC以外,还有其它的特征提取方式,但其性质与MFCC无本质区别。
4.2.2.预处理文本:音素、三音和状态
因为每一个语音帧足够的短(25ms),我们可以近似认为每个帧内最多只能发出一个独立的音,而由于文本中每一个最小单元(如中文的字和英文的字母)和发音的最小单位很多时候都不是一一对应的,可以存在一对多关系(如一个汉字由声母+韵母组成)和多对一关系(如“China”中的ch两个字母是一个完整的音)。
4.2.2.1.音素(phoneme)
所以当我们在讨论文字的发音概率时,我们最希望使用一个个完整的音,而非单纯的文本中的最小单位(token),来对应语音信号中的各帧中的内容。而这里我们讲的“一个完整的音”,在语言学里有个专有名词,叫做“音素”(phoneme)。事实上,我们中学学的英文音标中的元音辅音就是音素。
于是我们需要引入文本的预处理,将文本拆分成独立的音素,再去和音频内容作对应、求概率。在拆分音素的过程中,是需要查表(音标表/拼音表等)完成的。
4.2.2.2.三音子(tri-phone)
然而在实践中人们发现,使用音素与音频内容对应时常还不够精准,因为即便音标表告诉了我们每个音素单独的发音,但是考虑音素与音素相组合时产生的变化。当前后相接的音素不同时,相同的音素也可能发出不同的声音。要考虑这个问题,我们引入了细化版本的音素——三音子(tri-phone)服务器托管网,它表示的是一个音素在前后接不同音素时的发音。请注意划线句子的宾语——三音子是“一个音素”的发音,因而是更为细分的音素,其范围比音素小。表示方法为:
[前音素]-[当前音素]+[后音素]
4.2.2.3.状态(state)
事实上,拆分成三音子后还是不够精细。通常还需要再将每一个三音子在时间层面上拆分成3个阶段。即一个三音子是由3个发音阶段组成的,这些部分被称为状态(state)。表示方法为:
[前音素]-[当前音素]+[后音素] [i]
其中i取1、2或3。
如此这般,我们才能够将一段文本内容拆分成微小的部分(就是状态state),使得每一个微小的部分,不论在任何文本环境下,发音都一样。这就是4.2.2.小节的最终目标。但经过了三次拆分,我们遇到了新的问题。
4.2.2.4.捆绑状态(tied-state)
新的问题是,这样分状态实在太多了,粗略计算:英文音素48种[10],能够两两组合的约30-40种[1],粗略估计35种,三音就是35的3次方个,再乘以3个状态,总共是
种状态。
要知道,对于每一个状态我们都需要把握它发音的情况如何(通俗地说就是大概发什么音),就要基于大量的统计材料去观测。而如此多的状态数量,给我们的统计观测带来了巨大的挑战。因此,我们还要再把这么多的状态中发音类似的状态给捆绑(tie)起来变成一类对象,叫做捆绑状态(tied-state)。在实践中,这个捆绑的可以由语言学逻辑推理完成,也可以用观察大量材料统计归纳的方法完成。经过这样的筛选后,最后捆绑状态大概在小1万个的水平。
经过本小节的多次处理,我们终于将文本变成了一个个发音各自独立的小单位,其全名叫“捆绑的三音状态”,英文“tied tri-phone states”。但为了书写方便,以下我们将其简写作“状态”,请勿混淆。
此时,文本可以写作一系列状态组合成的序列,其中所有状态集合,即
4.2.3.GMM-HMM模型之训练
在4.2.1.和4.2.2.两个小节中,我们已经成功将声学模型中的和分别拆解成了帧的特征向量序列和状态序列。于是可以对声学模型转化:
接下来要做的事是,对进行建模,也就是弄清楚给定和后,这个函数究竟是怎么求的。这里我们就要引入GMM和HMM这两个模型了。
4.2.3.1.GMM模型
首先是GMM,GMM全称是高斯混合模型(Gaussian Mixture Model),这个高斯就是高斯分布(正态分布)里面的高斯。高斯模型讲的是同一类别的东西倾向于长得差不多(服从高斯分布),而高斯混合模型讲的是很多分属于几个类别的东西混在一起,难以分辨类别,但其中每一类别内的东西长得差不多(服从这个类别的高斯分布)。
GMM的应用场景是:有若干对象,我们不知道对象各自所属的类别,也不知道各类别的高斯分布参数,只知道对象的特征和有几个类别,然后最终目标是实现这堆东西的聚类并给出类别的高斯分布参数。例如:直到一些学生的身高,其中有男有女,但不知道谁是男的谁是女的,假设男女身高各自服从一个高斯分布,要求哪些身高是男的,哪些身高是女的,还有两个高斯分布的参数(均值和方差)。
这个问题的具体求解过程请参考其它资料如[11]。请注意,尽管我们在这里不讲述GMM的求解过程,但是这个问题的解决思想(EM算法)会在后面讲的GMM-HMM求解过程中体现。
语音识别中引入高斯模型的意义在于:同一个状态(state)在不同发声者、不同场景下,所发出的声音是类似的,被认为是符合高斯分布的,而要判定一些帧的语音信号各属于哪个状态,就需要用到GMM。进一步地,GMM能给出一个状态产生某一语音帧的概率。我们称这个概率为发射概率(Emmision Probability)。
但是,仅仅是有GMM是不够的,因为在中,帧数通常大于状态数,我们还需要把每一个帧都赋予一个状态。这就需要HMM作用了。
4.2.3.2.HMM模型
HMM全称隐马尔可夫模型(Hidden Markov Model)。先讲马尔可夫模型,它表示一个对象在每个时刻都能处于某个状态,而对象在下一个时刻的状态由且仅由当前时刻的状态而决定。隐马尔可夫模型则在此基础上增加一个条件——对象的状态是不可见的(隐的),但是每个状态都会依一个概率分布产生某个可以观测的表现。比如两个骰子A和B,A有1234点数的四个面,B有123456点数的六个面。投骰子的时候不知道投的是哪个,只知道点数。这里面A/B就是状态,点数就是表现。
不难看出,如果把语音里面的状态看作下一个状态仅由当前状态决定的马尔可夫模型,那么整个声学模型部分就是一个HMM,(音素)状态就是HMM中的(隐藏的)状态,语音帧就是HMM中观测到的表现。
在HMM中,有两个重要的参数,1)当前状态向下一状态转移时的概率,2)每个状态的各种表现的概率分布。沿用前文中的符号,1)可以写作,即已知某一时刻时状态为,那么下一时刻为状态的概率,这被称为转移概率 (Transmission Probability)。2)则是4.2.3.1.中提到的发射概率,即已知时刻时状态为,那么对应(观测到)的语音帧为的概率。
我们说,只要能够得到发射概率和转移概率,那么就能完成新的信号的语音识别。其具体做法我们将在4.3.节中展示。现在,我们将展示如何估计这两个概率。
4.2.3.3.GMM-HMM的求解:使用EM算法
要合理估测发射概率和转移概率,首先肯定是要找到大量的语音信号和相对应的文字内容标注。找到合适的发射概率和转移概率函数,使得文字生成对应的语音的概率P(X|Y)最大。
回顾声学模型,我们发现一段对应的语音和文本的帧数和状态数并不一致。因此在训练GMM获得发射概率之前,还先要做文本的对齐,让机器知道哪个语音帧对应哪个状态。
但实际操作中,在求解发射概率的同时,我们也就一起把转移概率给解出来了。其过程是这样的。
# 算法1 用于求解发射概率和转移概率的EM算法
(1) 将状态序列按照先后顺序不变的方式平均分到各个语音帧*;
(2) 对当前的状态/帧对应情况计算GMM参数,即计算每个状态的所有对应语音帧的均值和方差;
(3) 对当前的状态序列计算HMM参数,即用状态序列中状态向状态转移的频次除以状态向所有状态转移的频次作为状态向状态转移的概率,其中可以等于也可以不等于;
(4) 使用Viterbi算法调整状态序列的分配**;
(5) 再次计算GMM和HMM参数并更新
(6) 如果旧的GMM、HMM参数与新的参数差别不大(小于某一给定阈值),则结束,否则转至步骤(4)继续执行。
*:例如,若,则将状态序列按不变顺序复制成两份,如果不是整数倍,则随机选几个状态多复制一点,此处选择的不同对结果影响不大。
**: Viterbi算法求解该问题过程见4.2.3.4.
4.2.3.4.将Viterbi算法用于文本对齐
首先我们指出,Viterbi算法是一种求最短路径的算法,如图8中,从S到E,只能从左往右走,每条路径的距离事先给出,求最短路径。
那么算法1中的状态序列更新是怎么变成最短路径算法的呢?
下面是草稿,别管
所以最初的语音识别问题化成了找一个状态序列使得概率最大,即:
其中在找到状态序列后,再通过字典进行翻译就可以得到识别结果。这里的字典翻译类似于读拼音写汉字/读音标写单词,具体过程不太了解,但是笔者认为通过遍历字典的暴力方式也是可行的。
讲到这一步,其实已经离可以上手求解很接近了。但最后还需要做一点妥协——把上式的和对应上。因为在拿到一段语音的时候我们是不知道它对应文本里有多少个状态的,因此只能近似地将每个帧视作一个状态的发音,于是上式就可以写作:
由于帧数通常大于状态数,所以这样在找到状态序列后,所以还需要对多余的重复状态解出对应的,再通过字典进行翻译得到识别结果。
接下来我们就要讲求的完整过程了。
从这里开始,我们要引入高斯混合
TO-BE-CONTINUED
参考资料
[1] 国立台湾大学李宏毅 (Hung-yi Lee)教授DLHLP2020课程,原网址:Hung-yi Lee (ntu.edu.tw),B站搬运Speech Recognition (Option) – HMM_哔哩哔哩_bilibili
[2] AI大道理 -AI大语音(十三)——DNN-HMM (深度解析)-CSDN博客
[3] Stanford University EE365: Hidden Markov Modelshmm.pdf (stanford.edu)
[4]W. Chan, N. Jaitly, Q. Le and O. Vinyals, “Listen, attend and spell: A neural network for large vocabulary conversational speech recognition,”2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, China, 2016, pp. 4960-4964, doi: 10.1109/ICASSP.2016.7472621.
[5]Linhao Dong, Shuang Xu, and Bo Xu. “Speech-transformer: a no-recurrence sequence-to-sequence model for speech recognition.”2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
[6]Graves, Alex & Fernndez, Santiago & Gomez, Faustino & Schmidhuber, Jrgen. (2006). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural ‘networks. ICML 2006 – Proceedings of the 23rd International Conference on Machine Learning. 2006. 369-376. 10.1145/1143844.1143891.
[7]Graves, Alex. “Sequence Transduction with Recurrent Neural Networks.”2012ArXivabs/1211.3711
[8]W. Xionget al., “Toward Human Parity in Conversational Speech Recognition,” inIEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 25, no. 12, pp. 2410-2423, Dec. 2017, doi: 10.1109/TASLP.2017.2756440.
[9] Ele实验室 – 【语音识别技术】重度鉴赏
[10]音素_百度百科 (baidu.com)
[11]高斯混合模型(GMM) – 知乎 (zhihu.com)
[12]隐马尔可夫模型(HMM)详解 – 知乎 (zhihu.com)
[13] 何通俗地讲解 viterbi 算法? – 路生的回答 – 知乎
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net