清华大学教授欧智坚:语言和语言的机器智能

本讲座选自清华大学电子工程系副教授欧智坚于2016年1月19日在RONGv2.0系列——”语言语音语义与大数据技术”专场所做的题为《语言和语言的机器智能》的演讲。

  报告分四部分,首先是现状分析,我们处于技术浪潮的什么位置,第二是我们的思考和理念,我们相信什么,第三是结合这些思考我们的近期工作,最后是总结。

  我们的研究源于对人工智能的兴趣,让机器实现象人类一样在语音和语言上的智能是其中重要研究内容。大家对“星际导航”中的TARS机器人应该不陌生,未来机器人不一定具有人形,但一定希望它能与人类进行自然言语交流。

最近的热点是深度神经网络代表的深度学习,确实在语音、图像方面表现出了突出性能,吸引了学术界和产业界的极大关注。结合大数据,似乎让人们看到了人工智能奇点的加速到来。但是在学术界严谨来讲,时至今日,现代任何高级的机器在语音和语言的智能表现仍远不如人类。

  为什么这么说呢?我们来看一个表格,机器错误率和人错误率的对比。在我们领域,通常用错误率的相对下降来衡量技术的进步。即使考虑深度神经网络的最大效用,30%的错误率下降,机器的错误率还是远不如人类。值得关注的是两者的功耗效率,机器和人脑的功耗效率也差了6个数量级。

  这里给出了百度硅谷研究院在2015年发表的一组测试结果,里头的亮点大家看一下,在噪声环境下的错误率比干净环境下的错误率有一个极大的恶化,错误率基本上是20%左右。

  看一下系统架构。6个递归神经网络的集成,每个递归神经网络用了五隐层神经元,每层有2560个神经元,倒数第二层是双向递归,这是深度神经网络最前沿的一个代表。用多少时间的语音数据进行训练呢?一共用了10万小时的训练数据,假如一个人一天有效听取语音的时间是12小时的话,百度机器已经有23岁了,其实还不如一个五六岁小孩的语音和语言的认知能力。说到这里,大家一定会有疑惑,大家可能不同场合听说某某系统的错误率已经低于人的错误率了,不是说机器语音识别超过人了吗?

  讲一点历史,语音识别历史很长,比我的年纪还大。讲一点我亲身经历的。我们实验室的语音识别系统,在1998年国家863评测,对《人民日报》的朗读语音数据,字正确率达到98.7%,我们称为双九八,早接近人的识别水平了。所以,不能简单看测试结果,特别是在特定条件下进行的测试变好了,更不能代表科学进步,虽然现在的测试语音更多样一点,语料也更广一点。

这里我非常赞同皮尔斯的观点。首先,应用的进展,不能代表科学上的突破。其次,不能用一些误导性演示和无脑的测试来歪曲科学的发展。

  作为研究现状的一个总结,我这里引用Kenneth在07年写的一篇文章《钟摆摆得太远》,最近又在网上流传。很多观点时至今日,让人深有同感。援引其中的一句话作为总结:一方面,通过规避一些比较难的科学问题,实际应用确实取到了进步。另一方面,短期的取巧分散了领域的精力,无法顾及真正有意义的长远科学目标。

  那我们未来的路在哪里?下面是我的一些思考。

  这里正式介绍在语音和语言研究中,一篇重要的反思之作,就是前面提到的Kenneth在07年写的这篇文章,叫《钟摆摆得太远》,主要介绍了Pierce,Minsky,Chomsky三位理性主义大师的共同观点,让这个领域的研究者能知悉历史,充分了解双方的论据,形成自己的认识。

  《钟摆摆得太远》的文章名,其实是来源于文中的这幅图。这个图的横坐标是时间,纵坐标是在ACL会议上发表的经验主义文章数的比例,ACL就是计算语言学年会,红色点线是对从80年代到2000年左右实际发表的ACL经验主义文章数的实际拟合,黑线是根据历史的一个内插和对未来的一个外插。我们可以清楚地看出,人工智能发展中,理性主义和经验主义各领风骚,此消彼长的历史规律。在50年代经验主义占主流,代表人物是研究信息论的一帮人Shannon等。接下来的70年代,这个年代又称为是人工智能的寒冬期,代表人物有Chomsky,Minsky。刚才提到的Pierce主导的一个很有名的报告,尖锐地指出了经验主义方法的不足,加上当时经验主义下人工智能系统性能也差强人意,这些促使了人工智能进入寒冬期。在经历了这样一个理性期之后,从90年代开始,以IBM,Bell研究者推动了基于统计的语音识别,机器翻译,开启了这一波的经验主义的浪潮,统计方法大行其道,深度神经网络的热潮为主流经验主义又添了一把火。但是,很多人都在有这样的一个趋势判断,单纯依靠经验主义以及大数据统计恐怕不能真正解决机器智能。这也是我们比较认可的一个观点,理性主义复兴的历史步伐不会改变。希望经验主义和理性主义做到并重,这是我们的第一个研究理念。

  第二个基本思考就是,人工智能本质是什么?这是至今为止仍很难回答的基础科学问题。但有一个观点,处理不确定性是智能的一种重要表现,它得到了众多的研究者的充分肯定和践行。这是我们的第二个研究理念,建立概率模型来处理不确定性。刚才沈先生提到的,好多刚才前面的语音学家都提到了语言中的二像性、模糊性就是随机性的外在表现。

说两个佐证,第一个是2012年图灵奖颁给了加州大学洛杉矶分校的珍珠教授。正如颁奖说明中提到的,珍珠教授开创性的工作——提出的基于贝叶斯网络的概率表示和消息传递的统计推理算法等一系列成果,带来了人工智能研究的一场革命,revolutionized AI,让人们认识到不确定性处理在智能系统中的作用。处理不确定性的思想在人工智能建造工作中被广泛采纳。

第二个,在计算神经科学中,贝叶斯心智已成为有影响的一种重要观点,人类在预测未来、因果推断、巧合辨识方面的思维行为与利用贝叶斯分析结果非常相近,代表文章是MIT脑和认知科学系的教授Tenenbaum在06年的文章。有研究者,比如Stanford教授Manning在06年的文章中明确指出,语言和认知是随机现象。我们刚才提到了语言上的这种二象性。

  贝叶斯心智,不仅仅是行为层面的。微观一点来看,脑皮层类的神经活动也被发现对应着一种贝叶斯推理。

  最近大家可能也关注了,在《自然》杂志上有一篇重磅文章,研究者说他们开发了一套能像人类一样学习的写字程序,去书写一些所谓的字符。作者之一正是贝叶斯心智的代表人物,MIT的Tenenbaum,其思想就是基于贝叶斯准则,建立概率模型,实现了one-shot分类,这是了不起的成绩。

  所有这些都启发我们,为了语音和语言的机器智能,我们需要建立两个模型。一个是对语音信号的模型,称为语音模型,它是语音识别,基音估计,声源分离等诸多语音相关应用的基础。第二个是对语义符号序列的模型,称为语言模型,语言模型是很多跟语言相关的应用技术,像机器翻译、口语对话、问答系统的基础。如果我们的模型越科学,我们就能做更好的语音和语言的处理,这是基本理念。

  下面讲一下我们在这个理念下做的两个初步的工作。第一个工作就是概率声管模型。这个探索不是一帆风顺的,我们做了许多有关语音建模方面的试错探索研究。最开始放松隐马模型的状态输出独立性,然后研究了建立语音的贝叶斯隐马模型,研究了变分非参贝叶斯隐马模型去自动挖掘语音的状态空间,还有基于非负矩阵分解的人声伴奏分离,以及结合本征音和环境补偿的稳健语音识别。从12年开始,我们提出了概率声管模型,这是一个非常有意思的模型,并一直致力于它的改进。

  在做这个工作之前,我们问了自己两个基本的问题。第一个基本问题就是,语音是什么,语音产生的基本物理模型是什么?这有比较统一的,明确的认识。声门气流经过口腔,从嘴唇辐射开来形成语音。短时来看,口腔可以建模成截面积不同的声传输系统,比如像管乐器一样。这样的模型称为声管模型,也被称为源-滤波器模型,这是语音的基本物理模型。

  第二个问题,既然需要处理不确定性,自然要问是否存在遵循物理声管模型,语音的产生式概率模型?回答是No。

  经过认真的调研之后我们发现,大部分的语音模型都只是对语音的特征进行建模,对已经做了一些变换以后的特征,如幅度谱、倒谱、相关谱的建模。有一部分工作直接建模语音谱,但是几乎没有去真正遵循语音产生的基本物理模型——声管模型,建立一个真正意义上的语音的产生式概率模型,去刻画语音随机性,去描述语音的很重要的参量。

  这里所说的语音参量包括语音的基音,基音有关语音的韵律,对汉语这样的带调语言更具有特别意义。基音还能够帮助我们在噪声中找到语音的线索。但现在的语音识别系统完全忽视了基音的利用。我们来听一段带噪语音,看一下它的频谱,频谱的很多地方被污染了,但基音形成的谐波结构依然清晰可见。

声门波是声纹识别的重要线索。不同人的嗓音不一样,不是因为口腔长得不一样,而是声门波不一样。

呼吸噪声对语音的自然度很重要,让人的语音听起来很饱满。一些合成语音听起来不自然,是因为其中缺少了呼吸噪声。

还有相位的建模,最近几年引起了越来越多的关注,因为它很重要。这里不再仔细讲了,有兴趣的可以去参考我们的论文。

  确实也有前人和最近的一些研究,试图去建立包含刚才提到的若干语音参量的概率模型。我们工作的特点就在于,在概率模型框架下,比较完整地联合考虑了刚才所提到的重要的语音参量,呼吸噪声、声门波、声道传输函数,特别是考虑了相位建模。这些新的建模举措极大改善了目前语音模型的不完整性。具体的细节我不展开了。

  我们也通过一系列语音处理实验,验证了新模型的有效性,正在做更大规模的实验。

  这是第一个工作。作为总结,援引我们发表在AISTATS2012的文章的评阅者的一句话,“据我所知在建立真正语音产生式模型上最完整的尝试”。我们也是这么认为的。

至于为什么做产生式模型,在此引用Hinton前辈的一句话,为了识别形状,先学会产生图像。为了识别语音,研究如何产生语音,这是一个非常值得尝试的途径。

  第二个工作是有关语言的建模,我们提出随机场语言模型。

  我们先回顾一下研究现状,现有的模型是什么,然后介绍我们的研究动机是什么,我们做的东西是什么,最后是实验结果。

  语言模型本质来讲,就是要去确定一句话的出现概率,一个符号序列的出现概率。对符合语法、语义、语用的句子,它出现的概率就高,反之则低,就这么一个基本的问题。主流方法是条件式方法。根据乘法公式,一句话的联合概率可以分解成每个位置处的条件概率的连乘积,给定前面历史、当前词的条件概率的连乘积。

一个经典假设就是认为当前的词仅依赖于前面的N-1个词,这样就形成了N元文法,看上去很简单,但直到今天仍然具有强大的生命力,仍是许多实际系统的首选。

  最近兴起的神经网络语言模型,基本思想是把刚才提到的历史通过一个神经网络映射成一个连续空间中的矢量,把每个词也映射到同一空间,用一个矢量w_k来表示,然后通过一个softmax计算,计算出每个词,给定历史的条件概率。大家可以看出每个位置处条件概率计算的复杂度是多大呢?与词表的大小和词向量的维数的乘积成正比。神经网络语言模型在训练和测试时的计算复杂度都很高,其实并没有在实际中取代现有的N元文法,N元文法很多时候仍是首选。

  可以稍微总结一下。刚才提到的不管是N元文法还是神经网络模型,都是条件式概率模型,或者称为有向概率模型。其实另外有一个非常有意义的思路,就是使用无向概率图建模,又称为随机场建模。这个思路之所以没有受到重视,是因为它在学习上或者说模型拟合上非常有难度。但是随机场建模的重要意义在于它能够很好地描述上下文的彼此影响,甚至是长跨度的影响。刚才几位老师都提到了,我们对语言的认知其实是在上下文中认知,上下文就意味着不光有前,还有后。如果我们能够突破随机场模型拟合上的困难,这将开辟另外一条技术路径,我们确实做到了这一点。我们提出了随机场语言模型,将随机场从常见的定维情形,比如对固定尺寸的图像的建模,推广到一个序列意义下的跨维情形的建模。这是我们的第一个研究动机,就是希望能够描述语句中上下文的联系,甚至是长跨度的联系。

  我们来说第二个研究动机,从N元文法模型的缺陷说起。刚才所提到的N元文法只是一种语言学特征。把接连出现的三个词合在一起,就称为三元文法特征。如果训练集中只出现了Meeting on Monday,只使用三元文法特征的系统将不认识Meeting on Tuesday的搭配。这就促使我们去引入词类特征,把Monday、Tuesday等合在一起称为DAY-OF-WEEK。还可以考虑引入跨越式的特征。我们要向语言学家学习,把对分析和理解语言有用的有关语法、语义、语用的特征,纳入到模型中来。在统计模型中灵活地支持语言学特征,这是我们的一个研究理念。这也回应了刚才提到的经验主义和理性主义并重,我们希望在统计框架下兼容语言学知识。随机场模型在这方面有着独特的优势。之前做得不够好,很大程度上受困于条件式建模。

这里有一桩轶事。领导IBM语音组数十年的Jelinek,他在80年代说过一句很有名的话:Every time I fire a linguist, the performance of the speech recognizer goes up。他在60岁的时候,离开了IBM去了约翰霍普金斯大学做教授,之后做了大量的有关语言模型的工作,这个大概是他在65岁的时候说的另外一句话,put language back into language modeling,这是我们的一个目标所在。

  随机场建模有一个独特的优势,这个优势就是说任何语言学特征或者规则都可以以一种特征的形式加入到随机场模型中。随机场模型,说得直白一点,就是一个对数线性模型。每个特征对句子概率的贡献,在指数肩膀上加权求和。你想用什么特征,你就把它放在指数肩膀上赋予一个权重就可以了,这些权重可以从大数据中进行学习。以这种方式,你可以使用几乎任何你觉得有用的特征。这是随机场语言模型的第一个优点。

对第二个优点,大家可以发现,与刚才的神经网络语言模型不一样,要计算一句话的概率,只要找出这句话中被激活的特征,把它的权重相加进而可求出概率,所以它的计算效率是非常快的。

  理论上的突破是,基于随机近似(Stochastic Approximateion)的理论我们能够有效地学习刚才提到的对数线性模型中的权重参数,从而能够同时利用大数据以及语言学特征,我们略过这些细节。

  下面来看一下实验评估结果。我们在标准数据集上做了基准测试。用于比较的语言模型,包括刚才提到的经典的N元文法模型,最近兴起的RNN语言模型,以及随机场语言模型。

  这里列出了我们能想到的语言学的模板或者语言学的特征,除了标准的N元文法特征以外,我们还引入了词类特征,词类的N元文法,词和词类之间的交叉特征,以及刚才提到的跨越式特征。引入这些特征之后,我们就可以基于数据训练我们的模型。

  我们的结论是,随机场语言模型明显好于N元文法模型;与递归神经网络相比,随机场模型取得了一样的错误率。错误率相当的情况下,随机场模型比递归神经网络好处在哪儿?就是计算句子的概率非常高效,可以评估一下它在计算一个句子的概率时所花费的时间,随机场模型的效率是神经网络模型的的200倍,比它快200倍。

  总结。我们把传统的N元文法模型,最近兴起的神经网络模型,以及随机场模型,在几个维度下进行比较。我们来看训练时的计算复杂度,测试时的计算复杂度,能否有效考虑上下文的彼此关联,能否支持灵活的特征,以及在实际系统中的性能。随机场模型在多个维度下都具有优势。

  今天主要分享了我们在语音和语言的机器智能研究中的一些思考和进展。重点介绍了概率声管模型,体现语音产生客观规律。介绍了随机场语言模型,希望实现数据驱动和语言学知识相结合。我们认为,语音和语言是物理现象,机器智能恐怕不能单纯依靠经验主义和大数据统计,就能够解决的。我们更希望做到,经验主义与理性主义并重。

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部