作者介绍
李德毅,中国人工智能学会理事长,中国指挥和控制学会名誉理事长,中国工程院院士、欧亚科学院院士,1983年获英国爱丁堡海里奥特·瓦特大学博士学位。
李德毅:各位同仁! 我的主题想把大家带到一个激动人心的方向,就是关于脑认知的研究。我们出了一个很难的题目,叫做脑认知的形式化,我想谈一谈我们在这方面的探索。
脑科学是当年人们重点关注的方向之一,怎样解开脑科学属于世界的难题。大概有两种方法,一种我们叫做认知神经学。
生命科学家们用对生命,尤其是大脑科学的研究,提出怎么样把人的智慧找出来,以及用什么样的测度去研究这些特定区。
众所周知,人脑是世界上最复杂的器官,有多种尺度的解剖组织之分。
不管你怎么分,你可以把它分成116个或252个功能区,甚至更多。当然有一条大家是共识的,只研究大脑某一部分的时段正在离去。左右脑分工,应该说已经有一定程度的共识,好比人们常说左脑理性,右脑感性。
人脑总共不到4斤重,为什么这么厉害?我们刷脸,用指纹识别人,最主要的方法就是把脑做一个扫描。不同人的脑都不一样,所以可以用人脑来识别。
脑认知是对感知和记忆的编码表达以及对感知的理解和想象,与脑生理和脑成长史有关。大家知道爱因斯坦很聪明,他的大脑有更多的记忆功能,一般来说是2200平方厘米的记忆区。
生物学家尝试种出大脑,而现在脉冲神经网络模型,成为脑认知神经学研究的热点。
任何学科在什么尺度上形式化至关重要,尺度越细,结构越复杂,形式化越难。
我们研究脑认知的形式化,可以用多种尺度。微观上看它的基因和蛋白质,宏观上看脑区域网和认知行为,介观上可以研究神经网络。
2013年奥巴马启动了美国脑计划,提出了九个点,左边五个,右边四个。这九个点反映了美国的脑科学家们,从不同程度上研究脑认知。
我把九个点分别放在尺度上来看,有六个点是在不同尺度上的。中国的学者应该从什么尺度上研究呢?我觉得可以借鉴一下。这是美国的脑计划。
如果仅仅在微观研究生物脑,会不会研发出长颈鹿的脑,我们觉得是有风险,尤其是人们对梦境、幻觉、睡眠等脑功能相关的机理,到现在还没有一致的认识。所以很可惜,我们这次大会脑科学家、生命科学家来的太少,我刚才跟孙凝晖理事长说下次可以邀请一些人来。
还有没有别的方法呢?我觉得一个重要的方法是脑认知的物理学方法。
人们都说,人脑就是一个小宇宙,世界有多复杂,人脑就有多复杂。能不能用物理学的方法来研究脑认知呢?
我们看一个事实,狼群里面养一个狼孩,过了生长发育期之后,这个狼孩回不到人的状态。
这就充分说明一个真理,人脑成长和认知的社会性。我们不能只研究生物脑的遗传特征,更要研究脑后天的认知属性。
像我这样的中国学者受了毛泽东思想的熏陶,我1963年在大学里面,“人的正确思想是从哪里来的”是毛主席的重要文章。他提出了一个基本观点,感觉到的东西你不一定能深刻理解它,只有深刻理解的东西你才能很好的感觉他。这就是毛泽东同志说的,我觉得这话说的有道理。
作为主观世界的人脑如何反映客观物理世界,这是一个哲学问题。人脑如何从外部环境获得知识和技能,如何解决未知和创新。应该说没有哪一个科学像人工智能一样更加靠近科学。
现在以物理学为基础的神经成像技术,比如说信号级、符号级、语义级、人脑级同样给我们划出了不同测度方法。
目前我们的核磁共振,更多是从微观信号和宏观信号上再现脑认知的过程,我们IT工作者也做了一些事情。
比如说我自己1995年拿到了第一个发明专利。我想用云模型来填补数据和语义之间的鸿沟,提出用期望、熵和超熵来定义。
尤其重要的是,我们提出了云模型,还提出了物理学中最重要的方法叫做场。我们把这个场引申到认知科学里面来,把它叫做数据场,用数据场的办法形成了社团发现、成员角色发现等认知的物理学方法,我们希望大家能够看一看。《不确定性人工智能》已经在十多个学校开始研究生教学,我们希望更多的人来丰富我们的云模型数据场。
如果把奥巴马刚才那九点,还有三点拿过来,就是大脑成像技术、人脑数据收集和知识传播与培训。我们提出的云模型和数据场,大概在这个尺度。所以我今天报告的前沿部分,主要就是讲两个方法:认知的神经学方法、认知的物理学方法都有不同程度的描述,我们究竟应该从什么角度来切入呢?
我个人认为,脑认知是生物属性和社会属性,先天属性和后天属性相互结合而产生的整合性认知过程。研究生物脑在认知过程中的成长与进化,可以称之为脑认知的正向工程。脑认知的社会属性,可以称之为脑认知的理想工程,如认知物理学方法,存在着生物学所谓的生物隔离现象。然而一旦探索生物脑和电子脑,如果能够形成杂交优势,将来会猛不可挡,这是我讲的序言部分。
下面讲第二个问题,脑认知的形态和统计演化。
脑认知的主要外在表现,主要是听、说和看,如何听说我们把它叫语言认知,如何看我们把它叫图像认知,这两者什么关系呢?语言认知可以理解为对图像认知的语义标注和抽象。认知主体的差异性,大人和小孩看到同样一个图像,开车和不开车看到同样一个图像,效果非常不同的,怎么样想呢?难道就是计算吗?我在这个会上提出来不同观点,我认为怎么想,除了计算,还有两个重要的认知,就是记忆认知,记忆认知很重要,可能不亚于计算认知。
我们对认知技术已经耳熟能详,还有一个认知也不能忽略,就是交互认知,这三者是并列的、互补的,现在发生在同一个智能体身上,三位一体形成计算认知和交互认知。当然,脑认知的本质是记忆认知,是动态演化的过程。我个人认为记忆被我们忽略了,脑认知的核心是记忆,而不是计算。人类的记忆力强,记忆量大,就是所谓的聪明。
尤其重要的是遗忘,遗忘也是人类智能的显著表现,否则人脑不堪重负。
脑对客观世界的了解,在反复的感知、认知和行动的过程中,形成相对稳定的认知。脑认知是个动态的演化过程。
当然记忆并不是一句话可以解决,至少我们可以分成三大块:瞬间记忆、工作记忆和长期记忆。以往是对记忆的不能再认,或者是错误再认。
但是记忆不等于存储,它伴随着一定的取舍,取舍的过程就是计算、简约和抽象。
记忆、计算和交互三者同时发生,我想在这里再重复一下我们数学的基础知识,大家知道卷积,尤其是卷积神经网络。卷积是说一个静函数跟一个动函数进行卷积。那么会产生很多奇妙的结果,卷积在大学本科里面我们就学完了,我想在这里面重申一下卷积的数学性质,翻一翻已有的书。
我想更多的可以以实际例子告诉大家,什么叫卷积。一个铁丝不停的弯曲意味着它发热了,铁丝此时此刻的温度是f(t)跟g(t)的卷积。
静脉滴注是注射的离散化,给药函数是f(t),衰减函数是g(t),累计效应应该是f(t)跟g(t)的卷积。我告诉计算机工作者们,你们要了解卷积,要了解卷积神经网络。
下面是我的创新,眼睛看到的一幅图像是待认知的函数是f(t),人脑中已有的认知可以对该图加以理解、标准和消化,这是g(t),当前尚需认知的函数是f(t)跟g(t)的卷积。所以不知道我这样一个公式,在全世界的杂志上能不能登一个SCI的论文。
我们用数据场的方法研究了记忆、保持、再认与恢复四个过程。虽然时间而淡忘,下一次遇到这个人又错发,再恢复。
用数据场的方法可以很好的描述记忆过程,人们知道感觉记忆主要是前脑,感觉记忆、工作记忆、长期记忆是在脑区间并没有明确的分界面,只不过我们形式化的时候拿它来说事而已。
长期记忆是短期记忆反复性抽象,时间越长越宽泛,越宏观,越战略。因此我们用这样一个很重要的图,来说明感知记忆怎么样对工作记忆做演绎的。
但是无论我们的计算多么复杂,人脑真的会做复杂变化吗?我觉得未必,这是人脑的形式化创造而已。我个人认为在一个生命体当中,认知计算也许只有一种算法。
下面讲一讲交互,交互是三大认知的重要方法,我们把它叫做交互认知。我们看到了很多机器人的问题和回答系统,因为问一个问题它答不出来了,因为没有交互智能。
交互不但在神经源之间,还包括在整个人脑和外部世界之间,跟自然人和机器人,外部世界的互动进行相互学习、启发,使得自己更聪明。如果没有这种交互,自身难以获得这样的认知。
再讲一个知识点,脑的自定位和自导航,我们把它叫做iSLAM。人不断的把外部世界放在自己的坐标系做影射,这个很重要,人脑里面甚至有一定的盲导航功能。当然小脑发达程度不一样,个人能往前走的程度也不一样。脑认知的坐标系按照现在物理学定律应该是对数极坐标系。所以我们的视力表,第一个E字那么大,最后一个那么小,它不是线性关系,而是对数关系。
视觉认知是脑认知的主体,所以卷积神经网络可以自定义图像,这是它时髦的原因。但我们知道长期以来,我们搞计算机图像处理,基本上做了先视后觉,特别是任务驱动,图象处理与技术无关。如现在给的卷积神经网络。实际上人们有时候是视而不觉的,磕睡了放电视也看不下去。或者电视剧一边看,一边想,这是更多的情况。还有一种是有目的找一个大胡子和戴眼镜的老头,他是有目的的。我们要研究四种不同的方法,脑认知的过程很复杂,视网膜很丰富,一直到经过神经传输形成视觉,这张图告诉我们一瞥之间到底发生了什么。
在人脑的视觉神经认知过程当中,能够一直保持图像内容的突破关系,这点尤其值得我们重视。大家看看上面这张图,这张图凡是搞卷积神经网络的都是耳熟能详的。一个32×32的像素图怎么变成68×68的,然后再卷积,最后得到一个训练分类器,对于这样一个卷积神经网络,今天我想讲一讲我对它的理解,我想讲它的三大局限性,虽然好但是有毛病。
第一个毛病,到底多少是深层次学习。多少个卷积核,每个卷积多大,怎么样来进行特征提取,都有太多的随意性和适凑性,而且不能保证拓扑结构参数的收敛,这是一个最要命的问题。
第二个毛病,由细尺度特征到大尺度特征的层层提取,只有前馈没有反馈,已有的认知不能帮助当前的视觉感知和认知,没有体现选择性。
第三个毛病要求海量训练样本,一万个样本做了半天,最后能够识别一百个东西。一万个样本你让我指定,最后识别了一百个,不划算。尤其从样本的均等性,没有反映认知的累计性,所以我觉得在座的这么多听众,如果你们觉得我的报告值钱的话,这张片子最值钱。
我们看看发展半个多世纪的图灵模型和冯诺依曼计算机,充其量只具有计算机智能。计算机的架构中,计算、存储和交互相互分离,导致内容不同区域的数据频繁访问,以及硬盘和内存间数据的频繁访问。
而脑认知的构成单元,应该同时具有记忆智能、计算智能和交互智能,大大降低能耗。
按照这样的认知,我们开始构造机器驾驶脑。我们知道驾驶这个行为对于一个高级驾驶员来说,也是发生在十几毫秒,几十毫秒的事情。我们的计算机可以在非常高的速度下,因此我想如果能够在纳秒进行感知,能不能在宏观上模拟驾驶行为,在毫秒、十几毫秒中进行呢?我们认为可以做到,从三位一体的认知来说应该是可行的。
当然我们还在积极寻找新的替代物,驾驶脑认知的形式化,最关键的是要懂得忽略和聚焦,懂得抽象和分离。如果这两个不懂得,那么你就要做太多的遗忘。
举一个例子,先视后觉是我们的拿手戏。视而不觉你做不做?那是一定要做的。一边开车,对一个机器驾驶脑而言,它对自然风景、建筑风格、行人、年龄、姿态,尤其是不是美女一概熟视无睹。我看了很多做人工智能,做机器驾驶脑识别行人的走姿,不管是弯着腰走或者是挺胸走,我都不能轧着你。边视边觉,根据刚才已拥有的路权,关注路权的变化。先觉后视,利用记忆,主动感知。
我们在做驾驶脑的各个当中还有一个强项,把驾驶协调性分为一个小脑的自动化,在长期的智能驾驶实验活动中,我们尝到了这个甜头。
熟练的司机开车如同自己走路一样自然,就是按本能办,这叫做本能控制。因此在我们的驾驶那里面有很多记忆棒,入口记忆棒,特定记忆棒、困境记忆棒,事故多发情景记忆棒等等。
我们把性格、情绪、瞬间记忆、学习和思维、动机,把它聚集在一个卡上,动态感知、态势分析、自主决策、精准控制、在线执行,强调了长期记忆、工作记忆和感知记忆。
把这张图再打开,大概是这么一个机构,一个智能车有四个大类的传感器。雷达传感器,尤其是激光雷达和超声雷达,现在我们正在用红外雷达。摄象头也很丰富,要看车道线、路牌、红绿灯和交通警,因为他时不时打手语。第四大类传感器就是GPS北斗,我们形成一个驾驶态势图,对这个驾驶态势图不断的感知。你用同步定位或者是影射技术,把我们头脑中的驾驶地图进行匹配,形成一个自主决策的方案,这个自主决策的方案告诉我们的小脑,控制器去执行,这就是我们智能驾驶脑的功能模块。
前面一部分主要讲感知,后面一部分主要讲认知在执行,尤其我们强调了长期记忆、短期记忆和感知记忆的不同作用。我们对一个特定问题,按照我们图灵奖获得者的文章,它的结论是要注意解决特定的问题,在这个特定问题上,你只要把感知、认知、行动落实下去,我们落实的结果变成智能驾驶脑。
现在我们正在跟孙凝晖技术组合作,想把这个卡用微电子实现。这里面有记忆认知、技术认知和交互认知。尤其是有三个不同时间的记忆,体现到我们总体设计过程,利用微电子技术,采用GPU+CPU研发机器驾驶脑。
2012年11月24号,北京到天津的无人驾驶。新闻、报纸报道我们这个车,说是中国的智能车也上路了,当然Google智能车的上路我们更加惊讶,北京到天津的时间我们连GPS都没有用,就是利用视觉加雷达,就完成了这次100多公里的无人驾驶。
2015年我们跟上汽做了新概念车,这是用雷达和GPS导航实现了再一个10公里绕桩实验,人开从头到尾40分钟,用我们无人驾驶十分钟多一点,为这个项目上汽给了我们840万。我们在基金委答辩才给我们300万,我们更加清楚的体会到企业是创新的主体。
2015年8月29日,宇通智能车参加了实验,这是我的一个学生,我们在车上讲这好像是中国第一辆大巴上路,现在我们终于拿到了第三方证明,这是世界上第一辆公交车上公路。我们很高兴。智能驾驶很可能发展成为飙车机器人冠军的比赛场,我们希望再用三十年用智能车,进行飙车比赛。我们能不能把这种测试发展成为后图灵时代的市场。
下面讲最后一个内容,这样一个驾驶脑的构造,有没有普适性呢?对其他方面是不是有借鉴作用呢?
我们做了一个尝试,机器脑认知形式化的普适性,如果变成一个特定问题,机器驾驶脑的形式化能不能有用。
看看我们这个,基本上还是那个模块,我们把它改成一个农业问题。
对苗圃栽培技术做一个机器脑控制,动态感知就变成了墒情、气候、病虫害的感知,在这里面摄象头仍然起着重要的作用,苗圃长势的分析相当于路权态势的分析,灌溉、杀虫,为什么不可以用机器脑来控制呢?如果我们有了感觉记忆、工作记忆,我们是可以做到的。现在我们正在和北京市的园博园谈判,希望把我们的驾驶脑普适成为苗圃控制脑,控制园博园的肥水刻意的灌溉。
还是刚才那张图,我们在做另外一次转移,大家都要研究脑认知跟人工智能怎么交叉,我想提出一个观点,能不能研究典型的痴呆病人的语疗机器人,因为人老了痴呆是很正常的。
我们搞一个语疗机器人,最后变成一个语音跟它聊天,这多好。并不是我们一定要写一个文章发表才好,解决我们的精神疾病、认知障碍更重要。
我们把特定问题改变成这样一个语疗机器人,我想告诉大家在认知障碍中,最大的是青年人的自闭症,中年人的抑郁症,老年人的痴呆症,这些人加在一起,机器人如何自闭、抑郁和痴呆?这样的大数据每一个精神病院都有,能不能研究一个可穿戴设备,提高人的认知能力。
最后我用一张片子来总结基本观点,如果人脑特定问题域的认知能力可以先局部的形式化,哪怕在微观上不具有组织结构的相似性,如驾驶、栽培、聊天等,当千千万万的特定问题域的认知能力局部形式化之后,用人工智能技术构建千千万万特定机器认知脑,并且通过移动互联网、云计算和大数据,是否可以倒逼并形成一个人造生物脑呢?我们可以尝试,谢谢大家。
更多阅读: