Facebook AI 负责人:深度学习技术趋势报告

1459007438-9219-oWvDUsPKV4m76xaWABohBqstQmPw
 新智元原创1

来源:Yann LeCun

编译:米粒

Yann LeCun 是卷积神经网络的发明人,Facebook 人工智能研究院的负责人。下文的 150 张 PPT,是 LeCun 对深度学习领域的全面而细致的思考。LeCun 非常坚定看好无监督学习,认为无监督学习是能够提供足够信息去训练数以十亿计的神经网络的唯一学习形式。

但 LeCun 也认为,这要做好非常难,毕竟世界是不可理解的。我们来看看 LeCun 在这 150 张 PPT 中,究竟给我们带来什么样的惊喜。

Yann LeCun:150 PPT 全文

如需下载全文,请在新智元订阅号回复 0326 下载。

1459007438-4201-V8fy5ma5QDibPQJoyeCegagdmicQ

深度学习

 

作者Yann Le Cun

纽约大学,柯朗数学科学学院(CourantInstitute of Mathematical Science, NYU),

Facebook 人工智能研究

 

1459007438-5609-PnT6KDrqficoicJ0n46ZYPsHOtdQ
我们需要复制大脑来开发智能机器吗?

 

大脑是智能机器存在的依据

-鸟和蝙蝠是重于空气飞行存在的依据

 

1459007438-1658-MmRwaWzXTOIrNuanpadSFBV07k1w

大脑

 

1459007438-1372-g7Hg2byfoPuIZNaWWRSx6gepSyyg

今天高速处理器

 

1459007438-8565-fO3nwWcmJspDPh8rSUMhOIyGRzbQ

我们能够通过复制大脑来开发人工智能系统吗?

电脑离大脑运算能力只有1万次方差距吗?很有可能是100万次方:突触是复杂的。1百万次方是30年摩尔定律

 

最好从生物学里获取灵感;但是如果没有了解基本原理,仅从生物学里生搬硬造,注定要失败。飞机是从飞鸟那里获取的灵感;他们使用了同样的飞行基本原理;但是,飞机并不振翅飞翔,也没有羽翼。

1459007439-2794-ThA1rP6JibUb40OtMGseW0tnJqwQ

让我们从自然里汲取灵感,但不需要依葫芦画瓢

 

模仿自然是好的,但是我们也需要去了解自然。对于飞机而言,我们开发了空气动力学以及可压缩流体动力学,我们知道了羽毛和振翅不是关键。

 

1459007439-7575-9aq0A3gV3Lzz92fZpYSaK7pzThjg

1957年:感知机(第一台学习机器)

 

具有适应性“突触权重”的一个简单的模拟神经元,计算输入的加权总和,如果加权总和高于阈值,则输出+1,反之则输出-1。

 

1459007439-9419-78qv7Fr9NDy1b4D0McDsDMiaLUhg

感知机学习算法

 

1459007439-3513-ApeOk5ttszmrUGXg9IOsMAuO4W5w

 

通常的机器学习(监督学习)

 

设计一台带有可调节旋钮的机器(与感知机里的权重类似);选取一个训练样本,经机器运行之后,测量误差;找出需要调整那个方向的旋钮以便降低误差;重复使用所有训练样本来进行操作,直到旋钮稳定下来。

 

1459007439-2403-5OagJjLbbCiafyDbrFiajl5C8huA

通常的机器学习(监督学习)

设计一台带有可调节旋钮的机器;选取一个训练样本,经机器运行之后,测量误差;调节旋钮以便降低误差;不断重复直到旋钮稳定下来;

 

1459007439-9699-hFuxax20HEog9whWg3hvIg11t5Kw

机器学习=功能优化

这就如同行走在雾气弥漫的高山之中,通过往最陡的下坡方向行走来抵达山谷中的村庄;但是每一个样本会给我们一个方向的噪声预估,因此,我们的路径是相当随机的。

 

1459007440-4403-rOTNVLwBibiafFqNOC2XvgW47lVw

泛化能力:识别训练中没有察觉到的情况

 

训练之后:用从未识别过的样本来测试机器;

 

1459007440-8677-ciacNHaIjrc6RTticdqkx8MdrwUw
监督学习

我们能够用诸如桌子、椅子、狗、猫及人等很多例子来训练机器;但是机器能够识别它从未看到过的桌子、椅子、狗、猫及人吗?

 

1459007440-6082-olXscbAadpnUIlfcib3JoMCT5hfg

大规模的机器学习:现实

数以亿计的“旋钮”(或“权重”),数以千计的种类;数以百万计的样本;识别每一个样本可能需要进行数十亿的操作;但是这些操作只是一些简单的乘法和加法。

 

1459007440-8581-BXOSjE3PToTHX2knuCEAsNmbRPwQ

模式识别的传统模式

模式识别的传统模式(自50年代末开始),固定/设计特征(或固定矩阵)+可训练的分级器,感知机(康奈尔大学,1957年)

 

1459007440-9925-clrxyEP6ljG1pR6CtxgtgnZ7rpjw

深度学习=整台机器是可以训练的

传统的模式识别:固定及手工制的特征萃取器;主流的现代化模式识别:无监督的中等级别特征;深度学习:表现形式是分等级的及训练有素的;

 

1459007440-5609-XTsyz10ibpKicwRs9jibRP1yXltQ

深度学习=学习分等级的表现形式

有超过一个阶段的非线性特征变换即为深度学习;在ImageNet上的特征可视化的卷积码净训练[来自蔡勒与宏泰2013(Zeiler & Fergus 2013)]

 

1459007441-5820-qk1fgyU5hyBVG5jfebM0bbZaI8cw

可训练的特征等级

随着抽象等级的增加,表现形式等级的增加;每一个阶段是一种可训练特征的转换;图像识别:

像素→边缘→纹理基元→主题→

部分→对象

字符→字→字组→从句→句子→故事

 

言语

例子→光谱段→声音→… →电话→音素→字

 

1459007441-7058-QBGnrtqtibHNB2gIia00XUZfSqug

浅度vs深度==查找表VS多步算法

“浅与宽”vs“深与窄”==“更多的内存”与“更多的时间”,查找表vs 算法;如果没有一个指数大级别的查找表,几乎很少有函数可以用两步计算完成;通过指数系数,可以通过超过两步运算来减少“存储量”。

1459007441-7481-ibQ24x7icQicQbfdZia96OvSxjDA

大脑如何解读图像?

在视觉皮层的腹侧(识别)通路包含多个阶段;视网膜- LGN – V1 – V2 – V4 – PIT – AIT….等等;

 

1459007441-1980-cGPXonuKqoG3PwFkezsmy9zGSYQg

多层的神经网络

 

1459007441-2246-XGN3I8LC8eu9a2gjJcWfKEiaugvA

多层的神经网络

简单单位的多层级;每个单位计算一次输入的加权总和;加权总和通过一个非线性函数;学习算法改变权重;

 

1459007442-6303-0WtrxfTicOEkl5d2xWib1CMAgGAA

典型的多层神经网路架构

  •  可以通过在网路中装配模块来发明复杂的学习机器;
  •   线性模块
  •  输出=W.输入+B
  • ReLU 模块(经校正过的线性单元)
  • 输出i=0 如果输入i<0;
  • 输出i=输入,如果其他情况;
  • 成本模块:平方距离
  • 成本=||In1-In2||2
  • 目标函数
  • L(Θ)=1/pΣk C(Xk,Yk,Θ)
  •  Θ=(W1,B1,W2,B2,W3,B3)

 

1459007442-4261-Dzo843zOEGxp8C5ibGDKGHqoSibg

通过装配模块来搭建网路

所有主要深度学习框架使用模块(灵感源自SN/Lush, 1991),火炬7(Torch7), Theano, TensorFlow….

 

1459007443-9846-6RYGfzib3jnw4YMdvZoUqf6WP2Xg

通过反向传递来计算斜率

 

链式法则的实际应用

推倒代数的斜率:

●  dC/dXi-1 = dC/dXi . dXi/dXi-1

●  dC/dXi-1 = dC/dXi . dFi(Xi-1,Wi)/dXi-1

推倒权重斜率:

●  dC/dWi = dC/dXi . dXi/dWi

●  dC/dWi = dC/dXi . dFi(Xi-1,Wi)/dWi

 

1459007442-5930-ffF1wdKiaG7AcgtdIDAKicUufKUg

任何架构都可以工作?

 

允许任何的连接图;

无回路有向图

循环的网络需要“在时间上展开”

允许任何的模块

只要对于相应的参数及其他非终端输入是连续的,并且在几乎所有位置都可以进行求倒。

几乎所有的架构都提供自动求导功能;

Theano, Torch7+autograd,…

程序变成计算无回路有向图(DAGs)及自动求道

 

1459007442-1375-dWSQdKnUozXwpXK4PibtEM01Wmnw

多层网络的目标函数是非凸性的。

1-1-1网络

– Y = W1*W2*X

目标函数:二次损失的恒等函数

一个例子:X=1,Y=1 L(W) = (1-W1*W2)^2

 

1459007442-8970-s56IdfPGSV7Y3bD0culiaBOBgIFw

卷积网络

(简称ConvNet或 CNN)

 

1459007443-7148-a49nia4iaWicI103mTdIPokIrVMg

卷积网络架构

1459007443-4171-p8Gu0FSuBicpbdTmqxfYKppULr0A

多卷积

动画:安德烈 .卡帕斯(Andrej Karpathy)网址://cs231n.github.io/convolutional-networks/

1459007444-6970-ibCiaDHujVvxl1kVicDJq4FiaVHA

卷积性网络(制造年代:1990年)

过滤器-tanh →汇总→过滤器-tanh →汇总→过滤器-tanh

 

1459007444-1571-nYwCHoWX7SgdD9tgeWaWa7Jkj0fA

胡贝尔和威塞尔(Hubel & Wiesel)的视觉皮层结构模型

简单单元格用于检测局部特征,复杂单元格用于“汇总”位于视皮层附近的简单单元格输出产物,[福岛(Fukushima)1982年][LeCun 1989, 1998年],[Riesenhuber 1999年]等等

 

1459007444-8213-9SPhicbbnna6y0fpWb2SIEYgeWEw

总体架构:多步奏标准化→过滤器集→非线性→汇总

标准化:白度变化(自由选择)

 

减法:平均去除率,高通过滤器

除法:局部标准化,标准方差

 

过滤器库:维度扩大,映射到超完备基数

非线性:稀疏化,饱和度,侧抑制机制等等

改正(ReLU),有效分量的减少,tanh,

 

汇总:空间或功能类别的集合

 

1459007506-1385-wBicHGqDR5PBHpC0pGHiapaT4N4Q

1993年LeNet1演示

1459007444-2501-xOUks71Vu1GVsCXqjhxEgiby6icg

多字符识别[马坦等(Matan et al),1992年]

每一层是一个卷积

 

1459007445-9484-Vib98uHnH49yicSGB8yGBlM58wHw

ConvNet滑动窗口+加权有限状态机

 

1459007445-1607-SBwRj4Ocn75Yy1EHUHdvCxYpo6fQ

ConvNet滑动窗口+加权FSM

 

1459007445-5558-2xkFrEzR1H2Dk7ZP2JQjRngd2jtw

支票读取器(贝尔实验室,1995年)

图像转换器网络经训练后读取支票金额,用负对数似然损失来进行全面化训练。50%正确,49%拒绝,1%误差(在后面的过程中可以检测到)1996年开始在美国和欧洲的许多银行中使用,在2000年代初处理了美国约10%到20%的手写支票。

1459007445-1314-zUZ7RBVFteNeQyAlWDib6uu5cB0g

人脸检测[威能(Vaillantet al.)等。93、94年]

ConvNet被用于大图像处理,多尺寸热图,候选者非最大化抑制,对256×256 图像SPARCstation需要6秒时间

 

1459007445-5024-CPdnFoBPpCsQj8sIBbEibCKfMMjA

同步化人脸检测及姿态预估

 

1459007445-9231-S8VdVoQdXcIiaiaGvNwjW5iaRC7g
卷积网络行人检测

1459007446-7395-gZytQcQLvhoAeZJBh8ya7WUfUBBg

场景解析及标注

1459007446-2912-dUcQnEAnZR680shzhLlDonOv6icw

场景解析及标注:多尺度ConvNet架构

每个输出可以看到大量的输入背景,对全方位标注的的图像进行训练监督

 

1459007446-2821-a5br81vtTMdckDuR3B0EO2EUrTFQ

方法1:在超像素区域进行多数表决

 

1459007446-8417-VzwzCL1E881807tk65WAgUET5rKw
对RGB及深度图像的场景解析及标注

 

1459007447-8250-c3jDQKib1OaicUO4aCT5z8nghLFw

场景解析及标注

无后期处理,一帧一帧,ConvNet在Virtex-6 FPGA 硬件上以每帧50毫秒运行,通过以太网上进行通信的功能限制了系统性能

 

1459007446-6014-73cDapF82KXv9EGch7icCrv4icvg
ConvNet用于远距离自适应机器人视觉(DARPA LAGR 项目2005-2008年)

 

1459007447-3611-mbhoP6kXpsmtxiamflamP9wSwIeA
卷机网远距离视觉

预处理(125毫秒),地平面估计,地平线对准,转换为YUV+局部对比标准化,测量标准化后图像“带”不变量金字塔

 

1459007447-3191-3hSNZKdcUgTiauJvckFicgTYDqJA

 

卷积网络架构

每3x12x25输入窗口100个特征;YUV图像带20-36像素高,36-500像素宽

 

1459007447-9862-WZ3q3S1dypC7GX41WeKS22ribDew

卷机网络视觉物体识别

在2000年代中期,ConvNets在物体分类方面取得了相当好的成绩,数据集:“Caltech101”:101个类别,每个类别30个训练样本,但是结果比更“传统”的计算机视觉方法要稍微逊色一些,原因是:

1.                数据集太小了;

2.                电脑太慢了;

1459007447-8721-n9Q6xDEJjhFRzglmIJBzh25arBeA

然后,两件事情发生了。。。

图像网络(ImageNet)数据集[Fei-Fei等,2012年]

120万训练样本

1000个类别

快速及可编程通用目的GPUs

每秒可进行1万亿操作

1459007447-6341-7X4cuORS0tT532InfIDlWT8Zr4nw

极深度的ConvNet物体识别

 

1亿到10亿个连接,1000万至10亿个参数,8至20个分层

 

1459007448-1126-qb7VumTL4JjWcfnvYQattNp5trtg

在GPU上进行极深度的ConvNets训练

ImageNet前5大错误概率是

15%;

[Sermanet等2013年]

13.8%VGGNet [Simonyan, Zisserman 2014年]

7.3%

GoogLeNet[Szegedy等 2014年]

6.6%

ResNet [He et等2015年]

5.7%

1459007449-4596-HkM8Qz4w76e4hoyVK6y9RUz6zMSw

 

极深度的ConvNet架构

 

小矩阵,没有进行太多二次抽样过程(断片化二次抽样)

 

1459007448-2081-bwnozpEiaU5dSANfF6D7kuPibFJw

 

矩阵:第一层(11×11)

第一层:3×9矩阵,RGB->96的特征图,11×11矩阵,4步

 

1459007448-6616-H8oTnSCicXYWgqKSMScJFXOvFicQ

学习在行动

 

第一层过滤器如何学习?

 

1459007449-4252-XTsyz10ibpKicwRs9jibRP1yXltQ

深度学习=学习层次代表

具有超过一个阶段的非线性特征变换即为深度,ImageNet上特征可视化卷积网络学习 [蔡勒与宏泰2013年(Zeiler & Fergus)]

1459007449-9747-I3QjO47o8lS27hDr7ArIYlmcYUPw

ImageNet:分类

给图像中的主要对象取名,前5误差率:如果误差不是在前5,则视为错误。红色:ConvNet,蓝色:不是ConvNet

 

1459007449-1679-ghuxFM75scjXXBia4TB6GohnxUxA

ConvNets对象识别及定位

 

1459007449-6444-KbicX9uuv5OKJchYHumDAHJib0AQ

分类+定位:多尺度滑动窗口

在图像上应用convnet滑动窗口来进行多尺度的重要备;在图像上滑动convnet是很便宜的。对于每一个窗口,预测一个分类及边框参数。即使对象没有完全在视窗内,convnet可以预测它所认为的对象是什么。

 

1459007449-5646-qWL4I5oN6l2qHkVN0kiak82UNRTA

结果:在ImageNet1K训练前,微调的ImageNet检测

1459007450-1734-9gHM2Iqtvp9sHdialW5YbAIUuSxw

Detection Example:检测例子

 

1459007450-1898-r180lXSlIIBFbPhD1qhhhpmJ0knw

Detection Example:检测例子

 

1459007450-6034-4zzxQJg3XNNCrxv8n6kl4LsUISlA

Detection Example:检测例子

 

1459007450-9997-icaoffJuHTUTa5lfWqicX8wx8YwQ

深度面孔

 

[塞利格曼等(Taigman et al.) CVPR,2014年]

调准ConvNet矩阵学习

Facebook上使用自动标注

每天800万张照片

 

1459007450-9370-606It9bibWI4Ckr5hYMpQP9HtbRg

矩阵学习与暹罗架构

Contrative目标函数,相似的对象应产出相距较近输出产物,不相似对象应产出相距较远输出产物,通过学习和恒定的定位来减少维度,[乔普拉等,CVPR2005年][Hadsell等,CVPR2006年]

 

1459007450-3301-WeXDCUHPia0zUVg4hXd4MjCvp2Tg

人物识别与姿势预测

 

1459007451-3081-HIvdWAibraZGrQGXUYvy3t8nfmOA

图像说明:生成描述性句子

 

1459007451-6412-lNjVy8fK3ibVJVZtKvcYquA4kicQ

C3D:3D ConvNet视频分类

 

1459007451-2882-0kaVVeiaZauqRVyjyIbcWWsRwt3g

分割与局部化对象(DeepMask)

 

[Pinheiro, Collobert, Dollar ICCV 2015年]

ConvNet生成物件面部模型

 

1459007451-8722-J4iaLuNKS6W6TFZanAIGYsa7Xjww

DeepMask++ 建议

 

1459007452-1394-6NPdXu3pRqWGfVB5qaGgYyEQWwcw

识别路线

 

1459007451-5900-LMjiapIIDibfG2Irkm2khUsiaQAQ

训练

通过8×4开普勒(Kepler)GPUs与弹性平均随机梯度下降算法(EASGD)运行2.5天后[张, Choromanska, LeCun,NIPS2015年]

 

1459007452-7035-Tib0t12eJ7RU6S985x84rf6n06Yg

1459007453-4498-V37FHgJicGiaUMoFwTkGjYZPzfPQ

1459007452-5105-ic7HU1BPRZuQAm8jnUemdsIicz8Q

1459007452-6781-5TeJXWe0D4CW8Wweic7QgPJDoxcA

1459007453-4539-kdo8CknvUA0H194026vicXFIrS1w

1459007453-7417-UCFF3iaPHOr9wpVa2vKtRg5TwA7g

1459007454-3038-atAqVDaSvT1dhbxLWTg9qQklq0Hg

1459007453-2239-UIGRcMAvLNLgd3QP49RLic7p3iag

1459007454-8685-9or7sSq2OxKZy0HNLeEDYaMKibpA

1459007454-8724-bPWRibibYd2hcX1kX4RliakYMH4A

1459007454-1105-Xd5MHeU7sjhduaoeVSBZThmiaEqQ

1459007454-2523-5ogfaQ1wRibnRfD745jCI29XuFTw

::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::86

结果

1459007455-5994-nFkTO298UoC9oGfTpicbRrYOhwdA

监控下的ConvNets制图

 

使用ConvNets产生图像

 

1459007455-6132-WR2iaOEIdmZ9KLAcTyvBKH9z8lRw

监控下的ConvNets制图

绘制椅子,在特征空间的椅子算法

 

1459007455-8839-1Mpia95nngnNSZoYf7sCOHxtm6Qw

ConvNets语音识别

1459007455-7809-iaErIfTiaxq4uRGepPM6N5Y2sxHg

语音识别与卷积网络(纽约大学/IBM)

 

声学模型:7层ConvNet。5440万参数。

把声音信号转化为3000个相互关连的次音位类别

ReLU单位+脱离上一层级

经过GPU 4日训练

 

1459007455-6583-65icEvvxNbH3BU6Ila68RTXU82PQ

语音识别与卷积网络(纽约大学/IBM)

 

训练样本。

40 Mel频率倒谱系数视窗:每10微秒40帧

 

1459007455-2558-v3ibC4NPV3GujlW89dEc150lsB6A

语音识别与卷积网络(纽约大学/IBM)

 

第一层卷积矩阵,9×9尺寸64矩阵

 

1459007456-6240-ic0tMRP4m6153Te6qbhaR40OPxJA
语音识别与卷积网络(纽约大学/IBM)

多语言识别,多尺度输入,大范围视窗

 

1459007456-9105-lIkEVeXyKPo47Z3tHq6p65ka3tRg

ConvNets无处不在(或即将无处不在)

 

1459007456-6005-L0MPhJrWUQZCobjfLRj02mEFJC2g

ConvNet芯片

目前NVIDIA,英特尔(Intel), Teradeep,Mobileye, 高通(Qualcomm)及三星(Samsung)正在开发ConvNet 芯片

很多初创公司:Movidius, Nervana等

在不久的将来,ConvNet将会驾驶汽车

 

1459007457-8024-ibicS8FgGmu5EvOebUIEa4eZZWbQ

NVIDIA:基于ConvNet技术的驾驶员辅助系统

驱动-PX2(Drive-PX2):驾驶员辅助系统的开源平台( =150 Macbook Pros)

嵌入式超级计算机:42TOPS(=150台MacBook Pro)

 

1459007457-8272-vrj0QtJUgDlSd9eNuHBFY4JU6E9A

MobilEye:基于ConvNet技术的驾驶员辅助系统

配置于特斯拉(Tesla)S型和X型产品中

 

1459007457-3535-arBjoFiafdnkdtKv3UBQXEqqicHQ

ConvNet连接组学[Jain, Turaga, Seung,2007年]

 

3DConvNet体积图像,使用7x7x7相邻体素来将每一个体素标注为“膜状物”或“非膜状物”,已经成为连接组学的标准方法

 

1459007457-6623-fI757dpC1lqHuE5cSgKw0Z9delAg

脑部肿瘤检测

级联输入CNN架构,802,368 个参数,用30位患者来进行训练,BRAT2013上显示的结果状况

 

1459007457-1576-qhLRfqSRpQXwAahIGRhv0JNQh3Zw

预测DNA/ RNA – ConvNets蛋白质结合

“通过深度学习预测DNA- 与RNA-结合的蛋白质序列特异性”-2015年7月,自然生物技术,作者:B Alipanahi, A Delong, M Weirauch, BFrey

 

1459007457-7110-cvOSQ3UZ7Ux4cvUZAmmn4B19CCkQ

深度学习无处不在(ConvNets无处不在)

 

在脸书(Facebook)、谷歌(Google)、微软(Microsoft)、百度、推特(Twitter)及IBM等上的许多应用程序。

为照片集搜索的图像识别

图片/视频内容过滤:垃圾,裸露和暴力。

搜索及新闻源排名

人们每天上传8亿张图片到脸书(Facebook)上面

(如果我们把Instagram,Messenger and Whatsapp计算在内,就是每天20亿张图片)

脸书(Facebook)上的每一张照片每隔2秒就通过两个ConvNets

一个是图像识别及标注;

另一个是面部识别(在欧洲尚未激活)

在不久的将来ConvNets将会无处不在:

自动驾驶汽车,医疗成像,增强现实技术,移动设备,智能相机,机器人,玩具等等。

 

1459007458-7106-SKTiaQZicicSiaqe0PeJmXA1oSFg

 

嵌入的世界

 

1459007458-9375-LxEqgicN10G5zsxFlyZ0eHfk4qGg

思考的向量

 

“邻居的狗萨摩耶犬看起来好像西伯利亚哈士奇犬”

 

1459007458-2816-PyIcLHZFPFRc4Q1OkJialbVOZNyw

嵌入的世界

 

iNSTAGRAM 嵌入视频

1459007458-5722-QibPibJJx02hLLtTOibvfu7aOrKw
用“思考的向量”来代表世界

任何一个物件、概念或“想法”都可以用一个向量来代表

[-0.2, 0.3, -4.2, 5.1, …..]代表“猫”的概念

[-0.2, 0.4, -4.0, 5.1, …..]代表“狗”的概念

这两个向量是十分相似的,因为猫和狗用许多共同的属性

加入推理来操控思考向量

对问题、回答、信息提取及内容过滤的向量进行比较

通过结合及转化向量来进行推理、规划及语言翻译

内存存储思考向量

MemNN (记忆神经网络)是一个很好的例子

在FAIR, 我们想要“把世界嵌入”思考向量中来

 

1459007458-5003-s24uibxT3tgblBVgxqyXQqKRmpJg

自然语言理解

 

1459007458-2155-edzb7iabZv79pR891QOZwNdVGibA

文字能嵌入吗?

 

[Bengio2003年] [Collobert与韦斯顿(Weston),2010年]

通过前后的文字来对该文字进行预测

 

1459007459-8208-e9vXN8HWHNOLL0nFP4SJBicZ5Msg

语义属性的合成

东京-日本=柏林-德国

东京-日本+德国=柏林

 

1459007459-1097-5NYDdZib9a8R7E1GXgxicNWdiafQ

问答系统

1459007459-4645-qxcCJpZ9gLmIicVO3cy164HQyKgw

问答系统

1459007459-6234-VocDfMdcYxGDqHSlXSgzhb0SLcMw

问答系统

1459007459-1306-VocDfMdcYxGDqHSlXSgzhb0SLcMw

LSTM网络的语言翻译

多层次极大LSTM递归模块

读入及编码英语句子

在英文句末生成法语句子

与现有技术状态的准确率极其相若

 

1459007459-7900-a9RzFCdA4BEMhTwf5brbSf7ibLkg

神经网络如何记忆事物?

 

递归网络不可以长久记忆事物

皮质只可以持续20秒记忆事物

我们需要“海马”(一个独立的记忆模块)

LSTM [Hochreiter 1997年],寄存器

存储网络[韦斯顿(Weston)等,2014年](FAIR),联想记忆

堆叠增强递归神经网络[Joulin与Mikolov,2014年](FAIR)

NTM [DeepMind,2014年], “磁带”.

 

1459007460-1308-AMQHmTBfZpCad5z6YSBun12Q9mRA

存储/堆叠增强递归网络

堆叠增强RNN

弱监控MemNN:

寻找可使用的存储位置。

 

1459007461-8065-74JX3Gs0ouu1sgbuysoWzB3keXrw

内存网络[韦斯顿(Weston),乔普拉( Chopra),博尔德(Bordes ),2014年]

 

在网络中加入短期内存

::__IHACKLOG_REMOTE_IMAGE_AUTODOWN_BLOCK__::116

 

通往人工智能的障碍物

 

1459007461-4428-DnvTbzAYD45Z9nelDzptTfJAVwzw

(除计算能力以外),人工智能的四项缺失部分

 

理论的深度认知学习

深度网络中的目标函数几何学是什么?

为何ConvNet架构这么好?[(马拉)Mallat, 布鲁纳(Bruna), Tygert..]

代表/深度学习与推理、注意力、规划及记忆的整合

很多研究集中在推理/规划,注意力,记忆力及学习“算法”

内存增强的神经网络“可求导的”算法

将监控、非监控及强化学习整合在单一的“算法”内

如果进展顺利,波尔兹曼机将会十分有用处。

堆叠的什么-哪里自动编码器,梯形网络等

通过观察及像动物及人类生活一样来发现世界的结构及规律。

1459007460-9809-lCRDWEa1OFoDibL6g3mibk7FBw2g

神秘的目标函数几何学

 

1459007460-7404-5sNVs19onPjNbRpQj8nRnuZX9pxw

深度网络与ReLUs及最大汇总

线性转换存储栈最大离散操作器

ReLUs点位方法

最大汇总

从一层到另一层开关

 

1459007461-7735-0wJ8bTzw222LTPE6oVyZet7HY3TQ

深度网络与ReLUs:目标函数是分段多项式函数

 

如果我们使用损失函数,增量则取决于Yk。

随机系数的在w上的分段多项式

a lot:多项式的临界点位随机(高斯)系数在球面的分布[本阿鲁斯等(Ben Arous et al.)]

高阶球面自旋玻璃随机矩阵理论

随机矩阵理论

 

1459007461-1557-Hh3aQnooo6bA4OpCaicEu1iaOLwA

深度网络与ReLUs:目标函数是分段多项式函数

从多个初始条件中训练按比例缩小的(10×10)MNIST 2层网路。测量测试集的损失值。

强化学习,监督学习、无监督学习:学习的三种类型

 

1459007462-6104-x2Dr6waFywLbk9YBtVd0kRPW8Hbw

学习的三种类型

 

强化学习

机器偶尔会对标量效果进行预测

样本的一部分字节

监控学习

机器预测每个输入的种类或数量

每个样本10到1万位

非监控学习

机器对任何输入部分及任何可观察部分进行预测

在视频中预测未来镜头

每个样本有数以百万计的字节

 

1459007462-7224-7x48Kx4DH7gIfxp6F31DXfDprPcw

机器需要预测多少信息?

 

强化学习(车厘子)

机器偶尔会对标量效果进行预测

样本的一部分字节

监控学习(糖衣)

机器预测每个输入的种类或数量

每个样本10到1万个字节

无监督学习(蛋糕)

机器对任何输入部分及任何可观察部分进行预测

在视频中预测未来镜头

每个样本有数以百万计的字节

 

1459007462-7698-CQYwbV1HZic7auLDO19nfeFQQwbQ

无监督学习是人工智能的“黑箱”

 

基本所有动物及人类进行的学习都是无监督学习。

我们通过观察了解世界的运作;

我们学习的世界是三维立体的

我们知道物体间可以独立运动;

我们知道物体的恒久性

我们学习如何预测从现在开始一秒或一小时后的世界

我们通过预测性非监控学习来构建世界模型

这样的预测模型让我们有了“常识”的认知

无监督学习让我们了解到世界的规律。

1459007462-3356-qoebMxkXwXL0NOuF782Eu92iarJQ

通过非监控学习而得到的常识

通过对世界预测模型的学习让我们掌握了常识;

如果我们说:”Gérard拿起包离开房间”, 你能够推测出:

Gérard起立,伸展手臂,向门口走去,打开门,走出去。

他以及他的包已经不会在房间里

他不可能消失或飞了出去

1459007462-6851-fNJqKIvQbWWF25tgnKmFLSJxDg4g

非监控学习

 

1459007462-1210-q5gtE08rnQ92cJFvq0XeOYib4pdw

以能量为基础的非监控学习

能量函数:取数据流的最低值,取其他地方的最高值

如果是所需能量输出,则向下按;

其他情况,则向上按;

 

1459007463-7408-s4v2IMctoiaibuCykDJfTrZJOdtg

生成对抗的网络

1459007463-8932-orltMYUC9pZ7mUS8DnsppWz6HIgA

 

拉普拉斯(Laplacian) GAN:拉埃甘(又名EYESCREAM)

 

学习生成图像[丹顿等人(Denton et al.),NIPS2015年]

发生器产出拉普拉斯金字塔系数代表的图像

鉴别器学习如何区分真假拉普拉斯图像。

 

1459007464-8295-sG9Cg4uTNvJPY72ZbicVFPjicttQ

“EyeScream”

 

1459007464-8972-uftSwCrJ9HicwbUhb6wn5gACMs0g

“EyeScream”/“LAPGAN”

 

1459007463-7534-qWXgkM7FuYmlYrWk5QuzhSHooicQ

发现规律

DCGAN:通过对抗训练来生成图像

[雷德福(Radford),梅斯(Metz),Chintala, 2015年]

输入:随机数字;

输出:卧室

 

1459007463-9210-Ul9BaOa03ZpzT8NCVz2XerUbWDrQ

导航流

 

DCGAN:通过对抗训练来生成图像

用漫画人物来训练

人物之间的插入

 

1459007464-1952-JH0qDjsn6YJicico3Daib4N3vG6w

面部代数(在DCGAN空间)

DCGAN:通过对抗训练来生成图像

[雷德福(Radford),梅斯(Metz),Chintala,2015年]

 

1459007464-8254-Y2M5Qk0oumOzVp9Gs6C7ScsDZHUg

无监督学习:视频预测

 

1459007464-8455-aloBWib3sibqYEjG5vKICrbU3wWQ

无监督学习是人工智能的黑箱

无监督学习是能够提供足够信息去训练数以十亿计的神经网络的唯一学习形式。

监督学习需要花费太多的标注精力

强化学习需要使用太多次的尝试

但是我们却不知道如何去进行非监控许诶下(甚至如何将其公式化)

我们有太多的想法及方法

但是他们并不能很好的运作

为何那么难?因为世界本来就是不可预测的。

预测器产出所有未来可能的平均值-模糊图像

 

1459007464-3297-f8ccchfySEqSiaAibFcZYDdHzxPQ

ConvNet多尺度视频预测

 

4到8框架输入→无需汇总的ConvNet→1到8框架输出

 

1459007465-2015-knQTsicRKvx6cTTiayWaViaAQeQA

无法使用开方误差:模糊预测

 

世界本来就是无法预测的,mse训练预测未来可能情况的平均值:模糊图像

 

1459007465-9293-0svx1eLq9XZAIVzrWRlfYHicHxMg

ConvNet多尺度视频预测

 

1459007465-7326-Nh2GHdHiaAXcX3INhQzm8QrmIy9w
ConvNet多尺度视频预测

 

1459007465-2584-ajIKH0iabY4TkZIxhzzpBxibvrEg

ConvNet多尺度视频预测

 

与使用LSTM的人[Srivastava等, 2015年]做比较

无监督学习预测

在“对抗训练”中已经取得了一些成果

但是我们离一个完整的解决方案还相距甚远。

1459007465-6922-ico252tIeW6DcjmbQywvCGJ0MZfA

预测学习

 

1459007465-3732-0SiaicPJukg1Rc8Y2X4nMIrSONyg
机器智能与人工智能将会有很大不同

 

1459007466-2069-XLzSDnRC9PuyJwEYm9QSCMuURxgQ

人工智能会是什么样子呢?

人类和动物行为拥有进化过程与生俱来的驱动力

抗战/飞行,饥饿,自我保护,避免疼痛,对社交的渴求等等

人类相互之间做错误的事情也是大部分因为这些驱动力造成的。

受威胁时的暴力行为,对物质资源及社会力量的渴求等等。

但是,人工智能系统并没有这些驱动力,除非我们在系统里进行配置。

在没有驱动力情况下,我们很难去对智能实体进行想像

尽管在动物世界里我们有许多的例子。

1459007466-6297-5ju01J35xPvclFNZXnldtGwR1nPA
我们如何调整人工智能的“道德价值”使其与人类价值保持一致?

 

我们将建立一些基本的、不可改变的固有驱动力:

人类培训师将会把使周围人类开心及舒适的行为与奖励联系起来。

这正是儿童(及社会性动物)如何学习在社会中变得讲规矩

我们能够预防不安全的人工智能吗?

是的,就如同我们防范存在潜在危险的飞机及汽车一样

1459007466-1901-SR00MibiaxzINJgyqKreRvvNCGFA

与人类同等级的人工智能如何产生?

与人类同等级的人工智能的出现不会是一个孤立“事件”。

它会是渐进式的

它也不会孤立发生

没有任何机构可以在好的想法上面存在垄断。

先进的人工智能现在是一个科学性的问题,而不是一个技术性的挑战。

建立无监督学习是我们最大的挑战

个人的突破将会很快被复制

人工智能研究是一个全球性的团体。

大部分好的点子来自学术届

尽管另人最印象深刻的应用程序来自行业

区分智能与自主化是十分重要的

最智能的系统并不是自主化的。

 

1459007466-2537-ibibiccpWXU1YZXWYu8VrFnsOpqQ

结论

 

深度学习正在引领应用程序的浪潮

如今:图像识别、视频认知:洞察力正在运作

如今:更好的语言识别:语言识别正在运作

不久的将来:更好的语言理解能力,对话及翻译将成为可能

深度学习与卷积网络正在被广泛使用

如今:图像理解能力已经在脸书、谷歌、推特和微软中被广泛应用

不久的将来:汽车自动驾驶、医疗图像分析,机器人的感知能力将成为可能

我们需要为嵌入式应用程序找到硬件(与软件的)

对于数码相机、手机设备、汽车、机器人及玩具而言。。

我们离发明真正智能的机器还相距甚远。

我们需要将推理与深度学习整合在一起。

我们需要一个很好的“情节化”(短期)内存。

我们需要为无监督学习找到好的理论原理做支撑。

via:新智元

感谢支持199IT
我们致力为中国互联网研究和咨询及IT行业数据专业人员和决策者提供一个数据共享平台。

要继续访问我们的网站,只需关闭您的广告拦截器并刷新页面。
滚动到顶部