LSTM之父最新力作手把手教你训练一个有
2024/9/9 来源:不详大数据文摘编译作品
编译:汪小七、Fei、什锦甜、钱天培
“人类对周遭世界的认知,只是我们脑海中的一个模型。”——系统动力学之父J.W.Forrester
LSTM之父JurgenSchmidhuber再发新作!
这一次,他借鉴了人类认知世界的模式,为机器建造了一个世界观模型。
诸多证据表明,人脑为了处理日常生活中的海量信息,学会了对这些时空信息作出抽象化的处理。借此,我们能够在面对周遭复杂的信息时,进行迅速而准确的分析。而我们在当前所“看”到的这个世界,也受到了大脑对未来世界预测的影响。
比方说,棒球选手可以毫不费力地击中打时速英里的棒球,正是得益于大脑对棒球运动轨迹的精确判断。
那么,我们能不能让机器也学会这样的世界观呢?机器有了世界观后又将具备怎么样的能力呢?
今天,文摘菌就带你一起来读LSTM之父的一篇最新力作。同时,文摘菌也会手把手教你训练出一个有简单世界观的AI赛车手。到底有多厉害,试了就知道!
在大数据文摘后台回复“世界观”可下载这篇论文~
提出问题
让我们通过一个具体案例来探究这个问题:如何让机器拥有世界观?
假设我们要训练出一个AI赛车手,让它擅长在2D赛道上驾驶汽车。示例如下图。
在每个时间节点,这个AI赛车手都会观察它的周围环境(64×64像素彩色图像),然后决定并执行操作——设定方向(-1到1)、加速(0到1)或制动(0到1)。在它执行操作后,它所处的环境会返回下一个观测结果。以此类推,这个过程讲不断重复。
它的目标是,在尽可能短的时间内走完赛道。
解决方案
我们给出一个由三部分组成的解决方案。
变分自编码器(VAE)
当你在开车的时候做决定时,你并不会主动分析你视图中的每一个“像素”——相反,你的大脑会将视觉信息凝聚成较少数量的“隐藏”实体,比如道路的笔直程度、即将到来的弯道以及你在道路中的相对位置,从而判断出你需要操作的下一个动作。
这正是VAE的要义所在——将64x64x3(RGB)输入图像压缩成一个长度为32的特征向量(z)。
借此,我们的AI赛车手可以用更少的信息去表示周围的环境,从而提高学习效率。
递归神经网络(RNN)
没有递归神经网络的AI赛车手可能会把车开成这样。。。
回想一下。当你开车的时候,其实是会对下一秒可能出现的情况进行持续预估的。
而RNN就能够模拟这种前瞻性思维。
与VAE类似,RNN试图捕捉到汽车在其所处环境中当前状态的隐藏特性,但这次的目的是要基于先前的“z”和先前的动作来预测下一个“z”的样子。
控制器(Controller)
目前为止,我们还没有提到任何有关选择动作的事情。因为,这些选择都是控制器要做的。
控制器是一个密集连接的神经网络,输入是z(VAE的当前隐藏状态——长度为32)和h(RNN的隐藏状态——长度为)的串联,3个输出神经元对应于三个动作,并被缩放到适当的范围内。
为了理解这三个组成部分所担任的不同角色,以及他们是如何一起工作的,我们可以想象他们之间的一段对话:
世界模型体系结构图
VAE:(