麻省理工学院的人工智慧实验室设计的人工智能

人工智能 2019-08-15 19:06www.robotxin.com人工智能专业

人类利用对物质世界的隐式理解来预测物体的运动，并推断它们之间的相互作用。举个例子，如果你看到三个显示倾倒的罐子的画面，第一个画面是罐子整齐地堆叠在一起，第二个画面是手指放在堆放好的罐子的底部，第三个画面是罐子倾倒了，那么，你很有可能会认为这个手指是造成罐子倾倒的原因。

努力实现这些逻辑上的飞跃。但在麻省理工学院计算机科学与人工智能实验室的一篇论文中，研究人员描述了一个称为时间关系网络（TRN）的系统--它基本上学习了物体是如何随时间变化的。

这个团队并不是第一个这样做的人，有很多公司都在研究工智能辅助时空建模，百度和谷歌也不例外。但麻省理工学院的团队声称较之以前的方法，他们的方法在既有准确性，又有效率。

感兴趣的话，可以点进链接查看跟踪物体的动图

<https://venturebeat./p-content/uploads/2018/09/ezgif-2-619b0ff48e.gif?=600&resize=600%2C400&strip=all>

这篇论文的主要作者Bolei Zhou告诉《麻省理工学院新闻》“我们建立了一个人工智能系统来识别物体的变形，而不是物体的外观。这个系统不会检查所有的帧，而是拾取关键帧，使用帧的时间关系来识别正在发生的事情。这提高了系统的效率，使其准确实时地运行。”

研究人员在三个数据集的基础上训练了卷积神经网络--一类非常擅长分析视觉图像的机器学习模型TentyBN的Something-Something，包含174个动作类别中的2万多个；Jester包含具有27个手势的15万个；卡内基梅隆大学的Charades，包括157个分类活动的1万个视频。

然后，他们将网络与视频文件结合，通过按组排序帧进行处理，并设定屏幕上的物体与学习活动相匹配的概率，比如例如撕开一张纸或举手。

那么，这是怎么做到的？由于信息量有限，这个模型设法达到了Jester数据集的95％准确率，并且在预测活动方面优于现有的模型。那怎么办？在处理了25％的视频帧后，这个模型超越了基线，甚至设法区分了“假装打开书”和“打开书本”等行为。

在未来的研究中，这个团队打算通过实现物体识别和添加“直观物理”来改进模型的复杂性--即，理解物体在真实世界中所具有的属性。

Zhou说“因为我们知道这些视频中的很多物理知识，我们可以训练模块来学习这些物理定律，并用它来识别新的视频。我们还开放所有源代码和模型。对人工智能来说，活动理解是一块令人兴奋的发展领域。”