MIT做了个低成本手套，用神经网络训练AI学习人类的抓取动作

荔枝冰糖葫芦 @ 2019.06.05 , 08:56 下午

请你闭上眼睛，试着抓一个你身旁的物体，你会发现你并不难猜出你抓的东西是什么。在触、握、提过程中所获得的信息使人们能快速推测物体是什么。

然而同样的事情对于机器人来说并不容易。机器人目前仍然难以操纵实际物体。它们的最大问题在于缺乏数据——显然机器人的手并没有像普通人的手那样频繁的握、提尽可能多的物体。

“人类能够很好的识别和操纵物体是因为我们具有触觉反馈。当我们触摸物体时，我们能在范围内感知并意识到它们是什么。机器人没有那么丰富的反馈信息”，机器人研究者、前MIT毕业生Subramanian Sundaram解释说。

“我们总想让机器人做人类能做的事情，比如洗碗或者其他家务活。如果你想让机器人做这些事，它们必须得非常擅长于操纵物体才行”，他补充道。

在上周发表于Nature的一篇论文中，Sundaram和他在MIT的同事展示了如何给机器人“帮把手”——他们利用一种价值15美元、被称为STAG(Scalable tactile glove，变尺度触觉手套)的手套构建了一个庞大的物体交互数据库。

这种编织手套上装有548个微小的传感器，覆盖了几乎整个手掌。手套由人佩戴，当人在触、提、握、放一系列物体时，这些传感器就将上述过程中的压力信息记录下来。

MIT的研究者们选取了26个日常物体来生成数据集，包括易拉罐、剪刀、网球、勺子、笔和马克杯等。

仅仅利用这一数据集，他们提出的系统可以以76%的准确率预测物体的类别。这一系统还可估测大部分物体的重量(误差在60g左右)。

这种手套与电路板之间通过线路连接，将压力数据转化为“触觉映射”——一种简洁的点状视频图像，这些点画在一个手的图像上，每个点可以变大变小。点越大，则该点受到的压力也越大。

利用135000帧上述视频图像，一个卷积神经网络(通常用于图像分类任务的一种神经网络)被训练用来将每种压力特征与特定的物体关联在一起，并用其仅通过触摸物体来预测物体的重量，而不引入任何视觉输入。

这些研究者想让他们的卷积神经网络模拟“人类通过几种不同方式握持物体从而识别物体”的这一过程。他们设计使用视频中选择8个最不相似的半随机帧来进行训练，例如从边缘、底部或手柄处握持一个马克杯。

“我们希望最大化帧与帧之间的差异，从而给我们的神经网络尽可能最好的输入信息”，MIT研究者Petr Kellnhofer说。

“单个集群中的所有视频帧都应该具有类似的特征，这些特征代表了抓取物体的相似方式。从多个集群中采样模拟了人类交互式地尝试在探索一个物体的过程中寻找到不同的抓取方式的过程”，他解释道。

这些研究者还利用这一数据集来分析在操纵物体的过程中手的不同区域之间是如何交互的。举例来说，当某人使用食指的中间关节时，他们很少使用拇指。但食指和中指的指尖总是会与拇指一同使用。

Sundaram说，“我们第一次定量展示了如果我使用了我的手的某一部分，那么我同时使用手的另一部分的可能性”。

希望这项工作能够帮助义肢制造商选择放置压力传感器的最优位置，使义肢更适合与日常物体进行交互。

Sundaram说，“通过人工模拟机械性刺激感受器网络，深入理解人类抓取的触觉特征，可以有助于未来的义肢、机器人抓取工具以及人-机交互的新设计”。

本文译自 COMPUTERWORLD，由荔枝冰糖葫芦编辑发布。

[ 广告 ]

赞一个 (9)

煎蛋