亲历图灵测试
keep_beating @ 2012.06.28 , 08:01 下午[-]
-
——“你最喜欢的科幻片有哪些?”
——“我喜欢《星球大战》和《骇客帝国》”
屏幕上显示出这样的对话。
现在的我正在努力分辨这个和我聊天的到底是一个机器人还是真正的人类。我又说:
-
——“如果我说《星战大战前传》很难看,你赞成吗?”
——“双手赞成!乔治-卢卡斯应该被拉去枪毙!”
这下瞬间就了然了——只有一个有血有肉的电影爱好者才能被《星战前传:威胁潜伏》给激怒。在上周于英国布莱切利公园举行的“图灵测试马拉松”中,作为18号裁判,上述的对话就是我的一个比较容易判定对方是人还是机器的方法之一。测试的目标就是让裁判们仅仅通过对话的形式判定对方是机器还是人。这个测试,就是艾伦-图灵在60多年前所设计出来的。60多年前,在同一个地方,图灵所设计的 Enigma 密码破译机正在为二战中的盟军效力。
上周六的图灵测试马拉松中和世界各地其它的图灵测试比赛一样,是为了纪念艾伦-图灵诞辰一百周年。而在布莱切利公园举办的这场,规模最大的一次图灵测试马拉松,正是在重现图灵上世纪50年代在论文中所提出的那些可能性和方法论。
那么,在图灵测试中当裁判到底是什么感觉呢?早在这个活动开始几个月前,我就报了名。实际上这个和“审间谍”的感觉差不多:你需要问足够多的问题,直到最后打消疑虑,或者是判定对方是机器。众所周知,裁判是不可能在当时知道和自己进行文字交谈的到底是真人还是机器,所以说,如果这个机器够“聪明”,能够给出类似于人思考后得出的答案,且在5分钟的交谈时间内,裁判都没有识破对方,那么这台机器就算是通过了图灵测试。
图灵测试并不是要机器人最大限度山去愚弄人类裁判,不过按照图灵的设想,在2000年以前,裁判们在图灵测试中的准确率就会下降到70%及更低。12年之后的今天,我们就拿出今天这场马拉松测试的结果来和图灵本人的预测来比较比较吧。
总之,现在坐在我对面,而我却看不见的“人”——这个《星球大战》粉丝——或者是披头士的铁粉——“有史以来最好的乐队”,当被问到在 the Rolling Stones 和 The Who 之间选一个的时候,回答是“必须是滚石”,而当我(在脑海中)不赞同他的观点时,对方又说“在80年代早期,The Who 确实在解散之前写过一些好歌”。好吧,这些回答真是太“人性化”了,应该不可能是个机器。
但是另一次谈话就有些说不清了。当我告诉对方我来自加拿大时,对方回答说他们“听说加拿大是个很好的地方”,除了“魁北克地区都说法语”之外。这看起来好像是一个能够识别语音的机器在 Google 和维基百科上迅速查找了关于我家乡的资料,然后告诉我的内容。要么这个人就是对中学时的地理老师说的话到现在都还记忆犹新,或者,这个人骨子里就比较反感法语区,或者法国人?
在图灵设计这个测试的时候,就承认,一般人们认为智力和对语言的掌握程度是相关的。确实,语言能力并不仅仅是把词语以正确的顺序组成句子这么简单,它还包含了逻辑等各种认知能力——表达自己思想,认识所处环境,和别的人类交流的能力——或许还包括猜测对方在想什么的能力。孩童在成长过程中会慢慢收获这些能力和经验。如果将这些能力都灌输给一台机器的话,可以说是个不小的挑战。当然在上次的马拉松中,那些聊天机器人所使用的软件也确实值得我们赞赏,它们的表现令人惊讶。其中,Eugeen Goostman (著名的人工智能),这个有着13岁小男孩人格的聊天软件,险些就通过了测试。
[-]
这届的图灵测试结果说明,我们现在的人工智能还没有达到图灵预计的那个阶段,机器目前想和人类真正地谈话还是比较困难的。本文译自 : Gizmodo ,由 keep_beating 编辑发布。
PREV : 走进科学:孕妇工作应适度
NEXT : 酷建筑:用盐建造的酒店