讽刺信息探测软件看来不太可能实现

王大发财 @ 2014.06.06 , 12:27 下午

[-]

几天前煎蛋曾经报道过美国特勤局正在物色可以在社交网络上探测到讽刺性信息的软件(相关蛋文：在社交网络上讽刺当局？小心探测软件！)。这么做会带来什么好处我们一眼就能看出：由于特勤局的天职就是调查任何对总统不利的威胁——社交网络上许多信息明显属于恶搞，如何从这些恶搞信息中筛选出真正的威胁信息会对特勤局相当有用。但问题是，排查工作对于电脑来说将会是一件非常艰巨的任务——很大程度上是因为人类都搞不定。

在普通对话中，人类可以根据细微的线索判断某人是否被讽刺挖苦。显然这些暗示讽刺信息的线索并不出现在文本中，这也解释了为什么许多笑话搬到短信或者Twitter上就不再好笑的原因。

今天的计算机科学家还做不到训练程序识别讽刺信息，这一点也不奇怪。2011年一份研究将Twitter一明确标记了“#XX黑”话题的话题部分删除后，将这些信息连同许多直有话直说，不拐弯抹角的正面/负面推文一起交给计算机分析。在最佳状态下，研究人员使用的程序的正确识别率只有65%——这一切还是在极高的受控条件下进行的。

[-]

芝加哥伊利诺伊大学计算机科学家，著有敏感信息分析(从文本中抽取情感语境方法)方面书籍的刘冰(音)表达了他的质疑，他认为目前还没有任何人能够很好地解决这个问题。“据我所知没有人研制出任何令人满意的算法或系统来探测讽刺性语句”刘冰在一封电子邮件中说。美国特勤局工作人员需要的这种软件的实现难度无异于推着巨石上山：“在谈论中插入政治讽刺十分常见，由于处理这些信息需要一些背景知识，而电脑在这方面做的并不是很好，所以要实现起来非常困难。”

我们还是祝特勤局好运。不单单是因为讽刺探测软件能够保护总统的安全，假若这种软件真的开始投入使用，好多奇怪的文字笑话就有解释了，再也不会出现看不懂高级黑的笑话而尴尬的时刻了。

[-]

本文译自 Nymag，由王大发财编辑发布。

[ 广告 ]

赞一个 (1)

PREV : 环游世界的太阳能飞机完成处女航
NEXT : 水深火热：包尿布上班的泰国公交车售票员