[-]

算法是一股无形的力量,它决定着我们网络生活的方方面面:谷歌的结果,脸书上的内容,垃圾邮件过滤等。这些算法随着人工智能的发展更加聪明。它们需要学习更多的信息。通常,这些机器学习的数据都是来自人类;AI研究者们需要加倍谨慎,保证这些数据精确反应了真实的世界——因为算法跟人类一样,会根据现有的信息产生偏见。最近一个AI训练数据库Spare5就以一种萌萌哒方式展示了算法偏见的后果。

Spare5的数据可以训练AI学习现实世界的不同事物,比如给数千张事物照片做注解,从而你的手机镜头可以自行识别一块比萨。根据TechCrunch的介绍,他们决定给让员工“可爱地放松一下”:给小狗的照片打分,根据萌值从1颗星到5颗星。

但是收到反馈的数据时,他们惊呆了。女人给出的萌值比男人高。平均来说,女人给每只狗的打分高了0.16颗星。

[-]

“这就是一个简单的例子:二元性别差异解释了一张照片的不同主观得分。尽管出乎意料,但是差异明显,”公司CEO Matt Bencke写到。

那么这到底怎么影响到AI呢?比如说一个研究者正在做一个app,你可以上传你家汪的照片,然后app会给它打分,并且跟其他宠物主人一起形成排行。如果研究者的训练数据只采用了男人的数据,那么算法可能就成为一个更加严苛的评分者。

如果数据足够多,其他的偏差也会出现。如果男人更喜欢小狗,女人更喜欢大狗,而演技者们更多使用了男人的数据,算法就会给小狗评分更高,因为它更熟悉小狗。

当然这样并不会产生什么严重后果(但是已经足以伤害狗狗的感受了),看起来只是一个有趣的注解,说明不同人群之间存在细微的偏好差异。但是这也提醒了那些选择数据库的人,他们的决定可能会造成更大的后果。项目背后的研究者们后来承认,黑皮肤的人经常被错误分类(谷歌近日道歉,他们的算法将黑人错误标记为黑猩猩了)。

这里有一个简单的校正规则,Bencke建议数据科学家们要在三处注意数据多样性:研究者自己,他们的数据,以及产生数据的源头。

我们身边的算法并非都是完美的,而且未来很长一段时间它们都将是不完美的——但至少我们可以从这些小狗身上吸取一些经验。

本文译自 jalopnik,由 许叔 编辑发布。

[ 广告 ]
赞一个 (9)

PREV :
NEXT :