天真!你以为打马赛克就安全了?
许叔 @ 2016.09.14 , 07:00 下午[-]
网上保护隐私的防范措施越来越容易被破解了,尤其是模糊处理和打马赛克的图片。这些方法可以防止吃瓜群众看到敏感信息,但是对于德州大学奥斯汀分校和康奈尔大学的研究者而言,这些措施在机器学习时代已经不堪一击了。
通过深度学习工具,这个三人团队可以识别高度模糊的面部和数字。在一个行业标准的数据集中,人类只有0.19%的识别准确度,而算法则有超过7成的胜算(在可以猜测5次的情况下胜算达到了83%)。该算法并不会制造去模糊的图片,它只是能识别从模糊图片中看到的东西,基于它已经知道的信息。这一方法对马赛克和P3同样有效,后者是一种被视为可以安全隐藏信息的JPEG加密方法。
今年,专门用来看穿模糊图片和马赛克的工具如雨后春笋般冒出,比如马克斯普朗克研究所的一款识别脸书上模糊人像的工具。德州大学和康奈尔大学的研究与众不同的是它简单。他们使用了Torch(一种开源深度学习数据库),神经网络Torch模板和标准开源数据。
“我们用的是乞丐版方法,东西都是现成的,”康奈尔大学的研究合著者Vitaly Shmatikov说。“找来一堆训练数据,扔一个神经网络,在扔一个标准图片识别算法,于是我们得到不错的结果了。”
Shmatikov承认,考虑识别的语境线索的话,普朗克研究所的成果更加高端。但是他说他的简单方法已经充分说明隐私保护形同虚设。
[-]
为了做演示,研究者们用油管视频工具找来一些图片和模糊的人脸。然后他们将这两组图片都交给算法处理,从而它能够将模糊的图像跟清楚的图像建立联系。遇到同一个人的不同照片时,算法一次性识别准确率是57%,5次识别的准确率是85%。“这玩意很简单,”研究合著者Richard McPherson说。“唯一的限制就是你拿来训练它的数据集。但是如果想搞,还是搞得到的。”
[-]
用油管模糊工具处理的图片可以被轻易识别
训练数据集可以是脸书上的头像,或者是网站上的员工目录。从数字到字母(甚至是手写的),网上都能找到训练数据集。McPherson和Shmatikov说,油管上推荐的模糊措施只能防人,防不了机器。
“在安全和隐私方面,人们尚未感受到机器学习的威力,”Shmatikov说。“除非有人用简简单单就找到破解之道,人们才会意识到自己的隐私不堪一击。”
PREV : 一张照片在脸书上引发风波,连首相都惊动了
NEXT : 每5个公司CEO,就有一个精神变态?