找回暗码
 当即注册
检查: 2204|回复: 0

半佛仙人:宽恕宝的数据真相与隐私掩埋

[仿制链接]
楼主
宣布于 2019-6-6 17:55:36 | 只看该作者 |倒序阅览 |阅览形式
  0

  这篇文章中涉及到的一些技能名词和多重逻辑嵌套的描绘,或许关于部分读者的阅览体会不是很友爱,但我觉得只需这么写才对的起各位长期以来的支撑,该写硬核的内容仍是要写的硬核。

  我要把这件工作完全写清楚,也期望能够让读者们意识到这件工作背面的厌恶。

  1

  这一阵呈现了一个很奇特的东西,叫做“宽恕宝”,一时闹得整个微博沸反盈天的。

  原因是一个身在德国的程序员在微博上发布了自己的一个创造,来龙去脉能够看一下这张图。
  简而言之,便是这位程序员,运用技能,抓取了许多色情网站的视频+音频,运用这些视频材料和音频材料作为材料来进行机器学习练习,然后比对抢手交际网络和短视频APP中的女孩脸和声响的相似度,以此来承认一些活泼在交际网络上的女孩们,是不是有着另一段前史。

  某些看起来羞答答的姑娘是不是背地里热爱羞答答地做一些羞答答的工作,而且拍下来以证明自己羞答答;

  某些抖音网红是不是背面仍是91网红,不仅在抖音打广告,还在91为自己代言;

  某些B站大神是不是相同仍是P站大神,发B站的视频是电脑正常的,发P站的视频是电脑显卡坏掉了,显现不出衣服的那些残损视频;

  听起来作用超卓。

  而且按照他的说法,比对的准确率高达99%(视频)和100%(声纹),根本上算是抓到就能承认,而且当时现已找到了10万左右的女孩有一段前史。

  而且这位程序员朋友自称收到翟欣欣案的启示,要给厚道的程序员们规划这款产品来避免他们成为绿巨人和武大郎,可谓正义使者。

  所以一时之间鸡犬不宁,男性喝彩女人痛骂,咱们在微博上你争我吵,心境爆破。

  许多读到这个音讯的人榜首反应是,绿茶婊该死,厚道人有救了,凭什么给绿茶接盘。

  但我却在这件工作中发现了几个问题,并在深究进程中感触到了一种惊骇,发自内心的惊骇。

  2

  作为一名天长日久和数据打交道的风控,我首要想到的问题是,我凭什么信任他的数据?

  这个所谓准确率99%和100%,是怎样界说的,核算规范是什么?核算口径是什么?

  从技能上讲,这个人自称的准确率,在其描绘的场景中根本不或许完成,或许说,他说的准确率与读者们了解的准确率是完全不同的概念。

  我给咱们举个比如,很简略的比如。

  倘若咱们测验一个机器人算2位数加减法的准确率,应该怎样测验?

  很简略,不断输入2位数加减法的问题,然后根据机器人算出的答案,和正确答案来比对即可,正确的次数除以总的测验数,便是正确率。

  可是这儿面有一个条件,便是咱们自身有必要知道正确答案是什么,这样咱们才知道机器算的对仍是不对,倘若咱们不知道正确答案,那么咱们是没有办法断定机器的核算。

  所以定理1,测验的条件是自身已知正确答案。

  在测验的进程中,测验的次数越多,准确率结论就越靠谱。

  只让机器算1次,那么终究的准确率要么是100%,要么是0%,单次成果关于准确率的影响是100%。

  让机器算10次,那么单次成果关于准确率的影响是10%。

  让机器算100次,那么单次成果关于准确率的影响是1%。

  假如让机器算1亿次,那么单次成果关于准确率的影响便是1亿分之1,单次差错根天性够疏忽。

  一个测验了1亿次的试验结论和一个测验了100次的试验结论摆在你面前,你当然知道哪个更值得信任。

  所以定理2,测验次数越多(基数越大),得出的结论越靠谱。

  咱们考虑一下,自己的月收入是多少?

  或许你会信口开河一个数字,咱们就随机界说为10000元吧。

  那么我要问了,你的税前收入是多少?

  你的税后收入是多少?

  你加上公积金的收入是多少?

  你每个月扣除绩效的纯薪酬是多少?

  发现了么,在这个进程中,面对不同的问题,你的答案是完全不同的,但你的收入其实一向没有改变,变的是怎样界说你的收入,这个界说的进程,叫做核算口径。

  所以定理3,即便是相同的数据,运用不同的核算口径,仍然会得出不同的结论。

  记住这3个定理,面对任何数据时,都要问一下这3个定理,这有利于协助各位更明晰的认知这个国际。

  以及看穿许多误导。

  3

  了解三定理之后,我想各位再看这个所谓的准确率,你就会有疑问。

  这位程序员朋友所谓的99%(视频)和100%(声纹)准确率,到底是怎样算出来的?

  他在推导准确率的进程中,运用了什么核算口径,测验了多少样本,他自己有多少正确答案,悉数都是不知道的,咱们看到的只需一个干巴巴的结论。

  一个没有发布过所有数据细节的核算结论,往往是不行轻信的。

  再考虑到他这次操作的方向为人脸和声纹,进一步验证了他的结论不或许靠谱。

  当时面部辨认(CV)范畴最常见的练习形式是半监督。

  所谓半监督,就和咱们上面讲到的机器人管用相同,给机器许多相片和视频来做辨认练习,一同给到机器答案。

  简略举例给机器2张猫的相片,让机器来比对是否是同一只猫,等机器输出成果后,告知机器这次比对是正确的,仍是过错的,机器会按照这次的成果与正确答案的差错,来调整下一次的比对逻辑。

  这儿面最重要的一点便是,练习者有必要知道答案,而且能够把答案输出给机器。

  市面上的视觉算法独角兽们是怎样做的?

  他们雇佣许多的外包人员,专门用人眼来给这些相片打标,区别哪个对哪个错,然后把成果输出给机器,这是十分十分高的本钱。

  而这位创造宽恕宝的程序员,在练习机器之前,有必要要有足够多的正确比对样本,不然算出来的内容,准确度一定是有问题的。

  这儿所谓的正确比对样本,便是他有必要清晰知道这个人既呈现在成人视频中,又呈现在微博和抖音中,他有必要自身清晰知道这一点,而且有必要有足够多的这样的正确的事例,才干拿来练习机器。

  那么这儿就呈现了一个硬伤,他仅仅一个一般人,有一点点技能,但背面没有公司也没有钱,他哪里来的许多正确样本来做练习?他怎样或许知道她们谁是谁?

  假如说少量几个人他知道,那么是有或许的,可是练习模型最少要百万乃至千万级的正确样本,他是不或许有的,这个在逻辑上不成立。

  他最多下载一些开源的练习样本,可是针对色情网站和交际媒体的练习样本,他自己也是没有的,他所谓的100TB数据,仅仅材料,不是经过验证的样本。

  再者,他所谓的100TB数据,自身也有问题,首要便是100TB的数据,不是一个一般程序员能够处理的,这个量级的数据清洗,需求专业的数仓团队在云加持下做。

  而且再说直接一点,他说的这些色情网站和交际网站,任何一家爬下来的数据,都是PB(1024TB=1PB)级以上,怎样或许这么多家爬下来才100TB,这不实际。

  所以他所谓的练习,一开始便是有问题的,由于他处理不了原始样本准确度的问题,他没有答案,也就无从运用答案来练习机器。

  4

  看到这儿,你或许现已有点发蒙了,但我还要持续。

  虽然他说的工作在当时是根本不或许完成的,但咱们能够假定他所言不虚,那么就还有新的问题。

  倘若他不知道从哪里搞来了一堆可信的练习样本,也经过某种超自然的爬虫和数据清洗才能找到了各大网站上100TB的精华,经过练习把握了一种相对靠谱的匹配模型,那么他做出来的产品是可信的吗?

  答案是,相同不行信。

  由于有2个很实际的问题摆在面前。

  问题1,从技能上,材料的精准度是失控的,没有办法确保她是她。

  我想各位日常在摄影的时分,一定会发现,同一个人,拍出来的相片是不相同的。

  不同的视点,不同的间隔,脸上的表情,是否逆光,美颜开了几档,有没有有化装等等等等,即便是同一个人,拍出来的相片都或许完全不同,间隔之大乃至如同换了一个人。

  在视频与图片的比照中,这种差错会被进一步扩大,对匹配形成搅扰。

  而且由于P图软件在交际媒体上的盛行,各种美颜东西的乱用,导致许多实际中长得不太相同的人经过同一款软件P成了差不多的网红脸,这会进一步搅扰机器比对。

  简而言之,便是被机器认定为共同的2个人,很有或许仅仅运用了相同的P图软件,或许说是两个不同的人刚好在不同的视点间隔光线下拍出了相似的相片。

  而机器关于图片的了解和人是不同,所以机器认可的同一个人,或许在人眼中完全不是同一个人。

  例如一个同一个女孩,相同的相片,一张是黑头发,一张是白头发,人能够承认这是同一个人。

  可是机器或许就认为黑头发的和熊猫是同一个人,由于他们的特征都是色彩黑白相间,机器与人的认知不同。

  当然这悉数能够经过调整算法和参数来修正,可是这个作者自身没有开源自己的这套算法,所以谁也不知道他怎样做的,相同也不知道他做的是否可信。

  问题2,这套算法无法复原视频或许相片背面的实在原因。

  倘若这位程序员经过逾越时代的技能,完全复原相片与视频的图画差错,百分百承认她便是她,那么能够信任他吗?

  很抱愧,仍是不能够。

  由于仅仅经过视频音频和图画,无法精准的复原工作的来龙去脉。

  你能够看到的是某个女孩/男孩有着某一段视频,可是你不知道这段视频背面是什么布景,这段视频是怎样来的。

  或许是女孩真的不自爱,玩的很嗨。

  或许是女孩认为仅仅跟男朋友在做一件隐私的工作,成果被男孩拍了下来上传。

  或许是这根本便是某些不洁净的酒店里的摄像头,悄悄录下的。

  乃至或许这背面是钳制,是要挟。

  别的这些视频是由于什么原因被上传上去的,也是黑盒。

  或许是你情我愿,或许是单方面报复,或许是信息走漏,各种或许性都有。

  懂了么,即便知道一个人是视频的主角,仍然不能承认她便是需求被责备的坏人,由于这个视频拍照的布景,上传的原因,都是不知道的。

  而技能只能处理匹配问题,处理不了匹配背面的实际问题。

  国际是杂乱的。

  5

  提到这儿,或许你只会觉得这项技能或许不太靠谱,可是感触不到什么惊骇。

  下面我要说的,是为什么我一眼就能看到这件事不靠谱,可是仍然从骨子里感到惧怕。

  由于从宽恕宝和微博性别大战背面,我看到了一种或许性的呈现,一种运用技能优势跳过法令来对人做出定性的或许性。

  互联网是有回忆的,咱们只需上网,必定会从网上留下痕迹,或许是好的,或许是坏的。

  而这些回忆,将在技能的开展下被发掘出来。

  咱们每个人都知道人肉查找和网络暴力,但到现在,这些工作虽然恐惧,但往往是针对某一个或许某几个个别,而非集体。

  只需在某些人知名或许犯了公愤的极点情况下,才会呈现全网查找的盛况。

  而现在,跟着技能的前进,完全能够做到针对咱们每一个人,来进行无差别查找。

  你10年前在QQ空间里边发布过的一些脑残相片,你7年前在校内网上说过的一句话激动的言语,你5年前发在微博里的脑残言辞,你3年前在贴吧里问好他人爸爸妈妈,你1年前在朋友圈中针对某些工作的尖刻点评。

  都会被挖出来。

  即便你自身没有留下什么痕迹,可是与你相关的人假如在网上对你做出过什么点评,则这些点评也会被挖出来。

  更重要的是,这悉数信息,仅仅是与你有关,并不能代表真实的你。

  曩昔的你你所表达的悉数,都是有特定环境,特定场景,特定工作,特定心境,乃至特定的诱导。

  可是技能分辩不了这悉数,技能能做的,便是找出你的悉数(疑似)痕迹,然后发布出来。

  而看客们,则只会看到他们想看到的,然后对你指手画脚。

  这会对参加其间的每一个人的人生,形成毁灭性冲击,每一个人的形象,都会坍塌,每一个人。

  由于这个国际上没有完美无瑕的人,谁还没有点黑前史?

  一个奋斗创业事业有成的人,完全或许在初中时偷过同学东西。

  一个为灾区捐赠数亿善款的人,完全或许从前对灾区的磨难施加嘲讽。

  一个世人眼中无比顾家的男明星,完全或许在10年前宣布性别歧视的言辞。

  一个热衷于用技能谋福大众,并硕果累累的长辈,完全或许在年青的时分偷看过女生洗澡。

  可是这些能代表他的现在么?这些能代表他的终身吗?

  人是会变的,乃至每一年都会变,除非违法犯罪实锤,不然不能用曩昔做过的某些工作来对其现在来下结论,这是一个根底知识。

  但在互联网时代,这个知识被窥视他人隐私的愿望和打标签的快感所遮盖。

  咱们每个人都在销毁咱们每个人的隐私。

  6

  咱们应该怎样点评一个人?

  这是一个不存在答案的问题。

  由于咱们永久无法完全公正客观的点评一个人,咱们只能按照自己的片面来对某个人在某件工作的体现作出点评。

  即便要点评,也应该是在他身后,把他终身所做过的功德坏事都罗列出来,惋惜这样就什么热门也都没有了。

  关于同一个人同一件事,跟着社会的开展,观念的更新,又会有新的了解。

  咱们的三观是改变的,衡量事物的规范是改变的。

  这就必定导致咱们关于所有人的点评都不是客观的,而在这种条件下,技能一旦呈现把咱们的悉数都强制露出出来,这带来的便是咱们每个人都会马上面对这种不客观的点评。

  尤其是咱们追逐热烈的天性会让咱们只能一眼看到一件事里最近发作爆点最多的部分。

  然后根据某一件或某几件在世人眼中特别有爆点的工作,来得出结论。

  这个结论是靠不住的。

  为什么浪子回头总是得到掌声,一个一辈子做功德的人临到晚年越轨就会被骂的一文不值?

  说穿了便是人关于他人的点评只会根据最近的一件工作,人没有资历随便给他人的终身下结论。

  为什么各种热门工作总是回转再回转?吃瓜大众总是抱歉咒骂又抱歉?

  由于咱们总是按照当时的头绪来给工作定性,而当新的头绪呈现后,整件工作又将得到一个新的点评。

  本来事物便是这样替换点评的,可是跟着技能呈现,咱们未来将会不断被爆出各种黑前史,咱们每个人都将处在这个轮回中,不断被翻来翻去。

  7

  虽然宽恕宝这个东西自身不靠谱,可是他开了一个坏头,带来了一种全新的形式,技能发掘人的隐私。

  宽恕宝之后,再没有女孩子再敢定心去爱一个人了,谁知道对方会不会给她来一个惊喜?这悉数都会被翻出来,然后被讪笑。

  不论这个是不是那个女孩,也不论那个女孩最初的情况怎样,横竖只需有不雅观视频,先侮辱一通再说。

  然后男女关系会被史无前例的敌对起来,夫妻关系也要从头审视。

  现在是针对女孩子的产品,后边呢?下一个相似的产品是针对谁呢?

  渣男宝?备胎宝?

  吃瓜大众也不必乐祸幸灾,谁都逃不了,现在是她们,后边便是咱们。

  虽然这个产品当时过于粗糙,但不重要,由于开了头就能够。

  我来告知你们接下来会发作什么。

  接下来,会有人去做专门的爬虫,来爬交际媒体的悉数材料,然后梳理出咱们每一个人在网络上留下的痕迹,或许是咱们从前的言辞,图片,声响,视频,也或许是我门了解的人点评咱们或许在他们自己的共享中带出咱们的材料(例如合影)。

  当这些材料被收集齐之后,便是对这些材料的拆分,收拾,打标。

  考虑到这儿面的工作量,应该是机器算法来完成,还有5G技能能够协助算法供给功率,万物互联的时代这些都不会困难。

  我上文说过了,机器算法没有价值观,关于国际的认知也不同于人类,用这种算法来点评人类,公正吗?

  更可怕的是,咱们每个人都将被这种异于常人的算法符号后的内容,会被揭露。

  然后这种符号将被咱们所有人用来点评所有人。

  这类项目或许一开始会企图商业化,付费删材料或许付费查询等,就像每个人的开房记载与征信陈述相同。

  然后这个项目会被曝光,并终究完全开源,人人都能够运用。

  然后失控。

  咱们的悉数信息都被史无前例的串联到一同,咱们每个人都要承受每一个人的审视,一点点瑕疵都不能有。

  咱们不能犯任何过错,不能有任何心境过激的表达,咱们乃至不敢有任何品德瑕疵,由于会被技能打标处理,然后挂出来被人所有人随意点评。

  不要想着自己能置身事外,技能是针对所有人的。

  个人隐私从未如此重要,也从未如此无力。

  宽恕宝自己的创造者都知道拼命维护自己的隐私,在他张狂损害所有人隐私的条件下,其他人竟然还在喝彩。

  真的是。

  可笑又可悲。

本帖子中包括更多资源

您需求 登录 才干够下载或检查,没有帐号?当即注册

x
您需求登录后才干够回帖 登录 | 当即注册

本版积分规矩




|小黑屋|大参阅 |

GMT+8, 2019-6-25 11:24 , Processed in 0.157860 second(s), 17 queries .

   

Powered by 大参阅 X3.4 © 2011-2017 china-dinosaurpark.com 广告QQ:

  

快速回复 回来顶部 回来列表