揭秘 reCAPTCHA 的宿世今身 你填的验证码实际上是在帮 Google 打工

AllbetGaming 1个月前 (12-11) 新闻动态 700 1

本篇来自协作媒体 PingWest,INSIDE 经受权转载。

近来,笔者发现,上网碰见的考证码「越来越有内容」了。

为了证实自身是个真人,除要输出方框里的笔墨,还得做从上面图中挑出路牌、挑出门牌这类连连看似的高等责任。

在好几年以后,笔者倏忽觉醒:我这那里是在填考证码,基础就是在帮别人标注数据,练习AI 啊!

不论是给图片分类:

给路牌勾边:

照样把路牌圈出来:

以为都是在教无人驾驶的 AI 认路啊……

着实,「输考证码就是在为 AI 打工」并不是想得太多。事实上,我们在输考证码时责任劳动的汗青,从古早的笔墨考证码时期就最先了。

每次输出考证码,你都在责任劳动

本日,运用最广的考证码体系就是 reCAPTCHA (Completely Automated Public Turing Test To Tell Computers and Humans Apart,辨别人机的全主动图灵测试体系)了。

这家现在已被 Google 收买的公司,负担了天下上大局部网路的人机考证事变(上文给出的三个例子均来自 reCAPTCHA)。

2007 年,reCAPTCHA 的创办人之一,卡内基梅隆大学传授路易斯·冯·安(Luis von Ahn)想到:「若是人类与机械各有善于,能不能应用考证码体系,让人类和机械配合处置惩罚题目呢?」

事先,一个亟待处置惩罚的题目就是,怎样把不计其数的人类纸本文籍数位化。

想要数位化笔墨,一种要领是手工输出。这类要领费时辛苦,还轻易涌现输出毛病。另外一种要领是先扫描笔墨,再连系光学笔墨辨识手艺输出笔墨。听起来很美,但有些年代久远或自身质量就差的笔墨扫描出来后着实是太糊了……

以至于电脑识别出来的文本漏洞百出,基础没法看。

为了处置惩罚文本数位化的题目,2007 年,路易斯推出了新的考证码体系 reCAPTCHA。

在 reCAPTCHA 考证码体系里,一个考证码会由两局部组成。

第一局部和传统考证码一样,是主动天生并且经由变形处置惩罚的笔墨,用来磨练你是不是是真人。而第二局部,则是从没法辨识的文本中截取出来的词。

若是用户准确输出前半局部,那末 reCAPTCHA 就会假定用户输出的后半局部也是准确的,然后把输出效果返回至 reCAPTCHA 的专案主机。

效果返回主机后,主机还会把这个效果再派发给多个用户举行交织考证,以确保没有不小心或有意输错单字的状况。

也就是说,真正有用的人机测试在考证码的前半段曾经完成,而后半段,就是用户在责任为人类文明做孝敬了。

那末,reCAPTCHA 究竟做了多大孝敬呢?

2007 年推出之初,reCAPTCHA 天天都能资助输出3000 万个字元。2008年,这个数字飙升到了6000 万个。大略统计,在本日,环球天天都有 2 亿个字元透过 reCAPTCHA 登入,相当于人类15 万小时的事变量。

也就是说,一小我要不吃不喝不睡两年半,才能完成 reCAPTCHA 一天的事变量。

到本日为止, reCAPTCHA 曾经输出了从 1851 年至今的一切《 *** 》,总计1300 万篇文章。除《 *** 》外,reCAPTCHA 还数位化了凌驾2500 万本书,而环球的图书数目约为1.3 亿本。

路易斯在接收媒体 The Hustle 采访时如许评价 reCAPTCHA :「 我制造了一个体系,以十秒为单元,数百万小时为增量,来应用天下上最珍贵的资本:人的大脑。 」

考证码的宿世此生

考证码降生之初,是为了处置惩罚一个迥殊着实的题目。

网路天下这么大,你怎样晓得网路另外一端是不是是一条狗(或许机械人)?

在公然版面上,刷评机械人能够用大批渣滓批评和告白吞没真人用户留下的有价值的资讯;在金融交易平台,剧本程式能够靠一直实验来暴力破解暗码;在票务网站,我敢说你就算有十只手也抢不外主动刷票的黄牛……

怎样肯定网路请求是真人发送的,成了珍爱网路情况和珍爱用户平安的大题目。

2002 年,恰是路易斯·冯·安提出了一种切实可行的处置惩罚方案,能分清网路劈面「是人是狗」。

固然电脑的盘算和剖析才能比人类强很多,然则事先的电脑连「一只小猫在奔驰」这类难不倒三岁大人的图都认不出来。基于这类头脑,路易斯和其他同事协作开发了reCAPTCHA 的祖宗 CAPTCHA,也就是我们俗称的考证码。

初代考证码一样平常是一些经由歪曲变形的笔墨或数字。人类能够辨识这些笔墨(只管偶然也会涌现连人类也认不出的状况),但机械难以明白字符的寄义。

以后,考证码也阅历了算数题、选择题,以至植入告白等范例的迭代,但都掩饰不住一个最致命的题目:固然 CAPTCHA 曾经是绝对比较好的处置惩罚方案,但也并不是铁板一块。

透过撞库、人工智慧辨识图象、以至是把考证码图片返回给人工再批量输出等要领,骇客们总能为渣滓剧本找到可乘之机。

更别提有些考证码,连真人都搞不定!

正因为考证码浪费时间,辨识难度大,并且关于实行某些特定行动(好比爬数据或做学术研究)的人类用户而言极不友爱,考证码临时在「网路时期最烦人发现」榜上首屈一指。

因而, reCAPTCHA 推出了更科学的考证体系。这类考证体系会检测用户的客户端情况,追踪用户的鼠标和键盘操纵轨迹,提高了机械人的模仿本钱。用户再也不需要苦哈哈地辨识歪七扭八的笔墨,只需要在对话框里点击「我不是机械人」,就可以经由过程考证。

既然曾经有了更简朴、更平安的替换体式格局,那末随同我们生长的考证码,是不是是也该被镌汰了呢?这类能处置惩罚大题目标「大众外包形式」,又是不是公道呢?

考证码是在盘剥我们吗?

若是 reCAPTCHA 的故事到这里就完毕了,每小我都邑很高兴。但事变没那末简朴。

2009 年,Google 以约莫 2780 万美元的价钱收买了reCAPTCHA,并最先应用 reCAPTCHA 资助标注数据。

正如前文所说,reCAPTCHA 的前半段是在考证你是不是是真人,后半段就是真工资考证码打工阶段了。

2012 年,Google 最先把 Google 街景中难以辨识的门牌和路牌到场考证码,请用户协助标注。

除标注门牌路牌,让用户协助给数据库分类也是罕见的情势之一。好比下图这类请用户「挑出一切路牌的图片」的考证码。

现在,Google AI 曾经能准确识别路牌上的笔墨和数字,准确度和人眼势均力敌。

当有一天我们终究用上Google 的主动驾驶手艺,依托 AI 来辨识路牌和路灯时,这背地不能不说没有上千万用户无偿标注的苦劳。

关于此目标,Google 也其实不避忌。在 reCAPTCHA 官网上,Google 公然说清楚明了reCAPTCHA 集世人之力标注数据、练习 AI 的「大众外包」形式。

然则仍有用户对这一点以为不满。

一名以为考证码不道德的 Reddit 用户写到:「这就彷佛让几百万小我每工资你干5 秒钟活儿,然后一分钱都不给一样,这适宜吗?」

Allbet Gaming声明:该文看法仅代表作者自己,与本平台无关。转载请注明: 揭秘 reCAPTCHA 的宿世今身 你填的验证码实际上是在帮 Google 打工

网友评论

  • (*)

最新评论

站点信息

  • 文章总数:2344
  • 页面总数:1
  • 分类总数:14
  • 标签总数:1217
  • 评论总数:2770
  • 浏览总数:659010