智障验证码发展简史

智障验证码发展简史
2022年08月13日 11:43 全是黑科技官号

在网上看到一个细思极恐的漫画:

内容是一个妹子在玩电脑,被一个对话框挡住了,对话框的内容是:“我不是机器人”。

补充一点课外资料,这个对话框是谷歌特殊设计的验证码,跟咱们日常看到的

是一样的。

不过谷歌的验证码很智能,你只要点一下句子前面的框框:

对话框就会运算一秒钟。

然后得出你不是机器人的结论,放你通行。

谷歌这年头都这么敷衍了吗?

网页:你是人吗?

你:是的我是。

网页:好的允许通行。

但诡异的是,漫画中妹子竟然还愣住了,明明点一个对勾的就可以通过,但她就是无法表达自己不是机器人,说明谷歌的验证码还真的有效!

等等,证明自己不是机器人,这不就是AI的终极考验,图灵测试吗!

我一瞬间脑补了邪恶AI化身萌妹子要兴风作浪,而谷歌扛着图灵圣剑,用这个对话框死死挡住邪恶AI的脚步。

可他的同盟,无知的人类们还嘲笑圣剑无用……果然被误解就是英雄的宿命啊!

行吧我承认最近欧美神话看多了……

不过谷歌这个验证码真的可以有效分辨人类和AI,每天能运转上亿次,说是普及性最强的图灵测试也不为过了。

要弄清楚这事儿,得从很久很久以前说起。

在那个冠希还没拿起相机的纯真年代,世界上根本没有验证码一说。

当时有一群无良的黄牛,每天注册无数邮箱,制造大量虚假身份用来诈骗和刷票。

为了遏制这种现象,第一代验证码CAPTCHAs诞生了,全称是用于区分电脑与人类的全自动公开图灵测试。

初代验证码是卡内基梅隆大学的一群专家搞的,跟谷歌没啥关系。

设计也很简单,就是纯数字。

不过这些数字让黑客们再也无法注册大量账号伪造身份,烦的一匹。

后来有一个黑客灵机一动,老爹说要用魔法打败魔法啊!

于是黑客们就搞了一个0~9的数字识别装置,轻易的破除了限制。

这种行为无异于把创造验证码的程序员按在地上“啪啪啪”…………的打脸,根本不能忍。

然后没过多久,验证码就变成了数字+字母……

后来又加入了汉字……

再后来模糊了大小……

最后就变成了12306里变态的图片识别。

虽然我说的简单,但这番进化足足持续了十几年,各种算法高速迭代,是正反程序员反复博弈,掉了无数头发的结果。

每当正义的程序员搞出一套“验证码”题库后,反派程序员总能用迅雷不急百度云的速度将之破解。

都是误入代码歧途的可怜人,相煎何太急啊。

就在所有人以为验证码会无限制的进化下去的时候,谷歌用绿油油的刀乐收购了验证码的研发团队,开了一个让所有大呼变态的脑洞!

反派程序员的识别算法这么给力,不用白不用啊!

然后谷歌就随便研发了一个文字识别算法,用这个算法检测全世界所有的实体书,将其变成电子版。

但是,算法不能跟真人比,而书本由于印刷、使用、污染等原因,总会出现大量的无法被识别的词语。

然后谷歌程序员就把这个词语上传到CAPTCHAs数据库,让反派程序员去研究怎么识别。

为了防止反派程序员糊弄自己,谷歌的验证码总是一次出现数个单词,其中大多数是谷歌自己识别完的,只有1个是需要让反派识别的。

这样反派也分不清哪些需要识别,只能一次性识别所有。

为了丰富人类知识库(给反派找活干),谷歌还联系了哈佛大学(1600万本书)、牛津大学(650万本书)、斯坦福大学、康奈尔大学、纽约公共图书馆(51万本书)等等世界一流图书馆参与项目。

在反派程序员的努力下,谷歌图书馆目前是全球最大的电子图书馆,拥有近3000万册图书。

果然犯罪才是第一生产力啊……

谷歌还很鸡贼的把图书馆的标语设置成:stop spam read books

(想要诈骗,不如读书),以感谢犯罪分子为谷歌图书馆做出的贡献。

自从这个计划推出后,程序员们就再也没有因为黑客的识别算法太强而掉头发。

反而总担心黑客的算法进化的太慢,耽误了项目进度,毕竟谷歌验证码丑的出名,真是难为黑客们了。

我搜了一下类似的职位国内也有,大概是一千个码七八块钱的样子,正常人识别一个验证码怎么也得5秒左右,这工资跟血汗工厂无异。

照理说这就该是验证法算法的顶峰了,毕竟黑客方已经被欺负的开始使用真人了。

然而谷歌表示真人怎么了,真人我们也拦!

这就出现了我们开头的验证码:NO CAPTCHA reCAPTCHA,无验证码的验证码。

当你点击验证码的对勾时,网页就会向谷歌发送你的IP地址、国家、时间戳、你的鼠标移动轨迹、你之前访问的页面是什么、你在每个页面停留了多久……

谷歌风险引擎会综合计算这些数据,并得出你是不是机器人的判断。

这就把打码操作提升到了跟淘宝刷单一个难度,打码员不光要输入验证码,还要模拟正常用户的操作方式,难度大大提高,基本算是消灭了这个产业。

目前NO CAPTCHA reCAPTCHA基本是最先进的验证码系统,真人毫无阻碍,黑产寸步难行。

遗憾的是NO CAPTCHA reCAPTCHA对算力要求较高,所以目前只在谷歌部分网站中使用。

希望有朝一日12306也能用上这种技术,让我们这些知识储备少的宅男也能买到火车票。

好,今天没卵用的科普到此结束。

上图就当课后作业了,咱们评论区见。

财经自媒体联盟更多自媒体作者

新浪首页 语音播报 相关新闻 返回顶部