众所周知,马云近些年来,左口一个大数据,右口一个大数据,他常说:“未来,计算是生产力,数据将是生产资料。”
事实上,这些年确实涌现除了不少专门吃“数据饭”的公司,可惜有的没有真正理解“马爸爸”思想的核心要义,干起了违法越界的勾当。
原以为用所谓的“爬虫”服务,能爬出通往财富的路,没想到这条路竟然是通往监狱的。
前段时间,就有网友爆料称,杭州魔蝎科技公司涉嫌侵犯公民个人信息,100多名员工被杭州警方抓获,同时冻结了大量的涉案资金和涉案工具。
以上爆料,随后经21世纪经济报道记者向警方查证为实。有知情人士介绍,魔蝎科技被查的原因,可能是爬虫催收类业务出现了问题。
魔蝎科技成立于2016年,总部位于杭州,在北京、广州、深圳设有分支机构,是国内专业的大数据智能风控服务供应商,核心成员来自阿里、腾讯等知名企业。不过,该公司在2017年,就疑似被曝出开发使用恶意爬虫。
他们还开发了支付宝爬虫、微信爬虫等产品。
比如,支付宝爬虫只需要用支付宝扫描一下登录“二维码”,后台就可爬取用户的真实姓名、手机号、收货地址、近一年的购物信息,甚至详细到每笔交易的金额。
而微信爬虫则可以获取用户联系人、关注的公众号、自己是群主的群、微信交易记录、绑定的手机号码等信息。
当然,如果需要,他们也能够爬运营商的用户信息,手机号码、机主姓名,甚至通话记录等敏感信息。
根据某监测机构提供的爬虫流量目标行业分布情况,我们可以看出,运营商以4.91%“被爬”占比排得比较靠前。更有意思的是,这个占比竟然跟政府机构是一样的。
细细一想,占比虽是巧合,但运营商数据的重要性不亚于政府机构掌握数据的重要性,却是无疑的。
排在更前面的出行、社交、电商、O2O等公司的数据,虽然也很重要,但是这些所谓的“大数据”公司,爬取数据的目的是为了精准营销,往往是提供给平台上的商家。
平台商家得到这些数据后,精准地往用户的账号里推送相关信息。而政府机构、运营企业中的掌握的大量数据,往往是用户的极其隐私而又重要的个人信息。
在“爬虫界”曾经最火的产品,是通话记录(运营商数据)爬取。
很多公司,之前爬取通讯录,可用于用户失联后,可以找他们的亲朋好友,通过亲朋好友又可以再次找到他。但通讯录的伪造成本较低,有时候可能会失效。
现在流行的是爬通话记录的数据,只要用户提供手机号码和服务码,就可登陆各大运营商的系统爬取。
以下是某公司爬取数据后,提供给客户的“个人用户报告”极为细致:包括通话号码、次数、时长等信息。
不难想象,运营商保存这些信息一旦泄露,后果是很严重的。一方面是因为这些用户信息的极端重要性,另一方面也因为搜罗这些信息的往往都不是什么“善类”。
被电话频繁精准骚扰、甚至被电话诈骗,往往跟公民个人信息泄露有着密切的关系。这些信息的泄露,很多都是被一些所谓的“大数据”公司通过“爬虫服务”爬取的。
不过,近年来,从轰动一时的数据堂员工售卖公民个人信息案,到今年上半年招聘信息创业公司巧达科技人去楼空,再到如今魔蝎科技被查,看样子大数据的“饭”并不好吃。
据21世纪经济报道消息,2019年9月6日23时起,爬界“大哥”聚信立将暂停对外提供用户授权的运营商爬虫服务。这是悬崖勒马的正面典型,但是还有多少从事这些服务的公司还在“迷途不知返”就不得而知了。
当然,爬虫并无“原罪”,它有光明的一面。
类似百度、谷歌这样的搜索引擎,其核心逻辑,也是爬虫——爬到用户要的关键词,再展现搜索结果。
“让有价值的东西,更好地呈现,这是爬虫最大的功劳”。
技术往往都是中立的,“爬虫”也一样。爬虫技术好不好,关键在人,而非技。
技术好控制,而管控人却比较难。对于人而言,除了道德的约束,法律是管控爬虫不乱爬的有力武器。
所以,《网络安全法》明文规定:未经授权爬取用户手机通讯录超过50条记录,公司法人最高可获刑3年。希望这样严苛的法律条文,能够管好爬虫乱爬的“手”。
当然,站在运营商的角度看,我们不能把信息保护的责任寄托到他人的高尚道德上,也不能指望严苛的法律能禁绝非法的爬虫。
在技术上,我们要不断研发“反爬”策略,在技术层面筑起“安全的屏障”;同时,我们在员工思想层面做好教育工作,防止接触用户信息的人员,变成更可怕的“爬虫”。