大数据行业整顿:你家**被抓了吗?

快刀财经

2019-12-06

+ 关注

数据资源在变多、资产价值在变大、获取的成本也随之增长,这场行业整顿之后,大数据下半场会是什么样子?

作者:Marvin Ncc

来源:快刀财经(ID:kuaidaocaijing)

出国,被捕,裁员,查封,大数据行业面临有史以来*大的风波。

9月,摩羯科技、新颜科技、公信宝等公司相关人员相继被调查;

10月,51***等多家涉及大数据业务的服务商被查。11月,朋友圈里有人开起大数据公司的玩笑,你家**被抓了吗?

继今年315晚会爆出一些大数据公司窥探、交易用户数据后,这个行业的整顿就没停过。有媒体报道,不少金融机构合作的数据接口,70%都被切断了;剩下的30%也不稳定,一周换三次。

2019年,可谓大数据行业的地震。

01大数据下,你如何被****

大数据领域,一直是资本市场的心头好。

IT桔子数据显示,2011年至今,这个领域的**数量逐年增长。特别是2014年,风口形成,其成功**数量环比增长了176.47%。

人们*先接触到大数据的厉害,应该是从电商平台开始。那几年,为了凸显电商的数据能力,媒体会说:天猫、京东比用户自己更懂自己。

这些电商平台会根据你在全网的搜索轨迹,向你**好物。

但这些**其实并没有那么准确。比如,一个不喝酒的媒体人要写一篇酒企的稿子,在搜索大量资料后,你的浏览器广告、知乎广告甚至天猫京东的**,都是这个牌子的酒。

令人尴尬的是,那段时间很多媒体人在写****。

2015年之后,更为精细化的数据运营开展起来。一位业内人士表示,当年自己所在公司,机器学习的**度从30%增长到了80%。利用大数据实现的一些**营销也开始露面,比如2年前高露洁的心形牙膏。那个时候,网友突然开始比心,“爱心”“爱你的形状”等关键词在电商平台也被热搜。

仅凭这个关键数据,让高露洁这款牙膏几个月销9万件,累计评价近3万。

不止于电商平台,全渠道、全媒体的**营销都在崛起。你们无法想象,看电视也能被**营销。一般而言,电视收视率的高峰是12:00和20:00。2018年,周六晚8点在湖南卫视一条15秒的广告就要价40万元。

但如果你碰巧凌晨四五点还在看电视,就会发现,母婴品牌几乎*占了这个时段的广告。有第三方大数据公司统计:母婴家庭的观影峰值与大众不同,集中在4:00-5:50和21:30-0:00。

02他们如何拿到你的数据?

在这个行业,付费是大前提,互联网世界的免费逻辑在这里行不通。TalkingData

CEO崔晓波就曾表示,企业的核心诉求是服务质量和安全性,如果免费,人家会怀疑你是要用他的数据。

这本是一个赚钱的行当。所以总是有不少创企挤得头破血流。只是,越来越多的大数据公司“揭竿而起”,但数据从哪里来。

天猫、京东等电商平台,数据来源于平台内的交易行为;腾讯的社交平台,数据则来源于微信、QQ生态内的用户动作。

没有平台让用户产生UGC内容的第三方数据公司,数据大多来源于厂商合作。比如那家拿到智能电视观影数据的公司,其内部员工表示,他们会直接和电视厂商底层合作,在硬件出厂之前就会植入自己的SDK(软件开发工具包)。

在IoT生态里,几乎每个智能家电硬件中都有这样的SDK以供厂商数据分析,从而反馈市场需求。在偌大的数据池中,一个个用户就是多维标签组成的字串符,任由厂商们拆解分析。

但这是一种零和游戏。全国智能硬件的存量是有限的,要得到更广泛的数据就需要更多的SDK植入。据称,这家公司的设备激活量已经超过存量的一半。

这预示着,新进入者就无法再一次通过硬件合作的方式获取数据。在利益的面前,歪门邪道的东西就出来了。

初级版本是瞒着用户进行数据共享。多年前,大学同学曾报名了一次银行从业资格考试。信息录入交钱结束后,便有一个培训公司的电话打来,他知道这位同学要考试、并知道他将在哪里考试。

问及数据来源,对方曾说是公司与考试办公室建立了合作。只要我们报名,这些数据就会同步到这家培训公司。考试方和培训公司,在用户不知情的情况下用于了商业用途。按理说,这是不太合规的。

但很多人对这方面的信息泄露并没有追究,毕竟带来的骚扰并不多。

高级版本是爬虫。2016年摩羯科技给玖富定制了一个爬虫软件,据说曾爬过100多家同业的数据,包括用户名、密码等。这家公司还设计了一款支付宝爬虫产品,可以帮公司拿到支付宝用户的真实姓名、手机号、收货地址、近一年的购物信息,甚至详细到每笔交易的金额。

不少公司会拿这些技术爬取用户信息,进行销售。《三秦都市报》曾报道,在一个二手商品交易平台上,一份简历的收费标准0.25元,一份判决书低至1毛钱,一篇论文不到1块钱。

而其他个人私密信息,他们会被用于**营销,或是**诈骗。之前,浙江金华警方侦破一起诈骗案,该团伙通过搭建钓鱼类网站收集用户信息,*后通过网站后台,导出上述具有贷款意向的客户**信息,贩卖给诈骗嫌疑人实施诈骗。

据称,这个团伙爬取了190多万条公民信息,受害人涉及全国20多个省份。

*便捷版本是探针。今年315晚会就报道,壁合科技旗下“招财猫”探针盒子能够通过用户手机无限局域网发出的信号,迅速识别出用户手机的MAC地址,转换成IMEI号,再转换成手机号码。

这些探针设备一般被放置在车站、医院、商场等地,只要有人从设备周遭100-200米经过,就会抓取其手机上的信息。据《北京晚报》报道,这些探针还可以获取手机机主的年龄、学历、收入等个人信息,甚至还能查询到手机机主*近是否有找工作、准备婚礼、买房、买车、备孕的计划。

在上述二手交易平台上,还有卖家声称其设备覆盖半径达1000米。获取的数据,还包括用户在不同App上停留的时间。

2019年初,一位广告代理商曾透露,国内某知名企业打算布局电梯广告。在视频广告播放器中,他们就植入了探针技术,通过抓取电梯里乘客的手机信息,进行实时**投放。

但被问及这是否属于违法行为时,对方辩驳到:行业目前都在这么做。 03不合规背后,不只是成本的压力

随着人们对大数据行业暴力获取用户信息的不满,监管部门在今年似乎有了回应。

“出国的出国,被抓的被抓”,这是大数据领域目前的常态。一家大数据公司创始人于建瑞在接受媒体采访时说道,*近各家大数据公司的CEO每天都在朋友圈打卡,其潜台词则是“我没事,我们公司也还好着呢”。

在大量的数据公司裁员中,爬虫部门几乎是全军覆没。大数据风控平台同盾科技是典型案例,9月份其爬虫负责人被查,爬虫部门解散并集体待岗。这些员工被建议不要离开杭州,否则有被抓的风险。

此后,国内大部分数据公司都为自保而解散了爬虫部门。业内人士称,全行业裁掉了近万名爬虫工作人员,行业人员流失率在50%以上。

为什么如此多公司养爬虫团队?成本是关键因素。

以金融领域为例,全行业合规数据来源,基本可以覆盖到75%左右的需求。但通过合规途径获取数据,其成本高了大约60%。

恶意爬虫的公司通过非法途径获取数据并储存,相当于在搬运其他平台的数据资产。长而久之,他们能够以更低的价格向合作方销售数据信息,从而挤占合规企业的份额。2012年以来,这个行业的价格战都在无声地演绎着。

劣币将驱逐良币的交易市场里,需要一只看得见的手。

但在这之前,数据资产化的意识并没有得到广泛的认同,我国也没有针对爬虫提出专门的法律限制或者规范。但《经济学人》曾撰文,一种新的大宗商品正在一个利润丰厚、增长迅猛的行业中酝酿,反垄断监管者也开始着手限制那些有能力控制这种商品的人。

如果是在一个世纪前,这种商品就是石油。而现在,引发巨头们争相*夺的变成了数据。

当数据爬取犹如资源争夺战一般进入白热化后,爬与反爬的对抗赛自然而然的拉开帷幕。

数据资源在变多、资产价值在变大、获取的成本也随之增长,这场行业整顿之后,大数据下半场会是什么样子?有业内人士预测,头部企业存货,中小企业离场。

又是一场规模的战争。

2612阅读 82人喜欢
创业快讯 查看更多精彩内容 打开