网络世界,有人的地方就有流量,有流量的地方就少不了水军。
屡禁不止的网络水军似乎是个老生常谈的问题,而最近歌手尚雯婕的一条微博又把这一群体推到了大众眼前。
“我告诉团队不要再给我买水军了。”她坦诚经纪团队存在通过购买“网络水军”来提升流量的行为。
实际上,“网络水军”这个队伍一直紧跟时代步伐,在屡遭曝光后依旧活跃,甚至,AI“水军”已经上岗。
“AI水军”了解一下?
水军已有近十年的发展历程。
有文章将这个群体描述为:舆论收紧,社交闭合,他们蛰伏;舆论松绑,社交开放,他们狂欢。总之,你见,或者不见,水军就在那里。
只不过随着时代的变换,真人账号的网络水军变得不太“吃香”,另一种靠速度和数量以及成本取胜的机器人账号愈发成为水军界的主流。
但简单的机器程序刷评论,会出现大量重复性的内容、广告,以及回复文不对题,刷表情等极易被反抄袭系统发现是虚假操作,从而封禁账号。
随着人工智能技术的逐渐成熟,“AI水军”开始出现了。
来自极验的情报员郑颖告诉雷锋网宅客频道,这位水军界的“新秀”使用循环神经网络(RNN)进行训练,以网上大量的评论素材做训练素材,用语言模型来预测下一个单词的概率,从而生成新的文本。以这种技术生成的评论并非简单地从已有素材中进行重复,所以能够达到“以假乱真”、“炉火纯青”的地步,不仅可以避免被反抄袭软件检测,同时也能节省人力、财力、物力上的消耗。
具体来说,以刷微信阅读量为例,程序是如何实现的呢?
郑颖表示,网络地下黑市盛传的“微自动化大数据营销系统”的工具,由成排的手机和多台电视显示器构成。每个架子上摆放了几十部千元机,所有手机画面集中在电视上显示。配合专业的“刷单”工具,可以在很短时间内完成成百上千的阅读量。
“网络水军”的作业流程包含技术系统、核心资源和业务系统三个部分。其中,业务系统是对接客户的业务需求;技术系统的核心能力是通过一台手机,模拟出成千上万台看起来真实的手机,然后操作这些模拟的手机执行各种刷单刷量任务。
例如,当你使用一台安卓手机,点击手机里的App, App读取Android操作系统的底层数据,将手机标识数据包括IMEI号、品牌、Wi-Fi等传回App的服务器,告知有一台手机正在激活和使用App,服务器响应并回传应用数据。
而造假技术系统的做法是,改造Android操作系统,将Android操作系统的数据接口截断,把自己生成的数据接口接入系统,做到IMEI号,SIM卡号,电话号码三码合一。
在成功改造Android底层系统的基础上,技术系统分为执行单元、数据库模块、应用模块、调度模块。
执行单元:通过一台手机模拟上几十万到上百万台手机,以华为荣耀的一款手机为例,黑产可以模拟出50万台看起来是真人在用的手机。他们在办公室放几百台手机,一百兆光纤,就能模拟出海量的手机协同工作。
数据库模块:通过机器生成或者通过资源获取需要模拟的手机参数,包括IMEI号、Wi-Fi、IP和手机号。
应用模块:操作脚本,指挥上百万台模拟的手机在目标应用上进行操作不同行为,包括登陆、点赞、阅读、打赏。
调度模块:为了对抗大平台的反欺诈系统,模拟手机的操作必需看起来和真实用户的使用行为接近。因此在操作的时间点——几百万台手机在什么时候开机,什么时候登陆,切换到什么应用——需要由调度模块执行。程序员只需要模拟真人使用行为画时间曲线,调度模块即可自动执行
郑颖告诉雷锋网,通过这样的系统,还可以生成大量的微信号,操作微信号来刷阅读量就轻而易举了。当然这仅是针对微信公众号的一波骚操作,在微博,知乎等平台刷点赞、收藏、阅读量的原理也大同小异,涉及刷评论的操作则有些出入。
产业链规模
这些网络水军到底有多猖狂?
相关数据显示,自2017年5月以来,公安机关已破获“网络水军”违法犯罪案件40余起,查获并关停涉嫌非法炒作的网络账号5000余个,关闭违法违规网站上万个,这些网站涉及的网上恶意炒作信息达数千万条,抓获违法犯罪嫌疑人200余人,涉案金额高达上亿元。
但丧心病狂的水军会就此消停吗?当然不会。
至于屡禁不绝的原因,郑颖归纳成了三点:法制不健全;有利可图;攻防交战。
第一点自不必说,去年6月正式实施的《中华人民共和国网络安全法》起效需要一定的时间。
至于第二点,黑产动机各不相同,但都有一个共同点:就是逐利性。只要有利可图,黑产就不可能消失。
批量购买水军的金主爸爸都抱着什么心态?
1) 薅羊毛,动用大批量账号,刷企业营销活动中的各类奖品;
2) 社区论坛中常见的垃圾广告,垃圾评论。(贴吧出现爆吧的情况,除了人为攻击外,多为大批量水军账号进行的垃圾灌水。)
3) 公关行为,正是由于水军账号(马甲号)隐蔽性强这一特点,正面公关利用其刷数据(阅读量、点击量、评论量、点赞量等数据指标),完成KPI。黑公关则通过大批量账号,进行恶意评论,引导舆论导向,攻击对手 。
而第三点,所谓道高一尺魔高一丈,流量与风控,人性与欲望,企业与黑产的攻防大战是一个持续性的过程。
目前,各大平台主要是从预防的角度降低水军的规模,比如通过在注册登录入口部署更为安全的验证,以及逐步落实手机号实名制。在预防层采取一些行动后,再通过IP、设备等传统网络特征的统计分析发现一些异常进行鉴别,然后标记进入黑名单,最后通过不断积累的黑名单库来鉴别出水军。
可惜的是,目前水军通过机器和真人操作等各种手段形成了非常成熟的机制,靠简单的预防或者黑名单机制是很难有效反制的。
在郑颖看来,水军最大的特点在于有组织有预谋,这些账号存在明显的团伙攻击模式,因此从团伙发现的角度能够更精准更有效的找到这些水军。
由于团伙攻击时的数据是天然存在极大关联,利用图数据库构建水军操作的行为关联,通过图计算就能够找到隐藏的欺诈模式。更进一步的,结合卷积神经网络能够更深层学习的特点,可以在图结构上运用图卷积技术来对水军的团伙模式自动学习自动识别,从而最大程度上反制水军。
看你七十二变
大波水军背后可能站着无数台机器,但对普通用户来说,肉眼却很难辨识出AI水军。
有业内的研究人员曾对600个用户进行过调查,调查显示这些虚假的评论不仅能逃过人的法眼,而且还被用户认为“有用”,表明虚假评论已经可以对人类造成影响。
仅仅看评论是无法识别出AI水军的,不过你也可以尝试从以下几个维度去识别水军账号:
一是这类账号往往无原创或原创率极低,账号表现出极强的“小号”特征;
二是参与热点讨论“只评论”“不转发”;
三是短时间内出现大量口径高度一致的评论;
四是账号头像、粉丝量、关注数等数据存疑。
尽管上文所述的AI水军似乎来势汹汹,但在郑颖看来,目前国内水军大多扔属于机器行为,AI水军还未大范围使用,噱头大于事实。
“AI水军一词是《在线点评系统中的自动众包攻击和防御》赵燕斌等芝加哥大学研究人员发布的一篇论文中提出的。他们的研究说明,人工智能可以被用来生成复杂的点评信息,这些虚假的点评不仅机器无法检测出来,就连人类读者也分辨不出来。”郑颖对雷锋网说道。
当然,据说海外AI已经投入到水军工作中,所以国内……