AI是如何揪出“网络钓鱼者”的?

许多苹果手机用户都反映自己的iMessage经常收到垃圾信息。但是由于苹果公司一贯尊重用户的隐私,它在服务器端无权也从来不读取用户发送的信息内容,当然就更谈不上通过内容对用户信息进行监管过滤了。

v2-4724e39fa66ba6fa226ee3f12f437dd0_b

目前,iMessage所收到的垃圾信息多数是广告,诱导用户下载App。但还有一类比打广告更恶劣的垃圾信息叫“网络钓鱼”。

科技公司一般是如何应对“网络钓鱼”的?

相信大多数人对“网络钓鱼”应该都不陌生,这是一种在线身份盗取方式,攻击者主要通过欺骗性的电子邮件和伪造的Web站点引诱收信人给出敏感信息。目前,“网络钓鱼”的危害遍及全球,数据显示,2017年,中国、澳大利亚、巴西是最容易受到攻击的区域(高达25%~28%的计算机用户成为攻击目标)。

“网络钓鱼”的方式日新月异,各大科技公司,尤其是社交类公司都深受其害。那么这些科技公司到底是如何对付“网络钓鱼”的呢?我们依据不同的特点将这些对付“网络钓鱼”的方法分为如下3类。

1. 检测行为数据,和手机交互的是“你”还是“它”?

你所知道的是,从你注册Facebook的那天起,Facebook会源源不断地向你提供你所感兴趣的各类社会、生活动态。但是你所不知道的是,在后台,Facebook会利用手机的陀螺仪来探测用户细微的动作,甚至包括用户的呼吸、点击屏幕的速度、握持手机的角度。这听上去似乎很恐怖,但是在我们看来,Facebook的做法别有深意。

实际上,每天在Facebook上进行注册的用户不仅有人类,还有千万台试图侵入社交网络的机器人。这些机器人入侵者会通过传播虚假信息导致混乱并损害Facebook的公众信任。面对这样的攻击,Facebook当然有责任对自己的社交网络进行人为管制。但是与数量惊人的机器人交战,仅依靠人工的力量是完全不够的。

所以,不管是探测用户呼吸,还是探测用户握持手机的角度,都是Facebook为了判断屏幕前的用户到底是不是真人所必须收集的行为数据。尽管现在网络犯罪分子所培养的机器人正在不断尝试模仿人类与终端设备的交互,例如故意放慢机器人注册信息时的处理速度,使之尽量与人类的正常速度接近,以此来逃避检测识别,但一个虚拟的机器人始终无法复制一个真实的人类与设备进行的物理交互。

2. 检测账户活动,太过频繁的活动很有可能是机器人

检测行为数据并不是阻止机器人侵入网络世界的唯一途径。与Facebook合作的初创公司Unbotify还能依靠AI根据一台设备上的账户数量及创建后的账户活动来判断账户是否为机器人账户。

这个方法的逻辑很简单,举个例子:如果一个账户在注册之后的1分钟内发送超过100个好友请求,那么你相信这是一个正常账户吗?肯定不是。但这样的账户在社交网络中可能很多,因此我们需要依靠AI来对其进行标记。另外,如果一个“网络钓鱼者”想要让更多的“鱼儿”上钩,那么他必须多下诱饵,因此,他通常会在一个设备上登录多个“僵尸”账户。但是通常,正常用户的做法是在多个设备上登录同一个账户。很明显,这两者的账户活动情况是大相径庭的。那么,AI也可以根据这些异常的账户活动检测出该账户是否为机器人账户。

3. 检测内容本身,关键词汇暴露“钓鱼”的本质

YouTube的评论区,是“钓鱼”内容最泛滥的地方之一。因此,YouTube也使用了AI管理检查工具来筛选恶意评论,以对付网上大量的“钓鱼”信息。

YouTube的AI是如何做的?它与前面两类检测方式大有不同,因为它是基于自然语言识别的一种检测方式。YouTube的AI的主要工作是自动标记那些它判定为会危害对话内容的评论,但它并不会自己做决定将其删除,而是让人类做最后的决定。

在AI的前期训练过程中,人类标记对它来说很重要,因为这是建立AI是非观念最关键的一步。可是“网络钓鱼者”却会在论坛上输入一些负面信息,同时告诉AI这些信息没有问题,以此来达到欺骗AI的目的。而这将会对AI检测内容的有效性形成极大的威胁,因为只要数据足够多,AI就很容易开始颠倒黑白。

我们可以看到AI拥有各种各样识别恶意“钓鱼”信息的能力。但是反过来,我们也会发现“网络钓鱼者”其实同样也可以利用AI,让AI通过学习来预测科技公司的识别方式,从而达到把其被检测出的可能性降到最低的目的。

因此,这场对抗赛的输赢其实还没定。

我们必须认识到,尽管像AI这样的技术将是未来网络防御的基石,但是同时犯罪分子也在盯着这些技术。

1. 对抗性样本,AI尚未解决的软肋

很多网站甄别“网络钓鱼”功能的实现首先是建立在AI的深度学习功能建模之上的,然后通过模型是否匹配来对良性和恶意信息进行区分和识别。问题在于,AI系统建模所依赖的神经网络是可以被对抗样本所干扰的。

也就是说,恶意软件只需要改变部分代码,生成对抗样本,就能够引起监测系统的识别错误。通常情况下,黑客只要改动不到1%的字节,就能躲过监测,而这并不会影响其入侵功能。所以,实际上,大家并没有深刻地认识到机器学习的弱点,其实包括深度学习在内的很多机器学习模型,普遍都已经表现出了对于对抗样本的脆弱性,而目前科研界对此并无合适的解决之道。

2. AI精准检测的背面是AI精准犯罪

另外,AI还有助于犯罪分子更了解自己的目标对象。2016年,《美国黑帽》的一篇论文提出一种名叫SNAP_R的递归神经网络。这种神经网络是被动态地从目标用户的时间轴上的帖子中提取出来的,积累了大量的用户个人数据。因此,它可以在Twitter上对特定的用户推送“钓鱼贴”,提高“网络钓鱼”的“上钩率”和“精准度”。

近年来,鱼叉式“网络钓鱼”已经成为攻击者越来越有针对性的攻击方式之一。罪犯通过收集信息对网络中的关键人物进行个性化处理并组织有说服力的电子邮件,引诱用户提供机密信息。有61%的受访者透露自己曾经历过鱼叉式“网络钓鱼”。而对比手动鱼叉式“网络钓鱼”和“批量钓鱼”,使用了AI的先进式鱼叉“网络钓鱼”开始变得更加有效。

3. 区分人机的图灵测试实际没有用吗?

在登录网站的时候,用户一般会通过回答问题来证明自己是人类,而不是虚拟化的攻击者,最典型的例子就是“12306”订票系统那种找图操作。这其实是图灵测试的一种。但是近年来,黑客利用AI学习图像,使虚拟攻击者对这种问题的破解率接近90%。

2012年,有研究人员尝试用机器学习来进行安全攻击,在破解简单验证码的实验中,深度学习的精确度就已达到92%。2017年,一项名为“我是机器人”研究也揭示了如何破解最新语义图像验证码的方法。这也就意味着黑客可以进行未经授权的访问,并借助进入访问状态的账户进行更大规模“钓鱼”信息的散播。

因此,就目前的视觉身份验证方式来说,身份验证还有待改进,加强对虚拟攻击者的防范,或许引入声纹识别是更好的办法。

AI的对抗战还在继续,AI如何更有效地防范虚拟攻击者的攻击,各界还在研究当中,例如,可以通过完善概率模型,对“网络钓鱼”进行反预测、反侦察;增加分类器数量,提升分类器质量,使“网络钓鱼”难以规避监测。

与其苛责AI给犯罪分子提供了更便捷的犯罪手段,不如想办法在这场黑白对抗战中取胜,毕竟犯罪分子已经把AI当作武器,我们也没理由把自己创造出来的“利器”拱手让人。

未经允许不得转载:涨姿势 » AI是如何揪出“网络钓鱼者”的?

赞 (0) 打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏