安全小课堂145期【如何搭建账号安全的攻防模型 】

百家 作者:京东安全应急响应中心 2019-11-18 09:34:19


讲师简介:吴迪,京东集团信息安全部用户与账号组安全工程师,熟识电商黑灰产行为模式,长期致力于黑灰产行为特征研究及安全/风控模型建模。

 


账号安全攻防基础

账号安全攻防主要是基于账号维度和黑灰产做一些对抗。黑灰产要想从事风险行为套取公司给予消费者的各种优惠、促销返利或窃取正常消费者的资产,首先需要收集大量的可用账号。


黑产的账号来源可以大致分为两类:一类是黑产自己大批量注册并养号生成账号,这一类属于风控问题,即坏人利用坏账号从事风险行为;另一类通过泄露的外部数据,利用撞库、移植木马、钓鱼等方式批量窃取用户账号,这一类属于安全问题,即坏人利用好账号从事风险行为。



所以,我们需要结合安全和风控共同来构建账号的防护体系,以限制黑灰产的活动。



账号防护体系搭建

我认为一个健壮性强的账号防护体系需要具备全面性、层次性和开放性。





  • 全面性

    我们需要在账号生命周期的多环节布防,涉及的链路包括注册、登录、营销、下单、支付等。因为我们很难在其中某一个环节就识别到绝大部分风险,所以采取多点布防,尽可能的使我们对黑灰产行为的识别更加全面。


  • 开放性

    我们认为防护体系要发挥作用并不是只在风控或安全领域闭环就可以,需要使信息或者数据开放给关联的其它部门。例如我们需要从对内的客服系统、对外的舆情系统获取黑样本,在账号防护体系识别并处置后,也会将账号体系的数据再输出给下游的订单和金融风控做共享,最后这些数据也会丰富我们自建的黑库,并且分享给我们案件调查的部门协助做线下的黑产打击工作。


  • 层次性

    基础防护模型就像一张网,识别绝大部分的基础风险。定向防护模型可能像一门大炮,着重保护某类具体的业务场景。应急对抗模型可能像一杆狙击枪,在某些突发的高危事件发生时,锁定具体的黑产团伙进行识别打击。




账号基础防护建模

基础防护模型的建模方法主要可以分为两类:策略类的模型和算法类的模型。

  • 策略类模型

    主要逻辑是在具体的业务场景下做数据分析,设定特定的阈值策略。比如说一个设备短时间内不能连续注册一定数量的账号。策略类的模型产出快速、针对性强,但防护性较低、有一定滞后性。


  • 算法类模型

    主要是机器学习类的算法,有监督和无监督的模型都有同事尝试做过。算法类模型相较策略类模型具有召回率稳定、前瞻性较强的优点,但是迭代较慢、建模成本高。


  1. 无监督的模型

    一般是离线的模型,用前一天的全量数据计算输出结果。一般来说正常用户群体的行为都是较为离散的,服从某种特定的分布。而黑灰产操作大量账号活动,很容易在某些维度数据信息产生聚集,比如黑产的注册手机号、使用ip、设备串号、甚至账号长度和文本组合方式等等会呈现一定的聚集特性,从而被无监督的聚类算法识别出来。


  2. 有监督的模型

    可实时识别,但此类模型需要大量的黑、白样本进行训练,样本量和调试时间都比较高,所以模型建模和迭代成本高。在样本这块,如果缺失训练数据,我们可以人为地生成样本,例如需获取黑样本的登录数据,可以通过踢出一批风险账号的登录态,然后提取它们后续的登录行为来获得。


  • 建模经验分享

    我的同事提到,影响模型效果的因素如下:样本选择(决定性) > 特征提取 > 机器学习模型。样本的选取可能会直接影响模型最终的训练结果,另外在特征提取也比较重要,具体在不同的业务场景取不同度的字段数据、并针对性对某些字段进行处理都是很重要的,如将ip字段转化为归属地或生成一些特定的统计量数据,如账号一段时间成功/失败登录次数等等。反而具体到算法本身对效果影响不是太大,不管是用决策树、随机森林还是其它算法模型对结果影响差异小。


  • 系统建设方面

    关于模型建设系统层面的东西,离线模型一般存在hive里进行一些计算,实时数据输入和输出一般是用的es和mq交互,用logstash写一些实时运算逻辑,缓存数据一般写在es或者redis里。


应急对抗模型建模

应急对抗是我们近两年在一些突发场景推出的。此模型特点就是响应速度特别快,一套成熟的系统上线后,每次更新实时对抗的模型只需花几个小时的时间。应急对抗模型的核心在于有一套快速分析系统、验证系统以及持续模型具有持续跟踪的能力,以此确保模型迭代速度和准确性。





 Q & A


很高兴看到大家和讲师讨论“账号安全”的相关问题,下面我们就关注度较高的几个问题进行解~


Q :  这两个防护模型,哪些场景推荐使用哪个模型?

A: 基础防护模型算是一类普适的防御手段,就像一张网拦截掉了绝大部分异常行为。比如今天换了登录设备或异地登录账号需要短信验证。而应急模型主要在一些突发的场景,我们会针对事件识别具体信息,然后定向追踪和防护。


Q : 黑白样本学习时,是非黑即白的判断?

A: 倾向放入极黑和极白打标样本学习,不建议放进去性质界限模糊的样本。

这样效果比较好。所以上面也提到,样本选择可能是模型训练最重要的模块。




 关注JSRC

获取更多“技术干货”



关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接