技术分享 | 无监督算法在OPPO黑产团伙挖掘中的实践
2022年7月29日,OPPO联合看雪举办线上沙龙“后疫情时代下对安全风控的思考与碰撞”。
本文整理自议题《无监督算法在OPPO黑产团伙挖掘中的实践》,演讲嘉宾为OPPO高级安全工程师 王亮
近年来,人工智能,图算法,大数据技术,以及机器学习平台建设快速发展,推动业务风控迈向智能化时代。以无监督算法为依托,我们构建了全场景的黑产团伙挖掘模型,识别精准且覆盖率高,增加了黑产团伙攻击成本,同时增强了业务风险防控能力。本次文章介绍的主题是:无监督算法在OPPO黑产团伙挖掘中的实践。
黑产团伙在OPPO在线服务中部分作恶场景:
场景1:在OPPO在线服务相关APP里,通过签到、打卡及其它各种任务薅积分,然后在积分商城做积分兑换、在OPPO商城做积分抵扣购物甚至0元购;
场景2:在各业务场景的营销活动中,恶意攻击,获取非法利益;
场景3:在软件商店、游戏中心、浏览器、主题商店等业务场景中,伪造虚假曝光、点击、下载、阅读、评论等行为,进行恶意ASO、恶意引流等;
场景4:在广告场景进行虚假的广告曝光、点击等作弊行为,以获取非法收益。
传统风控中,我们会利用黑产手机号、ip等名单,特点是覆盖率低,应用的业务场景受限;或是策略算法(专家规则),它的特点是准确性高,可解释性强,但覆盖率低,只能识别明显有问题的黑产;规则设计相对简单,无法应对不断变化的欺诈手段,且阈值易被识破和绕过。还有就是有监督算法,其特点是覆盖率较高,但可解释性较弱;严重依赖样本标注.
首先我们来了解一下DBSCAN算法几个核心定义:
1.E,MinPts定义:E描述了某一样本的邻域距离阈值,MinPts描述了某一样本的距离为E的邻域中样本个数的阈值
2.E-邻域:对于xj∈D(D是样本集),D中与xj距离不大于E的子样本集(子样本集的个数记为|Ne(xj)|)
3.核心对象:对于xj∈D,如果|Ne(xj)|>=MinPts,则xj是核心对象
4.密度直达:如果xi位于xj的E-邻域中,且xj是核心对象,则称xi由xj密度直达
5.密度可达:对xi和xj,若存在样本序列p1,p2,...,pn,其中p1=xi,pn=xj且pi+1由pi密度直达,则称xj与xi密度可达
6.密度相连:对xi和xj,若存在xk使得xi和xj均由xk密度可达,则称xi和xj密度相连
下图给出了上述概念的直观显示:
DBSCAN和K-means算法对比如下:
聚类算法 | DBSCAN | K-means |
聚类类型 | 密度聚类 | 原型聚类 |
是否需要指定类簇数量 | 不需要 | 需要 |
是否可以发现任意形状的簇 | 可以 | 只能处理球形簇 |
是否对异常值敏感 | 不敏感 | 敏感 |
下图可以看出,由于K-means算法只能发现球形簇,而DBSCAN算法可以处发现任意形状的簇,因此在黑产团伙挖掘场景中,DBSCAN算法比K-MEANS算法更合适。
DBSCAN黑产团伙挖掘系统框架:
从下图可以看出,对比传统策略算法和有监督算法,DBSCAN算法在黑产识别覆盖率上有明显提升,同时DBSCAN算法能保证非常高的黑产团伙识别准确率。但DBSCAN算法也存在一些缺点,当样本集较大时,聚类收敛时间较长,同时调试参数比较复杂,主要需要对距离阈值 E,邻域样本数阈值 MinPts 进行联合调参,不同的参数组合对最后的聚类效果有较大影响。
模块度是评估一个社区网络划分好坏的度量方法,其物理含义是社区内节点的连边数与随机情况下的边数之差
Louvian算法工作步骤可以分为如下几步:
1.初始时将每个顶点当作一个社区,社区个数与顶点个数相同
2.依次将每个顶点与之相邻顶点合并在一起,计算它们最大的模块度增益是否大于0,如果大于0,就将该结点放入模块度增益最大的相邻结点所在社区
3.迭代第二步,直至算法稳定,即所有顶点所属社区不再变化
4.将各个社区所有节点压缩成为一个结点,社区内点的权重转化为新结点环的权重,社区间权重转化为新结点边的权重
5.重复步骤1-3,直至算法稳定
Louvain算法和DBSCAN算法对比:
DBSCAN | Louvain | |
时间复杂度 | 高 | 低 |
资源占用 | 多 | 少 |
运行时间 | 长 | 短 |
Angel是由腾讯开源的高性能计算平台,可以无缝衔接Spark,提高图算法的挖掘效率,对于Fast Unfolding算法,在10亿节点和百亿边的数据量下,PSGraph框架性能是大约是GraphX框架的3倍
基于Spark on angel的louvain算法黑产团伙挖掘系统框架如下图所示:
基于Spark on angel的Louvain和DBSCAN黑产团伙挖掘效果对比可以看出,Louvain(Spark on angel)算法对比DBSCAN算法运行效率提升明显,同时覆盖率略有提升,但Louvain(Spark on angel)算法也存在一些缺点,不如没有充分利用节点本身的特征,且只能离线挖掘黑产团伙,不能实时拦截黑产团伙
后期计划使用DGL和图数据库搭建实时GNN在线推理服务。相比Louvain等传统图挖掘算法,GNN不仅能聚合关系网络特征,而且能充分利用节点本身特征;相比离线挖掘算法,实时在线推理服务能对黑产作恶行为进行实时拦截,减少业务损失。
双十一保卫战活动正在火热进行中,戳次条即可获取更多活动详情
最新动态
活动正式开启|OSRC邀您加入双11安全保卫战
PendingIntent重定向:一种针对安卓系统和流行App的通用提权方法(上)
PendingIntent重定向:一种针对安卓系统和流行App的通用提权方法(下)
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
随时掌握互联网精彩
- 1 澳门是伟大祖国的一方宝地 7918086
- 2 央视曝光未成年人绕开防沉迷只需4元 7979342
- 3 上海地铁又现致歉信专用章 7819458
- 4 2024 向上的中国 7718954
- 5 张雨绮 为了讨大家喜欢才穿成这样 7607927
- 6 星巴克大罢工 7577744
- 7 特朗普赞成TikTok继续在美国运营 7479244
- 8 大S老公具俊晔站C位跳女团舞 7325980
- 9 男子暴瘦110斤后被质疑戴人皮面具 7211616
- 10 老人花2万买保健床垫后再不愿去医院 7199431