酷应用

威胁情报之剑指落地

百家作者：绿盟科技 2018-01-10 09:50:49

威胁情报（Threat Intelligence）的市场教育已进行了许多年，众多公众号对其定义、应用场景和价值已做了详尽的介绍，绿盟君在此不再赘述，仅试图从一个企业安全运营者角度理解威胁情报。

何为威胁情报

各个安全情报厂商的情报平台白皮书是安全运营者应用威胁情报前必读之物，而词云图则是把握中心思想的有效工具。因而绿盟君从各个白皮书中的文字生成如下词云图，可以看到：

一级大词：信息

二级大词：情报、关联、域名、IP和文件

三级大词：查询、恶意和威胁

看图说话构造中心思想：

威胁情报平台提供这样一种查询服务，提供与恶意（攻击者）和（安全）威胁相关的情报，主要是域名、IP和文件以及关联关系等信息。

图：情报词云

现状

威胁情报这个名字诞生时间无从考证了，各大厂商、机构甚至个人纷纷推出自己的情报数据及平台，来输出自有情报和各个情报数据源的数据的融合结果。

图：CriticalStack情报融合平台

情报标准也有众多机构进行推进（STIX, MAEC, Cybox, OpenIOC等等），光从STIX标准来看，诞生已有三年，现已推进到2.0版本，格式也已从臃肿的XML转换到更为实用、好解析的JSON。

图：STIX的commit状况

针对情报标准，绿盟君将其划分为六大逻辑分层：对象描述层、行为关系层、事件层、战术层、敌对描述层和应急响应层。

从变化来看，主要有三大变化：

通俗化，如原来军事名词TTP（Tactics, Techniques, and Procedures）替换为更通俗易懂的Attack Pattern，字段规划也更为简单清晰；
具化，如战术层中专门提出了最为通用的攻击手段Malware，对象描述层中添加了Identity等对象，方便描述组织/个人；
实战化，如应急响应层中添加了Sighting等对象，使用者更容易根据情报和事件的关联关系执行不同的响应流程。

图：情报标准逻辑分层

一个（潜在）行业标准的演进往往可看出行业应用者关注点的变化，从一开始的“有数据”的阶段（能查、能看、满足溯源需求），到“用数据”的阶段，威胁情报在信息安全行业的应用已到了关注实战/实时应用和响应效果的阶段。

威胁情报种类

对于威胁情报的分类，业界也有众多定义，最为广泛传播是Forrester定义的运营情报、战术情报和战略情报。绿盟君在此并不介绍大而全的分类标准，仅从实用性角度和自身经验出发，介绍运营情报里面最为常用的四种情报分类：基础情报、威胁对象情报、IOC情报和事件情报。

基础情报

一言以概之，基础情报就是这个网络空间对象（IP/域名/邮箱/SSL证书/文件）是啥，谁拥有它，谁使用它。具体到基础数据展示则包含开放端口/服务/指纹、WHOIS/ASN、PDNS、地理位置信息等，弥补安全运营者对公网资产的的感知缺口。

图：情报平台中的基础情报样例

威胁对象情报

所谓威胁对象情报则是提供和威胁相关的对象信息（IP/域名/邮箱/SSL证书/文件），可理解为提供“犯罪分子”的“犯罪记录”（监控历史），“相关家庭关系”（相关域名，相关漏洞，相关文件等），“社会信用”（威胁评分，黑名单命中状况，恶意标记）等信息。

图：情报平台中的威胁对象情报

IOC情报

IOC(Indicator of compromise)意为威胁指示器，通常指的是在检测或取证中，具有高置信度的威胁对象或特征信息。企业侧的流量检测或主机检测设备，通过机读格式（OpenIOC，STIX或私有格式）消费该类情报。

图：企业侧平台的IOC情报

事件情报

事件情报则是综合各种情报信息，结合相关事件描述，告诉安全运营者外部威胁概况和安全事件详情，进而让安全运营者对当前热点安全事件进行针对性防护。

图：情报平台中的事件情报

情报冲突与时效性

时效性

时效性强是情报的重要特点。从绿盟君之前对多个开源情报的收集分析中尝试一窥，75%的恶意IP情报持续时间在5天内，平均每天6668个新增IP IOC(部分外部采集源)。

开源情报存在两个问题：置信度问题和时效性问题。置信度问题下一小节详述，先说时效性问题。许多开源情报往往并没有标注持续时间，仅标记生成时间。很多都是每天一个列表，应用者只知道开源情报平台什么时候发现该恶意对象，并不知道该对象是否持续作恶。情报的域名拥有者、IP使用者和其上的业务，随着时间的推移，可能产生变化，黑IP会变成白IP。过时或失真的情报会在实际使用中给应急处置带来大量的垃圾告警，给安全管理人员造成困扰。

因而，光靠采集外部情报进行威胁情报平台建设往往有着数据有效性上的质疑。拥有盒子产品的情报平台厂商可以尝试从基础流量和自有告警数据中，结合衰减算法，对情报数据的时效性进行定义。

图：每天新增的新IP恶意情报数量

多源情报冲突

还是相同的开源情报数据，可以看到57%的恶意IP情报被标记多个类型或被多个情报源标记。三人成虎的方法往往成为业界的基本做法，即多个来源说一个IP是恶意的，它就更恶意（恶意置信度或威胁指数上升），但其实这里有个现实的逻辑陷阱：由于无从考证开源情报源的基础数据来源，所以无法得知各个情报源之间是否有相互“抄袭”的状况。如果单纯三人成虎，则很有可能产生循环论证的后果。因而开源情报和自有设备流量/告警进行综合比对，是一个可信情报平台必不可少的数据分析流程。

图：多源多标签标记

同时，开源情报不仅有黑情报，还有白IP情报，业界往往把不同维度上访问量高的IP和域名作为可信的白名单，例如思科的Umbrella Popularity List和Alexa的Top1m List。如果将域名对应的Alexa排名赋予其指向的IP，然后和黑名单IP关联比较，可以看出，即使强如Alexa排名前一百的IP，冲突数量也有数百。在绿盟君的经验中，企业外发流量往往70%是访问Alexa排名前一百万的。这就意味着如果拿开源情报在企业实时流量中匹配会产生大量的误报。Piz0n在Wo~ 反情报也提到了黑产刷Alexa排名的情况。下图纵轴是冲突数量，横轴的Alexa的排名区间。

图：Alexa排名区间与冲突

绿盟君同时选取一段时间的开源情报和思科的Umbrella Popularity List进行交叉比对，同样发现许多冲突的状况。其实，拿Alexa的名单和思科的名单作为白名单，其中有个偷换概念的行为，即将“多人（IP）访问”替换成了“可信”，然而统计学的“广泛”的概念并不意味着安全可信，只能说是类似“你如果中招了，你不是唯一一个”的心里安慰。下图纵轴是冲突数量，横轴是不同的情报源。

图：不同情报源黑名单和思科的Umbrella Popularity List名单对比

因此，情报的融合和置信度计算是一个比较庞大的命题，且并不可能成为一个纯数学和证据计算的自动化过程，而是整个威胁情报团队持续运营的过程。安全自动化里面的“脏”秘密也提到安全自动化情报的作用是“指数级提升防御强度，还能减轻安全团队负担，让他们解放出来，持续关注自身优先事务”。对于可信情报的输出，外部情报、样本文件行为和自有设备告警往往只能成为触发融合验证工作流的引子，算法和自动化流程做的只能做到基础的排序学习和推荐功能，最终保障人工验证的效率和情报应用覆盖度。强大而靠谱的情报运营人员和安全研究人员才是可信情报的“定海神针”。

总结

本文介绍了威胁情报对于企业安全运营者的意义，相关种类，分享了情报体系建设中的关键问题和我们尝试的解决方案，希望能为读者带来直观的认识，引发落地应用的思考。下一篇将介绍威胁情报在企业侧的落地应用和实战经验。