大数据行业遭“洗牌”,网站遇到爬虫该怎么办?

百家 作者:知道创宇 2019-09-27 09:55:50

凉爽的九月进入尾声,但对大数据行业来说,这个月可过得不太平静。


上旬开始,多家数据服务公司遭查,不少企业收紧或停止了数据服务。先是知名大数据服务公司魔蝎科技相关负责人被警方带走,随即行业头部平台同盾科技被传出解散整个爬虫部门,聚信立被曝暂停对外提供用户授权的运营商爬取业务,新颜科技、公信宝、天翼征信等相继被纳入调查行列。



数据服务公司主要通过爬虫技术为客户提供相关数据产品据《IT时报》报道,其记者在调查时拿到的报价表显示,2元就能买到某主流购物平台用户的各种信息,包括个人基本信息、收货地址、收藏信息及订单信息等等......



爬虫最早源于搜索引擎,是一种按照一定的规则,自动从互联网上抓取信息的程序。爬虫技术本身无罪,有罪的是爬取了不被允许爬取、未授权的数据并进行了交易。


恶意爬取数据不仅是对数据进行窃取,造成用户信息泄露、滥用和隐私安全等问题,对企业的安全和正常运营也将带来威胁。


数据被爬虫,也爬走了用户信任

近年来,用户信息遭泄露后在暗网被出售、信息泄露造成财产损失一类新闻时有报道,营销短信、电话、邮件的不断骚扰让越来越多人意识到信息安全的重要性。



据前段时间发布的《2019全国网民网络安全感满意度调查统计报告》,37.4%的网民认为网络个人信息泄露非常多和比较多,58.75%的公众网民表示曾遇到个人信息侵犯。


人们对信息安全的意识觉醒意味着,数据保护不仅是企业安全防御建设和符合法律法规的需求,更是获得用户信任和青睐的必要条件


反爬虫压力大 效果却不能保证

当爬虫启动,将会在短时间内持续向目标网站或应用系统发送大量机器流量,这些流量模拟成真实用户请求在应用层攻击网站、APP或各种API接口,对服务器带宽和性能造成极大压力,导致正常用户的访问或使用受影响,甚至不可用。


更可怕的是,一些漏洞、敏感信息也可能因此被暴露,极大地增加了网站或应用系统的安全风险




传统反爬虫一般有两种方式:人工分析日志,对特征明显的异常访问IP进行拉黑限制单个IP访问频率。这两种方式虽然能应对特征明显的机器流量,但面对一些高级爬虫便无法有效拦截。此外,在访问量较大的情况下,人工分析日志既费时费力不能起到很好的效果


因此,对企业而言,采用专业反爬虫设备或服务更为经济有效,很多厂商应运推出反爬虫设备、机器流量清洗设备等产品或服务然而实际效果却不能完全保证。


原因在于,这类产品在实现原理上仍是限制IP访问频率、IP加UA(User-Agent)组合识别等方式,在防御方式上并没有长足进步。同时,其硬件式的设备形态也决定了其在性能上依然无法有效应对大量机器流量


数据盾——全方位有效防御恶意爬虫

针对这些不足和缺陷,知道创宇云安全推出了专项机器流量云端管控服务——数据盾,依托云防御领域的多年经验和技术积累,研发多项机器流量管控策略功能,以创宇盾大数据平台和ZoomEye网络空间搜索引擎及SeeBug漏洞社区的海量基础数据为依托,知道创宇云安全的云端加速Web安全防护超大防御带宽及数百个节点及机房为支撑,通过“零部署”、“零维护”、“云防御”的模式,有效防御恶意爬虫,保障业务运营不受影响



  • 全方位管控

从流量特征、用户执行环节、系统业务、访问行为、威胁源等多角度对机器流量进行全方位的管控
  • 多种治理措施并行

根据业务系统访问情况进行多项治理措施,有效抵御绝大部分恶意机器流量

  • 量身定制反爬策略

依托云防御安全大数据平台的海量对抗样本,从更加宏观的角度分析网站数据,为客户量身定制专业的反爬策略

  • 有效抵御超大量恶意机器流量

数据盾依托知道创云安全的海量资源,可实现资源动态调配而进行弹性防御。单日拦截能力超过50亿次,在业务系统面临超大机器流量访问时仍然保障系统持续可用
  • 无需人工操作、零维护

只需将域名接入知道创宇云安全,2分钟即可快速完成,无需任何网站配置修改、无需购买硬件、更无需变更现有系统架构,启用过程完全不影响业务系统正常访问


安全体系架构


网络爬虫不仅对企业数据和网站、系统的安全造成威胁,更将影响业务正常运营,造成用户流失。因此,采用专业有效的反爬虫工具或服务,才能真正保护数据安全和信息资产,保障业务正常运行。


*END*


点击“阅读原文”,获取数据盾 

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接