从“衤果耳卯”到藏头诗,又污又烧脑,拿什么对付你,文本垃圾!

看点 作者:七牛云 2016-10-17 07:32:01

X 次元口袋

把数据的场景做深做透,真正帮助用户缩短从想法到产品的距离,是七牛一直以来的使命。从 2011 年至今,围绕数据管理打造场景化 PaaS ,我们已经服务了超过五十万家客户,承载了超过 2000 亿张图片,10 亿小时视频。对互联网开发者来说,一站式在线数据管理一定要包含针对海量数据的零运维、高可用、高性能的数据处理服务,以便轻松应对图片、音视频及其他各类数据的实时、异步处理场景。目前,七牛提供的数据处理服务已经日处理数近百亿次,除了提供基础数据处理,还基于容器技术打造了易扩展、易部署、高自由度的自定义数据处理接入平台,与七牛数据处理服务无缝兼容使用,形成围绕数据展开的富媒体生态体系。 「X 次元口袋」就是介绍这些富媒体数据处理服务的一档栏目。
%e5%b1%8f%e5%b9%95%e5%bf%ab%e7%85%a7-2016-10-17-%e4%b8%8b%e5%8d%882-34-14 随着移动互联网技术的日渐发展,垂直社区、社交平台、短视频应用、直播等互联网产品蓬勃发展,各种 PGC、UGC 也呈爆炸式增长,各种网友神回复让你不得不感慨高手在民间,但海量 UGC 中也夹杂着各种违规垃圾信息:新闻评论微商广告、金融社区中的诈骗信息、美女直播时的露骨评论、体育直播中的地域黑都非常影响用户体验。因为触及政策法规,这些垃圾信息更成为了这些互联网产品的心头大患。面对越来越多样化的垃圾信息,如果只靠管理员人工审核和用户举报已经无法满足海量内容的审核需求,这时候就需要通过技术手段来做自动化运营,然而自主研发反垃圾应用对技术实力和数据积累的要求极高,专业的智能反垃圾云服务应运而生。那X次元口袋又有什么神器可以应对呢?  

文本反垃圾原理

对文本垃圾,常规的审核方法是关键词识别和算法规则,算法规则也叫规则引擎,主要就是表达式的集合,这种方式识别准确率会提高很多。但垃圾内容升级进化速度太快,复杂字符重组、特殊符号等让常规审核方法也束手无策。简单的裸聊二字,在垃圾内容里有有非常多的演变: %e5%b1%8f%e5%b9%95%e5%bf%ab%e7%85%a7-2016-10-17-%e4%b8%8b%e5%8d%882-42-59 文本反垃圾技术除了要识别出垃圾文本,另一方面不能还把正常内容也判定成垃圾信息,举个比较污的例子: 我们说的「口交」一词通过常规审核肯定是认定为垃圾内容,但当它出现在「港口交通」、「串口交接线」这样的语境里却是正常内容,很容易造成误判。 感觉以后都无法直面「港口交通」了呢。 %e5%b1%8f%e5%b9%95%e5%bf%ab%e7%85%a7-2016-10-17-%e4%b8%8b%e5%8d%882-44-02 那如何避免或降低这种复杂语义下的垃圾文本呢?这时候我们就要依托语义分析来处理辨别。语义分析是依托深度学习技术和大数据技术,机器从亿级垃圾特征库中提取和不断添加新特征,通过反复学习更有用特征,来达到对复杂语义钟垃圾内容的精确判定。通过这两项关键技术,目前七牛平台上的易盾文本反垃圾的准确率可以达到 99.6%。  

七牛云文本反垃圾能力

七牛云联合网易易盾、达观数据把文本反垃圾技术加入到 X 次元口袋,帮助用户优雅地对抗文本垃圾。
  • 99.6% 拦截率,十万分之一误判率
  • 内容安全平均检测时间<100 ms
  • 根据用户行为特征提供个性化内容安全功能
  • 对变种垃圾的极速适应能力
 

应用场景

在新闻、社交、论坛、博客、小说等 UGC 产品中的应用都需要用到文本反垃圾,无论是跟帖评论还是用户 ID、个性签名,只要有 UGC 的地方,就有垃圾信息产生。不良信息影响用户体验,不利于产品健康发展。七牛云平台上的文本反垃圾服务基于海量特征库、信誉库,针对社交类产品的垃圾信息特点,采用社交广告特征匹配、色情信息模型匹配、暴恐信息特征匹配、信誉库匹配等手段,对垃圾信息加以过滤。 通过使用七牛平台的文本反垃圾,无需将存储在云端的文本下载到本地、经过文本反垃圾后再上传到云端供用户访问,浪费带宽资源。七牛直接将文本反垃圾等接入数据处理平台,可以让用户直接一站式完成从存储、反垃圾处理到分发的过程。 有了文本反垃圾盾牌的保护,你只需要负责产品的运营和开发,不用担心被垃圾文本污染,安心成为众多互联网产品中的「一股清流」。 %e5%b1%8f%e5%b9%95%e5%bf%ab%e7%85%a7-2016-10-17-%e4%b8%8b%e5%8d%882-33-15

 

开启七牛文本反垃圾三步走,以网易易盾的文本反垃圾服务为例
%e5%b1%8f%e5%b9%95%e5%bf%ab%e7%85%a7-2016-10-17-%e4%b8%8b%e5%8d%882-33-23

第一步:点击开启使用,开启服务

%e5%b1%8f%e5%b9%95%e5%bf%ab%e7%85%a7-2016-10-17-%e4%b8%8b%e5%8d%882-33-41

第二步:在七牛的对象存储 bucket 中 获取您想要检测文本(txt 格式)的 URL

%e5%b1%8f%e5%b9%95%e5%bf%ab%e7%85%a7-2016-10-17-%e4%b8%8b%e5%8d%882-33-50

第三步,在文本 URL 后面加上 commad:?ydtext

返回的结果(已格式化,便于阅读): %e5%b1%8f%e5%b9%95%e5%bf%ab%e7%85%a7-2016-10-17-%e4%b8%8b%e5%8d%882-34-00 点击「阅读原文」去看看 X 次元口袋里还有什么宝贝

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接