盗版资源变少?这个比人还“眼尖”的 NLP 模型立下汗马功劳

百家 作者:CSDN 2020-03-13 07:08:31
作者 | 阿里文娱高级开发工程师千起
出品 | AI科技大本营(ID:rgznai100)

背景

随着5G时代来临,新媒体行业快速发展,盗版传播平台多样化、形式多样化,版权方难以通过有限的人力实现最大限度的维权。根据MUSO报告显示2017年盗版网站访问量达到3000亿次。人工智能逐渐成熟,盗版监测覆盖难、查找难的问题将迎刃而解。
那么如何运行将人工智能技术运用到盗版监测中?我们先从一个例子开始:下面是一个普通用户查找盗版资源的过程:
上面的例子中有两个操作:搜索查找 + 结果筛选。其中“结果筛选”是用户阅读搜索结果,并确认当前结果是否包含盗版内容。 这一过程在人工智能领域叫识别,因为用户阅读的是文字,所以我们叫它:自然语言识别。
普通用户可以很容易的判断出“哪些搜索结果包含盗版内容?”,那么机器是怎样模拟阅搜索结果呢?下面我们分析3个典型的盗版搜索例子。

盗版搜索结果分析

1、 用户搜索盗版影片示例

 2、 “判断难点“分析

1)  归类“判断难点”

(1) 名称近似类:系列类影片、名称包含类影片;

(2) 主题不相关类:结果是资讯、新闻、彩票、广告等信息;

(3) 同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息;

(4) 变换类: 影片名称缩写、人工故意添加的干扰信息。

2) 自然语言识别中怎样处理这几种情况?

(1) 名称近似类: 

答:回想一下人是怎样处理的?如果一个人是它知道所有影片信息,那么他就知道两个影片是不一样的。这类问题在自然语言中属于知识图谱(Knowledge Graph,简写:KG)的范畴。
(2) 主题不相关类:结果是资讯、新闻、彩票、广告等等信息;
答:普通人因为有一些背景知识,是知道哪些是属于新闻类,哪些属于广告类。由于这些分类是有限的,所以自然语言中通常使用文本分类(Text classification)。常见的文本分类有二分类和多分类(输出大于2种分类结果)。
(3) 同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息;
答:识别同名需要有两步。第一步提取句子中的影片实体名称,第二步辨别句子描述的是哪个领域的影片。这里需要自然语言领域中的 实体识别 (Named-entity recognition,简写:NER)+ 文本分类。通俗讲,实体识别是找中句子中的影片,而文本分类是区分这个句子说的是哪个领域的影片。 
(4) 变换类: 影片名称缩写、人工故意添加的干扰信息。
答:这类问题和问题1)一样,这类问题在自然语言中属于知识图谱(Knowledge Graph,简写:KG)的范畴。模型需要背景知识,知道影片有哪些缩写。

自然语言识别如何识别盗版呢?

在自然语言处理领域通过有三部分。分别为:文本预处理、特征计算、模型训练/预测。
  • 文本预处理:清洗样本,并将文本格式、符号转化为统一的形式;
  • 特征计算: 将文本转化为数字。这一步可以使用特征工程,或者词袋(oneHot)、文本嵌入(word embedding)模型、深度Transformer模型;
  • 模型训练/预测:选择合适的模型算法,训练模型。模型方面可以使用决策树类型(例如:XGBoost、LightGBM、Deep Forest等等),也可以使用深度网络(例如:LSTM、BERT、Transformer-XL等等)。当然也可以使用多个模型(一个模型的输出,作为一个模型的输入)。

 那么模型是什么样子的?

下面是从样本输入到模型产出,落地一个模型需要做的步骤。

总结


这篇文章中提到的方法已经落地到实际工程中,准确率可以达到超越人工盗版结果判断水平。目前自然语言仍然有非常强的业务领域特点,不同业务领域会遇到不同的行业特定问题,而且前沿的模型提供原生的英文支持,所以在工程落地场景中,需要结合实际业务场景不断的优化模型。
推荐阅读 
微信iOS版内测暗黑模式;涉嫌恶意举报,社交平台Soul运营合伙人被批捕;AWS推出基于Linux开源操作系统 | 极客头条
现代编程语言大 PK,2020 年开发者关心的七大编程语言!

如何用CNN玩转AlphaGo版的五子棋?

曾经摸鱼的程序员,如今在武汉自愿加班

区块链和大数据一起能否开启数据完整性的新纪元?

以太坊2.0、分片、DAG、链下状态通道……概述区块链可扩展性的解决方案!

你点的每一个在看,我认真当成了喜欢

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接