从样本处理到决策模型,如何用NLP识别盗版资源?
作者 | 阿里文娱高级开发工程师千起
出品 | AI科技大本营(ID:rgznai100)
背景
随着5G时代来临,新媒体行业快速发展,盗版传播平台多样化、形式多样化,版权方难以通过有限的人力实现最大限度的维权。根据MUSO报告显示2017年盗版网站访问量达到3000亿次。人工智能逐渐成熟,盗版监测覆盖难、查找难的问题将迎刃而解。
那么如何运行将人工智能技术运用到盗版监测中?我们先从一个例子开始:下面是一个普通用户查找盗版资源的过程:
上面的例子中有两个操作:搜索查找 + 结果筛选。其中“结果筛选”是用户阅读搜索结果,并确认当前结果是否包含盗版内容。 这一过程在人工智能领域叫识别,因为用户阅读的是文字,所以我们叫它:自然语言识别。
普通用户可以很容易的判断出“哪些搜索结果包含盗版内容?”,那么机器是怎样模拟阅搜索结果呢?下面我们分析3个典型的盗版搜索例子。
盗版搜索结果分析
1、 用户搜索盗版影片示例
2、 “判断难点“分析
1) 归类“判断难点”
(1) 名称近似类:系列类影片、名称包含类影片;
(2) 主题不相关类:结果是资讯、新闻、彩票、广告等信息;
(3) 同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息;
(4) 变换类: 影片名称缩写、人工故意添加的干扰信息。
2) 自然语言识别中怎样处理这几种情况?
(1) 名称近似类:
答:回想一下人是怎样处理的?如果一个人是它知道所有影片信息,那么他就知道两个影片是不一样的。这类问题在自然语言中属于知识图谱(Knowledge Graph,简写:KG)的范畴。
(2) 主题不相关类:结果是资讯、新闻、彩票、广告等等信息;
答:普通人因为有一些背景知识,是知道哪些是属于新闻类,哪些属于广告类。由于这些分类是有限的,所以自然语言中通常使用文本分类(Text classification)。常见的文本分类有二分类和多分类(输出大于2种分类结果)。
(3) 同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息;
答:识别同名需要有两步。第一步提取句子中的影片实体名称,第二步辨别句子描述的是哪个领域的影片。这里需要自然语言领域中的 实体识别 (Named-entity recognition,简写:NER)+ 文本分类。通俗讲,实体识别是找中句子中的影片,而文本分类是区分这个句子说的是哪个领域的影片。
(4) 变换类: 影片名称缩写、人工故意添加的干扰信息。
答:这类问题和问题1)一样,这类问题在自然语言中属于知识图谱(Knowledge Graph,简写:KG)的范畴。模型需要背景知识,知道影片有哪些缩写。
自然语言识别如何识别盗版呢?
在自然语言处理领域通过有三部分。分别为:文本预处理、特征计算、模型训练/预测。
文本预处理:清洗样本,并将文本格式、符号转化为统一的形式;
特征计算: 将文本转化为数字。这一步可以使用特征工程,或者词袋(oneHot)、文本嵌入(word embedding)模型、深度Transformer模型;
模型训练/预测:选择合适的模型算法,训练模型。模型方面可以使用决策树类型(例如:XGBoost、LightGBM、Deep Forest等等),也可以使用深度网络(例如:LSTM、BERT、Transformer-XL等等)。当然也可以使用多个模型(一个模型的输出,作为一个模型的输入)。
那么模型是什么样子的?
下面是从样本输入到模型产出,落地一个模型需要做的步骤。
总结
这篇文章中提到的方法已经落地到实际工程中,准确率可以达到超越人工盗版结果判断水平。目前自然语言仍然有非常强的业务领域特点,不同业务领域会遇到不同的行业特定问题,而且前沿的模型提供原生的英文支持,所以在工程落地场景中,需要结合实际业务场景不断的优化模型。
【end】
◆
原力计划
◆
《原力计划【第二季】- 学习力挑战》正式开始!即日起至 3月21日,千万流量支持原创作者!更有专属【勋章】等你来挑战
推荐阅读
简单粗暴理解与实现机器学习之逻辑回归:逻辑回归介绍、应用场景、原理、损失以及优化
用于小型图形挖掘研究的瑞士军刀:空手道俱乐部的图表学习Python库
全方位解析阿里云核心技术竞争力,CSDN 独家在线峰会来了!
留德武汉程序员在疫区:凌晨下载数据,网速影响工作
Libra新编程语言 :Move 的所有权模型灵感来源原来是它……
云原生的漏洞与威胁有哪些?云原生安全性如何?这里有你想知道的一切!
你点的每个“在看”,我都认真当成了AI
相关文章:

利用.htaccess绑定子域名到子目录(亲测万网可用)
http://www.xmgho.com/archives/783.html 利用.htaccess绑定域名到子目录,前提你的空间服务器必须支持apache的rewrite功能,只有这样才能使用.htaccess。如果你的空间是Linux服务器 一般默认都开启了的。绑定域名 登陆域名管理台(如DNSPod) 把…
Memcached内存池分析
针对Memcacged1.4.15代码 1.完整slabs内存池图 这是我画的memcached的slabs内存池对象关系图: 2.内存池数据结构 typedef struct {unsigned int size; /* 每个item的大小 */unsigned int perslab; /* 每个page中包含多少个item */void *slots; …
Google重磅发布开源库TFQ,快速建立量子机器学习模型
整理 | 弯月编辑 | 郭芮出品 | AI科技大本营(ID:rgznai100)近日,Google 与滑铁卢大学、大众汽车等联合发布 TensorFlow Quantum(TFQ),一个可快速建立量子机器学习模型原型的开源库。TFQ提供了必…

.net3.5的安装与修复
<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />.net3.5的安装与修复.net3.5正常安装的顺序是先安装windows IIS组件,然后再安装.net3.5安装包,而.net3.5安装包的下载地址可以去百度和google上搜一下&…
jquery easy ui 简单字段选择搜索实现
写的比较粗糙,望见谅。 要实现的效果: 代码如下: <!DOCTYPE html> <html> <head><meta charset"UTF-8"><title>jQuery EasyUI Application Demo</title><link rel"stylesheet" t…
训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……...
作者 | Lionbridge AI译者 | 天道酬勤 责编 | 徐威龙封图| CSDN│下载于视觉中国出品 | AI科技大本营(ID:rgznai100)在机器学习领域,训练数据准备是最重要且最耗时的任务之一。实际上,许多数据科学家声称数据科学的很…

JavaScript Switch 语句
avaScript Switch 语句如果希望选择执行若干代码块中的一个,你可以使用 switch 语句:语法:switch(n){case 1:执行代码块 1breakcase 2:执行代码块 2breakdefault:如果n即不是1也不是2,则执行此代码}工作原理:switch 后…

参观Speedy Cloud 有感
上周老男孩的所有学生参观了Speedy Cloud ,在这里我首先感谢Speedy Cloud的邀请和服务,我们每一个同学的收获都很大,不管是在以后的发展,还是现在的学习,都给了我很大的推动作用,帮助我去了解计算机的发展的…

C语言文件操作函数大全
unix中一切皆文件,所以文件操作至关重要! clearerr(清除文件流的错误旗标) 相关函数 feof 表头文件 #include<stdio.h> 定义函数 void clearerr(FILE * stream); 函数说明 clearerr()清除参数stre…
Python进阶之递归函数的用法及其示例
作者 | 程序员adny责编 | 徐威龙封图| CSDN│下载于视觉中国出品 | AI科技大本营(ID:rgznai100)本篇文章主要介绍了Python进阶之递归函数的用法及其示例,现在分享给大家,也给大家做个参考。一起来看看吧。递归是指函数…

万科的千亿修炼
一位知名企业家说过,改革开放30年只是完成了市场经济的启蒙和启动,在未来的10至20年,中国将出现一批千亿级的企业。此次金融危机在为经济带来震荡的同时,也为我们提供了一个极佳的视角和机会,审视中国千亿企业的过去、…

nginx 开发一个简单的 HTTP 模块
2019独角兽企业重金招聘Python工程师标准>>> 1. 下载 Nginx http://nginx.org/ 2. 目录结构 $ tree -L 2 . ├── mytest_module │ ├── config │ └── ngx_http_mytest_module.c └── nginx ... 3. config # 在 configure 执行时使用 ngx_addon_nam…

Jquery 之Ajax方法$.get() 的运用,扩展链接模型的天地
如前文说道的那个表现层和业务层的链接模型,从上篇博文(http://www.cnblogs.com/AflutterFeather/archive/2010/01/07/1641315.html)中可以看到:我们通过WebService提供的方法来获取服务端的返回值。 如果不采用WebService&#…

B树建立与遍历
# include <stdio.h> # include <stdlib.h># include "btrees.h"/* 给一个结点分配空间 */ struct btnode * allocateNode(struct btnode *ptr){int i,max;ptr (struct btnode *)malloc(sizeof(struct btnode));if(!ptr){printf("allocated error!…
2.2版本发布!TensorFlow推出开发者技能证书
作者 | 弯月出品 | AI科技大本营(ID:rgznai100)受 COVID-19 的影响,今年的 TensorFlow 开发者大会于2020年3月12日(北京时间)凌晨以线上直播的方式与全球开发者见面。Google决定开源TensorFlow是为了让每个开发人员和研…

X3D中Profile如何翻译
问题在哪 在计算机术语中,Profile其实是很难用中文对应的词汇来翻译的一个单词。 在X3D国际标准中,就出现了Profile。它把软件产品对X3D的功能实现范围和相应支持程度做了预先的约定,分为Core Profile、Interchange Profile、Interactive Pro…
腾讯提结合ACNet进行细粒度分类,效果达到最新SOTA | CVPR 2020
作者 | VincentLee来源 | 晓飞的算法工程笔记细粒度分类(Fine-Grained Visual Categorization, FGVC)是图片分类的一个分支,由于类别间的相似性非常大,一般人比较难区分,所以是个很有研究意义的领域。受神经树研究的启发,论文设计…

asp.net mvc view中支持多个实体强类型小技巧
在MVC的开发过程中,在一个View里面可能需要调用多个对象,可是传统的方法是一次只能压入一个对象到View里面,这点并不像Castle框架的MVC好用,在Castle里面,可以很方便的把对象压入到前台Html里面,然后通过Ve…

使用指针做函数返回值
使用指针做函数返回值 1、当使用指针做为函数的返回值时,主函数处的char *p;将获得调用函数char *pf;的值,即一个地址值,如oxAE72。此时需要我们注意的是该地址值所指向的空间是否存在(即已向操作系统声明注册,不会被释放&#x…

Android Studio快捷键每日一练(2)
原文地址:http://www.developerphil.com/android-studio-tips-of-the-day-roundup-2/ 12、复制行 苹果:CmdD Windows:CtrlD 顾名思义,就是拷贝当前行并粘贴在下一行,整个过程无需和剪贴板交互。这个功能配合行移动快…
C语言字符char和整型int的关系
C语言并无char类型,就是用Int表示char的!char占一个字节,在C语言所有类型中最小。 char *占4字节(32位),8字节(64位) 在C语言中,实际上字符型数据在内存中是以二进制形式…
PyTorch关键算法疑似侵权,Facebook被起诉
作者 | 神经星星来源 | HyperAI超神经(ID:HyperAI)近期,一纸诉讼书引起社区的广泛讨论。该诉讼由创业公司 Neural Magic 发起,指控 Facebook 发布到 GitHub 的神经网络软件,使用了他们开发的核心算法。而泄露机密的人&…

大数据高效复制的处理案例分析总结
一个老客户提出这样的需求,希望将SQLServer中的某个表的数据快速复制到SQLite数据库里面以便进行定期的备份处理,数据表的记录大概有50多万条记录,表有100个字段左右,除了希望能够快速做好外,效率是第一位的࿰…

memset函数使用详解
1.void *memset(void *s,int c,size_t n) 总的作用:将已开辟内存空间 s 的首 n 个字节的值设为值 c。 2.例子 #include void main(){ char *s"Golden Global View"; clrscr(); memset(s,G,6); printf("%s",s); getchar(); ret…
节后招人平均工资9000上热搜,为什么有些人去哪里都值钱?
我”荒“了。这是很多中国AI企业的现状。《人民日报》报道称,我国AI的人才缺口超过500万,供求比例仅为1:10!很多企业已经开始面临“人才荒”的窘境,外媒爆料说,中国企业已经不断在硅谷挖人了!目…

关于定于如何弄的漂亮点
</div></div><div class"panel"><h5 οnclickshowhidediv("sidebar_rss");>订阅博客</h5><div class"panel-content" id"sidebar_rss" style"display: block"><ul class"list&…

Happy New Year 2016
大学之前的时间都是按天来过的,期盼着一天一天地快快长大,期盼着过年穿新衣,阖家团聚,其乐融融; 大学的时间都是按周来过的,根据每周的课表周而复始,虽然单调但也是自由自在,简单充实…

HashTable原理与实现
memcached中hashtable部分的源码,hash部分的源码主要分布在assoc.h/c、hash.h/c中,总得来说代码比较简单,这里就稍微介绍一下。hashtable通常包括哈希函数和解决冲突的方法两个最主要的因素,memcached使用的哈希函数为Bob Jenkins…

as3自定义加载图片类
ImageLoader.as类: package{ import flash.display.Bitmap; import flash.display.Loader; import flash.display.Sprite; import flash.events.Event; import flash.events.ProgressEvent; import flash.net.URLRequest; /** * 图片加载类…
想成为一个数据科学家却不知道从何下手?这份路线图带你打开数据科学大门!...
作者 | Jane译者 | 火火酱 责编 | 徐威龙出品 | AI科技大本营(ID:rgznai100)你想成为一名数据科学家吗?你对数据科学了解很多,想知道关于数据科学天花乱坠的宣传都在讲什么吗?那好,你算是来对了地方。在过去…