当前位置: 首页 > 编程日记 > 正文

从样本处理到决策模型,如何用NLP识别盗版资源?

作者 | 阿里文娱高级开发工程师千起

出品 | AI科技大本营(ID:rgznai100)

背景

随着5G时代来临,新媒体行业快速发展,盗版传播平台多样化、形式多样化,版权方难以通过有限的人力实现最大限度的维权。根据MUSO报告显示2017年盗版网站访问量达到3000亿次。人工智能逐渐成熟,盗版监测覆盖难、查找难的问题将迎刃而解。

那么如何运行将人工智能技术运用到盗版监测中?我们先从一个例子开始:下面是一个普通用户查找盗版资源的过程:

上面的例子中有两个操作:搜索查找 + 结果筛选。其中“结果筛选”是用户阅读搜索结果,并确认当前结果是否包含盗版内容。 这一过程在人工智能领域叫识别,因为用户阅读的是文字,所以我们叫它:自然语言识别。

普通用户可以很容易的判断出“哪些搜索结果包含盗版内容?”,那么机器是怎样模拟阅搜索结果呢?下面我们分析3个典型的盗版搜索例子。

盗版搜索结果分析

1、 用户搜索盗版影片示例

 2、 “判断难点“分析

1)  归类“判断难点”

(1) 名称近似类:系列类影片、名称包含类影片;

(2) 主题不相关类:结果是资讯、新闻、彩票、广告等信息;

(3) 同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息;

(4) 变换类: 影片名称缩写、人工故意添加的干扰信息。

2) 自然语言识别中怎样处理这几种情况?

(1) 名称近似类: 

答:回想一下人是怎样处理的?如果一个人是它知道所有影片信息,那么他就知道两个影片是不一样的。这类问题在自然语言中属于知识图谱(Knowledge Graph,简写:KG)的范畴。

(2) 主题不相关类:结果是资讯、新闻、彩票、广告等等信息;

答:普通人因为有一些背景知识,是知道哪些是属于新闻类,哪些属于广告类。由于这些分类是有限的,所以自然语言中通常使用文本分类(Text classification)。常见的文本分类有二分类和多分类(输出大于2种分类结果)。

(3) 同名影片类:相同影片的歌曲、游戏、戏剧、通用名词等有歧义的信息;

答:识别同名需要有两步。第一步提取句子中的影片实体名称,第二步辨别句子描述的是哪个领域的影片。这里需要自然语言领域中的 实体识别 (Named-entity recognition,简写:NER)+ 文本分类。通俗讲,实体识别是找中句子中的影片,而文本分类是区分这个句子说的是哪个领域的影片。

(4) 变换类: 影片名称缩写、人工故意添加的干扰信息。

答:这类问题和问题1)一样,这类问题在自然语言中属于知识图谱(Knowledge Graph,简写:KG)的范畴。模型需要背景知识,知道影片有哪些缩写。

自然语言识别如何识别盗版呢?

在自然语言处理领域通过有三部分。分别为:文本预处理、特征计算、模型训练/预测。

  • 文本预处理:清洗样本,并将文本格式、符号转化为统一的形式;

  • 特征计算: 将文本转化为数字。这一步可以使用特征工程,或者词袋(oneHot)、文本嵌入(word embedding)模型、深度Transformer模型;

  • 模型训练/预测:选择合适的模型算法,训练模型。模型方面可以使用决策树类型(例如:XGBoost、LightGBM、Deep Forest等等),也可以使用深度网络(例如:LSTM、BERT、Transformer-XL等等)。当然也可以使用多个模型(一个模型的输出,作为一个模型的输入)。

 那么模型是什么样子的?

下面是从样本输入到模型产出,落地一个模型需要做的步骤。

总结

这篇文章中提到的方法已经落地到实际工程中,准确率可以达到超越人工盗版结果判断水平。目前自然语言仍然有非常强的业务领域特点,不同业务领域会遇到不同的行业特定问题,而且前沿的模型提供原生的英文支持,所以在工程落地场景中,需要结合实际业务场景不断的优化模型。

【end】

原力计划

《原力计划【第二季】- 学习力挑战》正式开始!即日起至 3月21日,千万流量支持原创作者!更有专属【勋章】等你来挑战

推荐阅读

  • 简单粗暴理解与实现机器学习之逻辑回归:逻辑回归介绍、应用场景、原理、损失以及优化

  • 用于小型图形挖掘研究的瑞士军刀:空手道俱乐部的图表学习Python库

  • 全方位解析阿里云核心技术竞争力,CSDN 独家在线峰会来了!

  • 留德武汉程序员在疫区:凌晨下载数据,网速影响工作

  • Libra新编程语言 :Move 的所有权模型灵感来源原来是它……

  • 云原生的漏洞与威胁有哪些?云原生安全性如何?这里有你想知道的一切!

  • 你点的每个“在看”,我都认真当成了AI

相关文章:

利用.htaccess绑定子域名到子目录(亲测万网可用)

http://www.xmgho.com/archives/783.html 利用.htaccess绑定域名到子目录,前提你的空间服务器必须支持apache的rewrite功能,只有这样才能使用.htaccess。如果你的空间是Linux服务器 一般默认都开启了的。绑定域名 登陆域名管理台(如DNSPod) 把…

Memcached内存池分析

针对Memcacged1.4.15代码 1.完整slabs内存池图 这是我画的memcached的slabs内存池对象关系图: 2.内存池数据结构 typedef struct {unsigned int size; /* 每个item的大小 */unsigned int perslab; /* 每个page中包含多少个item */void *slots; …

Google重磅发布开源库TFQ,快速建立量子机器学习模型

整理 | 弯月编辑 | 郭芮出品 | AI科技大本营(ID:rgznai100)近日,Google 与滑铁卢大学、大众汽车等联合发布 TensorFlow Quantum(TFQ),一个可快速建立量子机器学习模型原型的开源库。TFQ提供了必…

.net3.5的安装与修复

<?xml:namespace prefix o ns "urn:schemas-microsoft-com:office:office" />.net3.5的安装与修复.net3.5正常安装的顺序是先安装windows IIS组件&#xff0c;然后再安装.net3.5安装包&#xff0c;而.net3.5安装包的下载地址可以去百度和google上搜一下&…

jquery easy ui 简单字段选择搜索实现

写的比较粗糙&#xff0c;望见谅。 要实现的效果&#xff1a; 代码如下&#xff1a; <!DOCTYPE html> <html> <head><meta charset"UTF-8"><title>jQuery EasyUI Application Demo</title><link rel"stylesheet" t…

训练数据也外包?这家公司“承包”了不少注释训练数据,原来是这样做的……...

作者 | Lionbridge AI译者 | 天道酬勤 责编 | 徐威龙封图| CSDN│下载于视觉中国出品 | AI科技大本营&#xff08;ID&#xff1a;rgznai100&#xff09;在机器学习领域&#xff0c;训练数据准备是最重要且最耗时的任务之一。实际上&#xff0c;许多数据科学家声称数据科学的很…

JavaScript Switch 语句

avaScript Switch 语句如果希望选择执行若干代码块中的一个&#xff0c;你可以使用 switch 语句&#xff1a;语法&#xff1a;switch(n){case 1:执行代码块 1breakcase 2:执行代码块 2breakdefault:如果n即不是1也不是2&#xff0c;则执行此代码}工作原理&#xff1a;switch 后…

参观Speedy Cloud 有感

上周老男孩的所有学生参观了Speedy Cloud &#xff0c;在这里我首先感谢Speedy Cloud的邀请和服务&#xff0c;我们每一个同学的收获都很大&#xff0c;不管是在以后的发展&#xff0c;还是现在的学习&#xff0c;都给了我很大的推动作用&#xff0c;帮助我去了解计算机的发展的…

C语言文件操作函数大全

unix中一切皆文件&#xff0c;所以文件操作至关重要&#xff01; clearerr&#xff08;清除文件流的错误旗标&#xff09; 相关函数 feof 表头文件 #include<stdio.h> 定义函数 void clearerr(FILE * stream); 函数说明 clearerr&#xff08;&#xff09;清除参数stre…

Python进阶之递归函数的用法及其示例

作者 | 程序员adny责编 | 徐威龙封图| CSDN│下载于视觉中国出品 | AI科技大本营&#xff08;ID&#xff1a;rgznai100&#xff09;本篇文章主要介绍了Python进阶之递归函数的用法及其示例&#xff0c;现在分享给大家&#xff0c;也给大家做个参考。一起来看看吧。递归是指函数…

万科的千亿修炼

一位知名企业家说过&#xff0c;改革开放30年只是完成了市场经济的启蒙和启动&#xff0c;在未来的10至20年&#xff0c;中国将出现一批千亿级的企业。此次金融危机在为经济带来震荡的同时&#xff0c;也为我们提供了一个极佳的视角和机会&#xff0c;审视中国千亿企业的过去、…

nginx 开发一个简单的 HTTP 模块

2019独角兽企业重金招聘Python工程师标准>>> 1. 下载 Nginx http://nginx.org/ 2. 目录结构 $ tree -L 2 . ├── mytest_module │ ├── config │ └── ngx_http_mytest_module.c └── nginx ... 3. config # 在 configure 执行时使用 ngx_addon_nam…

Jquery 之Ajax方法$.get() 的运用,扩展链接模型的天地

如前文说道的那个表现层和业务层的链接模型&#xff0c;从上篇博文&#xff08;http://www.cnblogs.com/AflutterFeather/archive/2010/01/07/1641315.html&#xff09;中可以看到&#xff1a;我们通过WebService提供的方法来获取服务端的返回值。 如果不采用WebService&#…

B树建立与遍历

# include <stdio.h> # include <stdlib.h># include "btrees.h"/* 给一个结点分配空间 */ struct btnode * allocateNode(struct btnode *ptr){int i,max;ptr (struct btnode *)malloc(sizeof(struct btnode));if(!ptr){printf("allocated error!…

2.2版本发布!TensorFlow推出开发者技能证书

作者 | 弯月出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;受 COVID-19 的影响&#xff0c;今年的 TensorFlow 开发者大会于2020年3月12日&#xff08;北京时间&#xff09;凌晨以线上直播的方式与全球开发者见面。Google决定开源TensorFlow是为了让每个开发人员和研…

X3D中Profile如何翻译

问题在哪 在计算机术语中&#xff0c;Profile其实是很难用中文对应的词汇来翻译的一个单词。 在X3D国际标准中&#xff0c;就出现了Profile。它把软件产品对X3D的功能实现范围和相应支持程度做了预先的约定&#xff0c;分为Core Profile、Interchange Profile、Interactive Pro…

腾讯提结合ACNet进行细粒度分类,效果达到最新SOTA | CVPR 2020

作者 | VincentLee来源 | 晓飞的算法工程笔记细粒度分类(Fine-Grained Visual Categorization, FGVC)是图片分类的一个分支&#xff0c;由于类别间的相似性非常大&#xff0c;一般人比较难区分&#xff0c;所以是个很有研究意义的领域。受神经树研究的启发&#xff0c;论文设计…

asp.net mvc view中支持多个实体强类型小技巧

在MVC的开发过程中&#xff0c;在一个View里面可能需要调用多个对象&#xff0c;可是传统的方法是一次只能压入一个对象到View里面&#xff0c;这点并不像Castle框架的MVC好用&#xff0c;在Castle里面&#xff0c;可以很方便的把对象压入到前台Html里面&#xff0c;然后通过Ve…

使用指针做函数返回值

使用指针做函数返回值 1、当使用指针做为函数的返回值时&#xff0c;主函数处的char *p;将获得调用函数char *pf;的值&#xff0c;即一个地址值&#xff0c;如oxAE72。此时需要我们注意的是该地址值所指向的空间是否存在(即已向操作系统声明注册&#xff0c;不会被释放&#x…

Android Studio快捷键每日一练(2)

原文地址&#xff1a;http://www.developerphil.com/android-studio-tips-of-the-day-roundup-2/ 12、复制行 苹果&#xff1a;CmdD Windows&#xff1a;CtrlD 顾名思义&#xff0c;就是拷贝当前行并粘贴在下一行&#xff0c;整个过程无需和剪贴板交互。这个功能配合行移动快…

C语言字符char和整型int的关系

C语言并无char类型&#xff0c;就是用Int表示char的&#xff01;char占一个字节&#xff0c;在C语言所有类型中最小。 char *占4字节&#xff08;32位&#xff09;&#xff0c;8字节&#xff08;64位&#xff09; 在C语言中&#xff0c;实际上字符型数据在内存中是以二进制形式…

PyTorch关键算法疑似侵权,Facebook被起诉

作者 | 神经星星来源 | HyperAI超神经&#xff08;ID:HyperAI&#xff09;近期&#xff0c;一纸诉讼书引起社区的广泛讨论。该诉讼由创业公司 Neural Magic 发起&#xff0c;指控 Facebook 发布到 GitHub 的神经网络软件&#xff0c;使用了他们开发的核心算法。而泄露机密的人&…

大数据高效复制的处理案例分析总结

一个老客户提出这样的需求&#xff0c;希望将SQLServer中的某个表的数据快速复制到SQLite数据库里面以便进行定期的备份处理&#xff0c;数据表的记录大概有50多万条记录&#xff0c;表有100个字段左右&#xff0c;除了希望能够快速做好外&#xff0c;效率是第一位的&#xff0…

memset函数使用详解

1.void *memset(void *s,int c,size_t n) 总的作用&#xff1a;将已开辟内存空间 s 的首 n 个字节的值设为值 c。 2.例子 &#xff03;include void main(){ char *s"Golden Global View"; clrscr(); memset(s,G,6); printf("%s",s); getchar(); ret…

节后招人平均工资9000上热搜,为什么有些人去哪里都值钱?

我”荒“了。这是很多中国AI企业的现状。《人民日报》报道称&#xff0c;我国AI的人才缺口超过500万&#xff0c;供求比例仅为1&#xff1a;10&#xff01;很多企业已经开始面临“人才荒”的窘境&#xff0c;外媒爆料说&#xff0c;中国企业已经不断在硅谷挖人了&#xff01;目…

关于定于如何弄的漂亮点

</div></div><div class"panel"><h5 οnclickshowhidediv("sidebar_rss");>订阅博客</h5><div class"panel-content" id"sidebar_rss" style"display: block"><ul class"list&…

Happy New Year 2016

大学之前的时间都是按天来过的&#xff0c;期盼着一天一天地快快长大&#xff0c;期盼着过年穿新衣&#xff0c;阖家团聚&#xff0c;其乐融融&#xff1b; 大学的时间都是按周来过的&#xff0c;根据每周的课表周而复始&#xff0c;虽然单调但也是自由自在&#xff0c;简单充实…

HashTable原理与实现

memcached中hashtable部分的源码&#xff0c;hash部分的源码主要分布在assoc.h/c、hash.h/c中&#xff0c;总得来说代码比较简单&#xff0c;这里就稍微介绍一下。hashtable通常包括哈希函数和解决冲突的方法两个最主要的因素&#xff0c;memcached使用的哈希函数为Bob Jenkins…

as3自定义加载图片类

ImageLoader.as类&#xff1a; package{ import flash.display.Bitmap; import flash.display.Loader; import flash.display.Sprite; import flash.events.Event; import flash.events.ProgressEvent; import flash.net.URLRequest; /** * 图片加载类…

想成为一个数据科学家却不知道从何下手?这份路线图带你打开数据科学大门!...

作者 | Jane译者 | 火火酱 责编 | 徐威龙出品 | AI科技大本营&#xff08;ID:rgznai100&#xff09;你想成为一名数据科学家吗&#xff1f;你对数据科学了解很多&#xff0c;想知道关于数据科学天花乱坠的宣传都在讲什么吗&#xff1f;那好&#xff0c;你算是来对了地方。在过去…