联手中科大、浙大、华科大等高校,阿里研发4项最新AI安全技术
随着互联网技术对抗环境日益复杂化,各大网络平台页面可供用户上传并做展示的内容,都可能面临恶意攻击,例如黑灰产团伙会发布色情等不良图片和视频,以及发布可能涉嫌抄袭侵权的商品或其他违规信息,甚至一些黑灰产团伙还会通过技术手段,对发布的内容进行干扰,绕开平台的违规内容检测算法。
阿里安全图灵实验室围绕行业痛点、难点技术问题,涉及文本变异对抗、图像、视频内容风控以及AI小样本研究的4个团队,分别与中国科学技术大学、浙江大学、华中科技大学等知名高校研究人员合作,研发包括“内容安全、文本反垃圾、AI模型鲁棒性、营商环境治理”4项新一代安全架构核心AI安全技术成果,均被国际会议ICASSP(International Conference on Acoustics, Speech and Signal Processing)2021收录。
小样本训练对抗血腥暴力视频
在实际应用场景中,AI安全技术能有效解决数据量大的头部风险,但对数据量极少或者新增的风险,现有AI模型往往难以胜任。
在2018年“扫黄打非”专项整治中,就出现了一波名为“邪典”的风险(软色情、血腥暴力),主要为一些对青少年有不良导向的视频,此类相关内容清理有害信息就多达37万余条。随着短视频火爆发展,变异极快的“儿童邪典视频”极易死灰复燃。
累积此类别的数据供原有模型训练需要一定时间,而小样本方法恰好能填补“变异-模型未更新”的真空期。阿里安全图灵实验室高级算法工程师雍秦认为,使用小样本方法,可很好地在真空期中覆盖这种新风险,维护网络清朗空间环境。
“之前发表的小样本方法大都集中于优化小样本元学习阶段,该研究主要集中研究小样本方法中的预训练问题,我们AI安全团队提出了一种简单有效的方法,使用自监督方法预训练一个更深的网络,具有很好的鲁棒性和泛化性。”雍秦说。
该backbone具有很好的鲁棒性和泛化性,使用简单的元学习方法对其进行优化就可以在两个经典小样本数据集MiniImageNet和CUB数据集上都得到state-of-the-art结果。同时,研究者使用本文中提出的方法在跨域小样本测试的四个数据集上进行了测试,同样取得了state-of-the-art结果。
自监督学习的核心理念是对无标签数据的进行学习,而且学习的是无标签数据的数据结构或者特性,因此不需要标签结果,这样打造的AI模型对新鲜样本的适应能力比较强。
在医疗、生物等行业安全领域,都普遍存在“样本标注困难”“成本高”问题。雍秦坚信,小样本自监督学习能很好改善这些困境。
阿里&浙大:增强AI对抗垃圾文本变异的稳定性和识别力
李进锋等阿里安全算法专家经常会遇到发送大量垃圾文本的恶意用户,黑灰产试图通过对抗的手段规避阿里安全内容风控智能AI系统检测。
以文本内容为例,恶意用户可通过对文本中的违规内容进行变形变异,从而达到绕开模型识别检测的目的。由于文本对抗门槛和成本低,文本内容风控场景中的对抗异常激烈,对抗给智能风控体系带来了巨大挑战。
图:真实应用场景中的对抗文本(红色字体为变异词)
为应对挑战,解决对抗场景中风控模型性能衰减的问题,阿里安全图灵实验室与浙江大学提出了基于对抗关系图的文本对抗防御技术。
图:基于对抗关系图的文本对抗防御框架
在本研究中,研究者首次提出了基于图模型来建模对抗知识。研究者首先采用知识+数据驱动的方式,基于语言学和语音学知识来构建对抗关系图,图中的每个节点表示一个字符,如果两个字符音近或者形近,则对应的节点之间形成一条边,表示存在对抗变异关系。
接着,研究者利用图嵌入算法学习每个节点的向量表示来表征对抗关系图中的对抗知识。最后通过融合对抗表征和语义表征实现对抗知识注入,达到增强模型鲁棒性的目的。与与现有的技术相比,阿里安全图灵实验室的优势在于,阿里安全的内容风控系统建模的是对抗关系,这种关系是与场景无关的,因此学到的对抗知识表征是通用的,可以直接复用到各个场景。对抗关系图构建和对抗知识表征可以离线完成,并且只需训练一次即可应用到各个场景;基于对抗关系图,可以解决更复杂的多跳变异问题,如微 (wei) à 威 (wei) à 崴 (wai)。
与现有技术相比,阿里安全的内容风控系统建模与场景无关,只需训练一次即可应用到各个场景,基于对抗关系图,就可以解决更复杂的多跳变异问题,如微(wei)-威(wei)-崴(wai)。阿里安全团队将防御框架应用到了手机淘宝、旺旺反垃圾场景,取得了不错的应用效果。
中科大&阿里:构建AI系统“防火墙”
去年,阿里安全图灵实验室发布了一款“AI安全诊断大师”,对AI模型进行全面的安全性评估,并针对AI系统的缺陷,提出提升模型防御能力建议。
这种“AI安全防火墙”的一个关键技术就是对抗样本检测,对抗样本的重要特性之一是人眼无法区分,导致无法通过人工打标进行对抗样本的检测。
2020年,阿里安全图灵实验室提出了一种基于Transformer的对抗样本检测方法,改进了传统对抗样本检测方法只能检测特定攻击,难以泛化到其他攻击的缺陷。
此次研究解决的是对抗样本检测泛化性的问题,但针对非常小扰动和非常稀疏的对抗样本的检测,仍是目前研究的难点。为了既能识别扰动大而广的对抗样本,又能识别扰动比较小而稀疏的对抗样本,中科大和阿里的研究者提出了基于图像域和梯度域的双流对抗样本检测网络,图像域用于识别扰动大而广的对抗样本,梯度域则用于识别扰动比较小而稀疏的对抗样本。
图:双流对抗样本检测网络
随着防御技术不断变强,攻击形态越来越多样。在真实应用场景中,阿里安全图灵实验室也发现了一些没有限制情况下的攻击形态,这类攻击很难应对。阿里安全图灵实验室高级安全专家越丰介绍,目前阿里希望能从攻防两端以及产学研集合的方式来应对这种威胁。阿里安全联合清华大学、UIUC(伊利诺伊大学厄巴纳-香槟分校)举办了CVPR2021的AML-CV workshop,产学研结合探讨AI安全的问题。另外,三方在workshop上联合天池一起举办了2个比赛:第六期-ImageNet无限制对抗攻击和防御模型的白盒对抗攻击。
提升商品图像检索能力优化用户搜索体验
电商平台的各种模态商品数据迅速增长,如何从中快速且准确地找出用户需要的商品是一个艰巨的挑战。基于内容的文本到商品图像的跨模态检索就是缓解这个挑战的关键技术之一。
传统的跨模态检索方法建立在单层次的特征表示和单粒度的相似度度量上,难以有效地解决商品图像检索的问题。
同时,文本到商品图像的跨模态检索任务更复杂,比如单是商品图像中的一类“服饰”已经表现出巨大的差异性,服饰可以穿在模特身上,也可以单独摆放,还可折叠起来展示,服饰图像背景往往也很复杂。不止如此,商品图像包含其它很多丰富的种类,并且一幅图像内往往呈现出多种物体,琳琅满目,难辨差异。
为此,阿里安全图灵实验室提出了一种基于多层次编码、多粒度相似性学习的跨模态检索模型,在融合多层次特征的基础上,结合物体、图像两种不同粒度的跨模态相似性,能够有效地提升跨模态检索模型在商品图像检索任务上的表现。
在阿里安全图灵实验室实习的浙江大学硕士生马哲介绍,这次研究在文本-商品图像跨模态检索的场景下,提出了HSL网络和两种不同粒度的相似性度量方式,可显著提升商品图像检索的性能,并能适应复杂的商品内容检索。
阿里安全图灵实验室资深算法专家华棠则强调,这种新研究不仅致力于提升用户搜索体验,也会用在平台内容治理上,谨防黑灰产利用看似合规的商品图片宣传“禁限售”类商品。
Github地址: https://github.com/liufh1/hsl
更多精彩推荐
☞30 周岁的 Python,“虐”我 20 年☞快过HugeCTR:用OneFlow轻松实现大型推荐系统引擎☞高手的习惯:pythonic风格代码☞最低售价17999元,华为发布新一代折叠屏手机Mate X2
点分享点收藏点点赞点在看
相关文章:

联想S820 MIUI刷机包 MIUI 4.4.30 流畅执行 在线主题破解
ROM介绍 破解免费使用MIUI全部主题(方法:开机开启Root权限,进入WSM工具箱→安装二进制文件→重新启动→再次进入WSM工具箱→两个工具打上勾→重新启动),然后尽情奔放吧 .加入V4A音效 .加入安卓4.4切换特效 .加大外放音量。不爆音 .集成 WSM …

列表框操作函数集合
1 /*列表框互相操作函数集 */23// 描述: 添加不重复列表框元素4functionselAdd( srcList, dstList )5 {6varselectedIndex newArray();7varcount 0 ;89for( i0 ; i < srcList.options.length; i ){1011if( srcList.options[i].selected ){1213selectedIndex[count] i;14…

看过漫改,但你看过「改漫」吗?AI 一键让影视变漫画
作者 | 神经小兮来源 | HyperAI超神经头图 | 下载于视觉中国把影视剧变成漫画,是怎样的一种神操作?来自大连理工大学和香港城市大学的团队,最新提出的 AI 框架,可自动将影视剧转换为漫画。从此,观影追剧又多了一种打开…

跨越企业的“中等收入陷阱”
在国际经济学中,有一个“中等收入陷阱”的概念,含义为:新兴市场国家突破人均GDP1000美元的“贫困陷阱”后,很快会奔向1000美元至3000美元的“起飞阶段”;但到人均GDP3000美元附近以后,快速发展中积聚的矛盾…

docker 数据卷与容器卷
2019独角兽企业重金招聘Python工程师标准>>> 容器中管理数据主要有两种方式: 数据卷(Data Volumes) 数据卷容器(Data Volumes Dontainers) 数据卷 使用-v可以挂载一个本地的目录到容器中作为数据卷。 [root…

document.all与WEB标准
1、DOM WEB标准现在可真是热门中热门,不过下面讨论的是一个不符合标准的document.all[]。DOM--DOCUMENT OBJECT MODEL文档对象模型,提供了访问文档对象的方法.例如文档中有一个table,你要改变它的背景颜色,那就可…

终于有人把Python讲清楚了!
经常有人问我,Python初学者该怎么学好Python?其实从事Python开发的这些年中,我见过很多相关的教程和书籍,他们大都这样讲 :先介绍 Python 的基本语法规则、list、dict、tuple 等数据结构,然后再介绍字符串处…

开源 免费 java CMS - FreeCMS1.5-建站向导
2019独角兽企业重金招聘Python工程师标准>>> 下载地址:http://code.google.com/p/freecms/ 建站向导 从FreeCMS 1.5开始支持 为了方便用户创建站点,系统提供了建站向导功能。 从左侧管理菜单点击建站向导进入。 第一步:创建…

Python实战之网络编程socket学习笔记及简单练习
sk socket.socket(socket.AF_INET,socket.SOCK_STREAM,0) 参数一:地址簇 socket.AF_INET IPv4(默认) socket.AF_INET6 IPv6 socket.AF_UNIX 只能够用于单一的Unix系统进程间通信 参数二:类型 socket.SOCK_STREAM 流式socke…

用IE重起计算机或者关机
<script language"JavaScript"> var Applicationnew ActiveXObject(Shell.Application.1); </script> <button οnclickApplication.ShutdownWindows();>关机</button><br> <button οnclickApplication.Suspend();>挂起</bu…

系统故障分析和排查
日志的功能 用于记录系统、程序运行中发生的各种事件通过阅读日志,有助于诊断和解决系统故障日志文件的分类内核及系统日志由系统服务syslog统一进行管理,日志格式基本相似用户日志记录系统用户登录及退出系统的相关信息程序日志由各种应用程序独立管理的…

用数据分析《你好,李焕英》“斐妈”爆红的真相
作者 | 俊欣来源 | 数据分析与篮球头图 | 下载于视觉中国《你好,李焕英》成为了春节档最热门最火爆的电影之一。截止目前,根据猫眼电影专业版的数据显示,该影片的票房已经突破了43亿;在抖音搜索上,因为其“好哭”而冲上…
[转] Android开发之如何保证Service不被杀掉(broadcast+system/app)
转发:原文链接http://blog.csdn.net/mad1989/article/details/22492519 序言 最近项目要实现这样一个效果:运行后,要有一个service始终保持在后台运行,不管用户作出什么操作,都要保证service不被kill,这可真…

如何使得按确定和取消按纽转到两个不同的页面!
问: 如何使得按确定和取消按纽转到两个不同的页面! confirm(),后面的具体参数是什么? ______________________________________________________________________________________________ 答1: 看个例子吧! <scrip…

PHP函数学习nl2br(),strlen(),mb_strlen()
2019独角兽企业重金招聘Python工程师标准>>> 1 nl2br($str): 注意:n之后的是字母L的小写,不要当做数字1. 函数作用:在$str中的每个新行(\n)之前插入HTML换行符( <br/> ) 示例: echo nl2br("One line.\nAnot…

携手中国电信、中国联通,华为正式发布首个5G超级刀片站 A+P 2.0天线商用网络
近日,在2021 MWC 上海期间,中国电信、中国联通携手华为发布首个5G超级刀片站 AP 2.0天线商用网络。 中国电信5G共建共享工作组高级项目经理李志军分享中国电信部署AP 2.0后的商用体验。AP 2.0颜值与实力兼备,解决了无空间部署5G以及5G挂高低…

『干货』分享你最喜欢的技巧和提示(Xcode,objective-c,swift,c...等等)
亲爱的读者们,你们好 !年底将近,分享从过去一年你最喜欢的技巧和建议作为礼物送给新手们。提交你的最喜欢的迅速或objc琐事,实用的提示,意外的发现,实用的解决方法,没用的迷恋,或不论什么其它你认为今年非常酷。就在以下写下你的评论! 笔者分享总结例如以下(本篇会不定期进行更…

一口一个,超灵活的Python迷你项目
来源 | 法纳斯特责编 | 寇雪芹头图 | 下载于视觉中国在使用Python的过程中,我最喜欢的就是Python的各种第三方库,能够完成很多操作。下面就给大家介绍22个通过Python构建的项目,以此来学习Python编程。大家也可根据项目的目的及提示ÿ…

说说大型高并发高负载网站的系统架构【转】
我在CERNET做过拨号接入平台的搭建,而后在Yahoo&3721从事过搜索引擎前端开发,又在MOP处理过大型社区猫扑大杂烩的架构升级等工作,同时自己接触和开发过不少大中型网站的模块,因此在大型网站应对高负载和并发的解决方案上有一些…

DataGrid 的 全选/取消全选 控制(CheckBox)
DataGrid控件: <Columns> <asp:TemplateColumn> <HeaderStyle Width"10px"></HeaderStyle> <HeaderTemplate> <INPUT id"CheckAll" name"CheckAll" type"checkbox"…

k8s入门系列之介绍篇
Kubernetes介绍1.背景介绍 云计算飞速发展 - IaaS - PaaS - SaaS Docker技术突飞猛进 - 一次构建,到处运行 - 容器的快速轻量 - 完整的生态环境2.什么是kubernetes Kubernetes(k8s)是Google开源的容器集群管理系…

元宵节就要到了,花灯要不要来一盏?3D的那种
又是一年元宵佳节!我国各地庆祝元宵节的方式很有讲究,有的地方吃汤圆,一个个软糯香圆;有的地方办灯展,十分热闹。当然,疫情当下,为了大家的安全,不建议线下聚众集会。但是࿰…

Android Timer的使用
1:服务端使用PHP <?phpecho date(Y-m-d H:i:s); ?> 2:activity_main.xml <RelativeLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:tools"http://schemas.android.com/tools"android:layout_w…

屏蔽相应键盘按钮
<script language"Javascript"><!-- //屏蔽鼠标右键、CtrlN、ShiftF10、F11、F5刷新、退格键 //Author: meizz(梅花雨) 2002-6-18 function document.oncontextmenu(){event.returnValuefalse;}//屏蔽鼠标右键function window.onhelp(){return false} //…

MySQL查询缓存
2019独角兽企业重金招聘Python工程师标准>>> MySQL 查询缓存保存查询返回的完整结果。当查询命中改缓存,MySQL 会立刻返回结果,跳过了解析、优化和执行阶段。 查询缓存系统会跟踪查询涉及查询中的每个表,如果这些表发生变化&#…

事半功倍系列 javascript
清华大学出版的《事半功倍系列 javascript》,本人照着书敲出来的,有些翻译了一下.前几年看了一下,最近无事,重新翻了翻,很有帮助.本书应该有光盘的,但学校的书,光盘不知在哪.希望对你学 javascript有帮助 第一章javascript简介 1.在地址栏输入javascript语句 Javascript:Doc…

Golang 本地帮助文档
2019独角兽企业重金招聘Python工程师标准>>> godoc -http:8000 url: http://127.0.0.1:8000 转载于:https://my.oschina.net/koalaone/blog/169626

2021版Java知识体系详解!(赠视频)
本篇文章是我们整理的一份架构师的成长路线,包括了并发编程、设计模式、常用框架、中间件、微服务与分布式、常用工具、JVM、MySQL、数据结构与算法,还有架构师精选视频、架构师成长路线高清大图。又是新的一年,每一年都会有人在成为架构师的…

【6】font-size 字体属性
font-style -- 字体风格font-variant -- 小型大写字母文本font-weight -- 文本的粗细font-size/line-height -- 大小/行高font-family -- 字体常用格式: fo…

MIS开发中.net Framework的打印功能
Microsoft .net Framework的打印功能都以组件的方式提供,为程序员提供了很大的方便,但是这几个组件的使用还是很复杂的,有必要解释一下。 打印操作通常包括以下四个功能 1 打印设置 设置打印机的一些参数比如更改打印机驱动程序等 2 页面设置…