AI研究过于集中狭隘,我们是不是该反思了?
作者 | Sergii Shelpuk
译者 | 陆离
编辑 | 夕颜
出品 | AI科技大本营(ID: rgznai100)
【导读】2019年是AI领域更加冷静的一年,少了些喧嚣和泡沫,大浪淘沙留下的是经过检验的真正的AI研究者、实践者。但是你也许没有发现,本来被寄予厚望要解决一切“疑难杂症”的AI,现在正在陷入一个怪圈:关注的领域越来越狭隘,集中于计算机视觉和NLP两个领域,关于AI应用缺少了天马行空。
在过去的8年里,本文作者作为AI社区的一员,曾经为不同的公司在不同的岗位上工作过。在DeepTrait,随着更多地关注遗传分析和工程方面的AI应用,他得以从一个全新的视角来审视一下AI社区。本文中,作者将分别从内部和外部的角度来阐述对AI的看法。
在2012年,AlexNet网络在ImageNet比赛中取得的成功预示着神经网络的重生,以及在该领域开始了一个令人兴奋的新周期。我在2011年就参与到了机器学习(ML)的研究之中,在它大规模的爆发之前,我已然见证了它在这些年的发展。作为全球顶级的机器学习大会之一,ICML 2013在佐治亚州亚特兰大市的一个酒店内举行,当时有几百人参加了这次大会。2018年的大会是在瑞典的斯德哥尔摩举办的,来自世界各地的5000多人参加了会议。到了2019年12月,这一主题最大规模的会议NeurIPS则聚集了一万三千多名AI的研究人员和工程师。
图1. 大型会议的出席人数, 来源:AI Index 2019
随着资助经费数量和参与度的提高,机器学习领域的研究蓬勃发展。由于历史方面的原因,几乎所有AI相关的文档资料都是免费的,都可以在arXiv上面查阅到。现如今,有超过6万篇AI论文发表在那里,数量自2012年以来呈指数级增长(如图2).
图2. arXiv上按子类别列出的AI论文数量, 来源:AI Index 2019
在2013年,一个行业AI专家可能熟悉其所在子领域的所有论文。而这到了2019年,是不可能的事。如今,业内绝大多数AI工程师都依赖于“最佳论文”和其它的一些论文排行。
工作在这样一个极受欢迎并且快速发展的领域,给人的印象是AI无处不在。如果你需要一个用于目标识别的神经网络,那没问题,只要看看图像识别的最新技术,选择适合你要求的架构就可以了。如果你需要的是一些用于情感分析方面的,那么同样的,只需查阅关于这个问题的相关文档资料,再选择一些适合你的数据、硬件以及所需性能的解决方案。对于你要解决的问题,即使没有相关的资料或者解决方案,它也会涉及到“子问题的子问题”。例如,标准的增强技术不会帮助你的数据集产生理想的结果,或者,你最喜欢的神经网络架构在收集的数据上表现较差,又或者,最好的单词嵌入技术不能很好地处理任务的特定词汇表等。
多年以来,认识到这些子问题的子问题的经验让人产生这样的印象:所有AI的较大问题都已经基本上解决了,越来越多的发表论文集中在不断缩小的下级领域里。
当然,当DeepTrait开发一个AI系统用于基因组分析的时候,我们对现有的文献进行了探讨。我们认为,必须在深度学习内部对所有内容进行详细的探索,更不用说是异构数据分析中的各种相关问题了。现如今,基因组分析是人类研究中最有前途和最重要的领域之一,目前已经发表了6万多篇相关的AI论文。这就意味着一定会有大量的工作要做,是不是这样呢?
不对。2019年12月12日,当我访问arXiv,输入了“deep learning”并搜索之后,结果共有22140篇相关论文。现在,将输入改为“deep learning genome”,你会发现只有76篇相关的论文,其中许多没有涉及到基因组数据,但提到了基因组作为潜在的、未来的或相关的应用。
在搜索了包括bioRxiv在内的、所有其它来源的、用于基因组学的深度学习论文之后,我们发现相关论文数量略微超过了二百篇。其中绝大多数使用了过时的神经网络架构和相关的训练技术。这其中有相当一部分不恰当地使用了这些工具,例如,将卷积神经网络应用于SNP(Single Nucleotide Polymorphism,单核苷酸多态性)等异构数据。这就会得出一个表现差劲的模型,也是任何AI专家都很容易预测到的。我们发现这是一个重复的模式。
那些正确使用AI工具的人这样做是为了分析基因组的小型序列,例如启动子(RNA 聚合酶识别、结合和开始转录的一段DNA 序列)或蛋白质结合位点。他们的输入数据最多有1到2万个核苷酸。在拟南芥(Arabidopsis thaliana)基因组中甚至没有接近1.35亿个核苷酸,这是我们在第一次主要试验中的主要研究对象核苷酸。我们没有什么可依赖的,没有例子,没有神经网络架构,也没有训练这种大小序列的技术。什么都没有!我们不得不从头开始。
“where is everybody?”
这让我很好奇,了解基因组有巨大的潜力。高流量定序产生了大量的数据,而AI似乎是一个显而易见的用来搞清这一切的工具。尽管如此,基因组学仍只得到了AI研究者们1%的关注,这是从论文的占比来看。那剩下的99%呢?这显然是一个机会,如果可以忽略这样一个成熟的机会,或许还会有更多的机会。
我回到arXiv,寻找其它可能具有创新性的AI应用。例如,现代天文学产生了大量高度可变的数据。图像数据、无线电频率、天空中每一个微小部分的天体注释等。可能会改变我们对宇宙理解的大问题,比如“什么是暗物质?”还有我们自己,比如著名的Enrico Fermi的文章——《where is everybody?》。利用AI的力量通过探测宇宙错综复杂的天文数据来解决这些重要的谜团,这应该是一个显而易见的想法,对吧?
尽管如此,在arXiv上查询“deep learning dark matter(深度学习暗物质)”,现在会给你20个结果。
接下来呢?材料科学怎么样?现代强化学习模型可以击败围棋和《星际争霸2》中最好的人类玩家。这些模型都很好,AlphaGo的成功在自然属性中是很有特点的,最近世界上最好的围棋手李世石退役了,他说“AI cannot be defeated(AI不能被打败)”。
这应该是很鼓舞人心的,是不是?那么把同样的方法应用于材料科学怎么样?人类已经对物理和化学有了相当多的了解。我们可以建立一个模拟器,其中强化学习可以学习如何创建新的材料,如石墨烯。这些新材料可以使新型的飞机和船舶设计、太空升降机、水下空间站以及可能的太空人类聚居地成为可能。这应该是一个特别令人兴奋的话题。
然而,在arXiv上搜索“深度学习水晶结构”则只给出了16篇关相关的论文。
狭隘的小世界
事实证明,几乎所有的现代AI研究和工业应用都集中在两个子领域下的十几个技术问题上:计算机视觉和自然语言处理(图3)。
图3.AI中倒金字塔的创新
我们可以用倒金字塔来模拟AI世界。每个下一层都支撑着上一层,并在某种意义上对其进行定义。
最底层是非常深入的基础科学和技术,它涉及到对神经网络、优化算法、统计特性以及这些工具概率性质的理论上的理解。
中间是技术问题层。下面是我前面提到的十几个技术的子问题。在计算机视觉领域,这些子问题包括图像识别、图像分割和图像生成,而NLP(Natural Language Processing,自然语言处理)领域下的子技术则包括解析、文本分类、机器翻译和问答等方面。后者由通用语言理解评估(General Language Understanding Evaluation,GLUE)基准很好地表示了。
大多数研究人员和行业专家都在从事这一层上的工作。当然,并不是所有的人都专注于所获得的GLUE或视觉任务,如果你是其中的一个例外,就可能会理所当然地不认同我的观点。然而,作为一个业内人士,你也可以想一下我们中有多少人生活在这一层上,忙着解决这个任务清单上的问题,或者另一种表述或组合范围之外的事情。
中间层的界限由理论科学的底层所限定。在底层出现的任何新思路,如梯度下降、存储单元或卷积过滤器,都能在技术问题层引起一系列新的变动。
正如理论科学的进步使得整个技术领域得以发展一样,解决一个技术问题也使金字塔顶端的整个工业应用的范围得以扩展。
这一模型说明了该行业的一个本质局限性:虽然将产品理念从技术问题层面对应到工业应用中相对简单明了,但反过来很容易证明这是不可能的。把应用程序流在本质上看作一系列单向箭头。如果我们所拥有的只是十几种特定的计算机视觉和自然语言处理工具,那么许多工业应用将超出它们的能力范围。如果事实如此,那么绝大多数人都会这样做。一个致力于AI的专家可能希望预期他的某一个工业应用程序设计需求,可以在技术问题层得到解决,但实际上可能会得到更加广泛、更让人激动的成果。
AI期望值的下降
当前的技术问题和工业化实践像两个分岔路口,技术工具和应用之间有着巨大鸿沟。现有的工具一般专门针对计算机视觉和NLP中非常具体的应用,工具越先进,它的侧重点就越狭窄。
以数据量为例。在植物基因组学中,我们从拟南芥的1.35亿个“字母”基因组开始。要测量它的体量的话,如果按量印刷,每个数据点上的一个拟南芥基因组需要占用150个体量。这还只是个开始。番茄基因组有9.5亿个“字母”文本或1055个印刷体量,大麦基因组是53亿个“字母”或5888个印刷体量,小麦基因组是170亿个“字母”或18888个印刷体量。当前的NLP不能处理任何接近这个大小规模的内容。所有用于NLP的现代深度学习工具,如类似转换器的网络,只能处理长达数千个元素的序列。
另一个例子是数据的性质。一个基因组由四个离散核苷酸(nucleotide)组成,这些核苷酸由四个“字母”表示:A、C、T和G。A核苷酸不能得到“稍多的T”或“略少的T”。此外,改变单个T,例如,A可能导致完全不同的显形、致命疾病或致命条件。这就限制了计算机视觉技术在连续数据中的应用。数据的大小在这里也都累加起来了:以正方形四通道“图像”表示的人类基因组的分辨率将达到54772×54772“像素”,这将远远超过了任何现代计算机视觉神经网络所能处理的能力。
所有最先进的深度学习技术工具对基因组数据的性质和大小无效。没有现有的神经网络架构或训练实践,我们可以借用计算机视觉或NLP世界,来解决我们所遇到的问题。
快速地回顾一下会发现,天文学、化学、材料科学都是数据量要求巨大的应用,并且都面临着相同的问题:它们不能从非常狭隘的计算机视觉和NLP解决方案中使用现有的AI工具集。这里有几种常用的解决方法,例如将任何十六进制数据转换为图像、调整大小并将其传输给计算机视觉工具,但作用其实并不大。
在这一点上,那些坚持不懈地寻求解决方案的人也别无选择,只能进入AI的最深一层,也就是理论层面。AI生态系统的这一根源提供了许多关于神经网络工作的深度,不同的架构如何影响其行为,不同激活功能如何与特定数据分布相关联等方面的发现。换句话说,这里的工具允许你创建自己的工具集,适用于你关心的工业方面的应用。
这是一个艰难的过程,需要大量的时间、深厚的专业知识、奉献的精神以及一点点的运气,但最终,你会在AI生态系统中开发一个全新的技术问题层。尽管这个新的工具集是为特定的工业应用而设计的,但它能实现一系列的功能,就像解决图像识别问题一样,为各种产品和产品原型开辟了新的道路,从放射学分析开始,一直到类似于特斯拉自动驾驶仪这样的自动驾驶系统。
图4.新的技术问题层使一系列的新工业应用成为可能
蓝海广阔,何必囿于一隅?
研究计算机视觉和NLP的技术问题是一个非常有把握、可预测和保险的途径。在这些领域中,有很多研究小组、初创公司和老牌公司。那些大公司为工程师提供了一个大学毕业后直接加入他们的机会。致力于研究计算机视觉或NLP还能让你接触一些很好的工具:数据集、GPU技术、框架以及大量的开源存储库,包括示例、库、基准和其它一些有用的资源。这些工具使我们的工作不再那么繁重,而且更有成效。或许,这解释了AI人才集中在这两个特定领域的原因。
另一方面,寻找适合天文学、遗传学、化学、材料科学、地球科学或经济学的工具集,将是一个充满挑战、时而令人沮丧、时而令人孤独的旅程,你能依靠的只有你自己和团队。然而,攻克难题之后的回报是整个领域,大到足以建立另一个十亿美元的公司或一个研究机构。
现如今,人类面临着成百上千个极其重要但尚未解决的问题。勇敢的先行者收集的数据量可能已经超出他们的分析能力。他们的目的很狭隘,收集数据,然后继续分析。这些数据就在你那里,可以随便访问,等待着人们从中发掘信息,有时候要花几年的时间。其中许多问题仍然没有答案,因为事实证明根本不可能找到解决方法。然而,这正是AI技术大显身手的地方,因为它能够学习如何解决无法解决的问题。
跳出拥挤的人群,抬眼去看那被忽视的AI世界,它已等待了数十年,翘首等待先驱者的到来。这片未经探索的处女地,将会回报那些勇于探索的人以无尽的财富。
原文链接:
https://medium.com/towards-artificial-intelligence/the-too-small-world-of-artificial-intelligence-553c0ee05856
(*本文为AI科技大本营整理文章,转载请微信联系 1092722531)
◆
精彩公开课
◆
推荐阅读
GitHub宝藏项目标星1.6w+,编程新手有福了
芬兰开放“线上AI速成班”课程,全球网民均可免费观看
英特尔首推异构编程神器 oneAPI,可让程序员少加班!
该如何缓解网卡的普遍问题?
英特尔首推异构编程神器 oneAPI,可让程序员少加班!
马云穿布鞋演讲,任正非打的出行,盘点科技大佬们令人发指的节俭生活
行!人工智能玩大了!程序员:太牛!你怎么看?
2019 区块链大事记 | Libra 横空出世,莱特币减产,美国放行 Bakkt……这一年太精彩!
谁是蒋涛?
你点的每个“在看”,我都认真当成了AI
相关文章:

上周回顾:微软与苹果比赛谁更“不安全”
每个月的第二周应该是微软例行发布补丁的日子,本周也不例外,微软如定期新闻发布会一样公布了自己的安全公告。这本来已经成了例如51CTO.com这样关注企业网络安全的媒体重要的素材,不过没想到的是本周苹果偏要抢这个风头……热点一:…
一种注册表沙箱的思路、实现——注册表的一些基础知识
要做注册表沙箱,就必须要了解部分注册表知识。而注册表的知识很多,本文主要讲述如何在win32系统是上识别注册表映射的。(转载请指明出处) 在我的xp 32bit系统上,WinR regedit之后打开注册表管理器。我们可以看到如下主…

bzoj 2565: 最长双回文串 manacher算法
2565: 最长双回文串 Time Limit: 20 Sec Memory Limit: 256 MB 题目连接 http://www.lydsy.com/JudgeOnline/problem.php?id2565 Description 顺序和逆序读起来完全一样的串叫做回文串。比如acbca是回文串,而abc不是(abc的顺序为“abc”,逆…
44岁的微软如何刷新未来?
整理 | 伍杏玲出品 | AI科技大本营(ID:rgznai100)在当今的“云”时代,很多企业在多个云计算平台部署应用,且需要统一管理和保护应用。在微软Ignite 2019 大会上,为了让企业轻松地在任何类型的基础设施平台上…

一种注册表沙箱的思路、实现——Hook Nt函数
Nt函数是在Ring3层最底层的函数了,选择此类函数进行Hook,是为了提高绕过门槛。我的Hook方案使用的是微软的Detours。(转载请指明出处)Detours的Hook和反Hook的写入如下: DetourTransactionBegin(); DetourUpdateThread…

浅析Struts 体系结构与工作原理(图)
Struts 体系结构是目前基于java的 web系统设计中广泛使用的mvc构架。基本概念 Struts是Apache 基金会Jakarta 项目组的一个Open Source 项目,它采用模型-视图-控制器(Model-View- Controller,简称MVC)模式,能够…

2015第22周一Web性能测试工具及IE扩展区别
在高性能web测试工具推荐http://www.jb51.net/article/23034.htm中发现了dynaTrace 感觉很不错,不但可以检测资源加载瀑布图,而且还能监控页面呈现时间,CPU花销,JS分析和执行时间,CSS解析时间的等。http://www.ibm.com…

一种注册表沙箱的思路、实现——研究Reactos中注册表函数的实现1
因为我们沙箱注入了一个DLL到了目标进程,并且Hook了一系列NtXX(NtOpenKey)函数,所以我们在注入的代码中是不能使用RegXX(RegOpenKey等)这类函数的。因为RegXX系列函数在底层使用了NtXX系列函数,如果在注入DLL执行Hook后的逻辑中使用了RegXX系…
面试大厂背怼!这都搞不定,你只能做“搬运工”!
每一个面试过大厂的程序员似乎总会有种种困境:毕业季参加大厂校招面试,我本以为做过一些真实项目就不错了,没想到根本没问什么项目,都是基础知识,数学、算法,然而平时只喜欢学程序设计。小公司工作3年&…

net程序架构开发
< DOCTYPE html PUBLIC -WCDTD XHTML StrictEN httpwwwworgTRxhtmlDTDxhtml-strictdtd> 程序架构,功能的划分: 数据库(包括存储过程) 数据访问(包括Microsoft Application Blocks for .NET的2.0版) 数据结构(等价于强类型DataSet) 业务逻辑层 业务表现层 数据库:不用说…

Java面向对象学习笔记 -- 6(内部类、Timer)
1. 内部类内部类就是在一个类的内部定义的类,有:静态内部类、成员内部类,局部内部类、匿名内部类。-1) 静态内部类:使用static修饰,声明在类体中, 静态内部类中可以访问外部类的静态成员,开发很…
30年间,软件开发行业为何Bug纷飞?
作者 | Chris Fox译者 | 弯月,责编 | 屠敏出品 | CSDN(ID:CSDNnews)【导语】在时间的推移历程中,软件行业早已发生了天翻地覆的变化。和曾经大家习以为常的编码日常相比,越多越多的开发者发现,如…

去掉字符串两端的全角空格和半角空格(含源代码)
昨天,遇到了一个技术问题。本来我在程序中用的trim()方法来处理从JSP页面传来的值,后来在测试时,发现当我输入的是全角空格时,trim()方法失效。需求是这样的,只是去掉字符串两端的空格(不论是全角空格还是半角空格&…

一种注册表沙箱的思路、实现——研究Reactos中注册表函数的实现2
上一篇博文中主要介绍了Reactos中大部分函数的思路和HKEY和HANDLE之间的关系,本文将介绍一些Reactos中有意思的函数和存在bug的函数。(转载请指明出处)CreateNestedKey是一个辅助创建键的函数,比如我们要创建\Regsitry\User\3\2\1…

云计算安全解决方案白皮书(一)
云计算安全解决方案白皮书Jack zhai研究云的安全有两三年了,但形成完整的安全思路,还是去年的事,这也是“流安全”思路形成的主要阶段。云计算的安全问题之所以突出,是因为虚拟机的动态迁移,以及多业务系统交织在一起&…

一种注册表沙箱的思路、实现——研究Reactos中注册表函数的实现3
这篇我们看一个”容错“”节省“的实例。一下是一个Win32API的声明(转载请指明出处) LONG WINAPI RegEnumKeyEx(__in HKEY hKey,__in DWORD dwIndex,__out LPTSTR lpName,__inout LPDWORD lpcName,__reserved LPDWORD lp…
腾讯Angel升级:加入图算法,支持十亿节点、千亿边规模!中国首个毕业于Linux AI基金会的开源项目...
出品 | AI科技大本营(ID:rgznai100)【导语】Angel 是腾讯的首个AI开源项目,于 2016 年底推出、2017年开源。近日,快速发展的 Angel 完成了从 2.0 版本到 3.0 版本的跨越,从一个单纯的模型训练系统进化成包…

如何在JSP页面中获取当前系统时间转
出自:http://hi.baidu.com/itfuck_/item/803662469cdf7baa61d7b945 1: import java.util.*; int y,m,d,h,mm; Calendar c Calendar.getInstance(); y c.get(Calendar.YEAR); //年 m c.get(Calendar.MONTH) 1; //月 d c.get(Calendar.DAY_OF_MONTH); //日 …
如何用Python实现超级玛丽的界面和状态机?
作者 | marble_xu编辑 | 郭芮来源 | CSDN博客小时候的经典游戏,代码参考了github上的项目Mario-Level-1(https://github.com/justinmeister/Mario-Level-1),使用pygame来实现,从中学习到了横版过关游戏实现中的一些处理…

一种注册表沙箱的思路、实现——研究Reactos中注册表函数的实现4
今天为了KPI,搞了一天的PPT,搞得恶心想吐。最后还是回到这儿,这儿才是我的净土,可以写写我的研究。 这儿讲一些Reactos中一些明显的错误。(转载请指明出处) 在Reactos的RegQueryInfoKeyW中有段这样的实现 i…

Netscaler 认证,访问报http 5000 内部错误
在VDI项目中,Netscaler经常与AD不在同一网络,有时在icaprofile中写的SF或WI的FQDN,访问VDI,会报http 5000 内部错误;解决办法如下:1.NS无法解析Storefont或WI的主机名,需要修改icaprofile 中SF或…
解读 | 2019年10篇计算机视觉精选论文(中)
导读:2019 年转眼已经接近尾声,我们看到,这一年计算机视觉(CV)领域又诞生了大量出色的论文,提出了许多新颖的架构和方法,进一步提高了视觉系统的感知和生成能力。因此,我们精选了 20…
PE文件和COFF文件格式分析--概述
刚工作的时候,我听说某某大牛在做病毒分析时,只是用notepad打开病毒文件,就能大致猜到病毒的工作原理。当时我是佩服的很啊,同时我也在心中埋下了一个种子:我也得有这天。随着后来的工作进行,一些任务的和这…

2015第22周六Java反射、泛型、容器简介
Java的反射非常强大,传递class, 可以动态的生成该类、取得这个类的所有信息,包括里面的属性、方法以及构造函数等,甚至可以取得其父类或父接口里面的内容。 obj.getClass().getDeclaredMethods();//取得obj类中自己定义的方法&…

中服公司企业信息化的ERP系统选择
中服公司企业信息化的ERP系统选择一、 中服公司概况 1. 组织概况 中服公司创建于1950年9月,是国家120家企业集团试点单位之一,主要经营各类纺织原料、半成品、服装、针棉毛织品以及其他商品的进出口业务,同时通过合资、联营等方…
PE文件和COFF文件格式分析--MS-DOS 2.0兼容Exe文件段
MS 2.0节是PE文件格式中第一个“节”。其大致结构如下:(转载请指明来源于breaksoftware的csdn博客) 在VC\PlatformSDK\Include\WinNT.h文件中有对MS-DOS 2.0兼容EXE文件头的完整定义 typedef struct _IMAGE_DOS_HEADER { // DOS .EXE h…
时间可以是二维的?基于二维时间图的视频内容片段检测 | AAAI 2020
作者 | 彭厚文、傅建龙来源 | 微软研究院AI头条(ID: MSRAsia)编者按:当时间从一维走向二维,时序信息处理问题中一种全新的建模思路由此产生。根据这种新思路及其产生的二维时间图概念,微软亚洲研究院提出一种新的解决时…

《燃烧的岁月》
温含着优美的文句中,字里行间,透过一层薄薄的纸,牵挂起往事如烟,曾经的努力和成长,透过那以视频同时走过的路,默默无闻,牵挂着的是一句句唯美的文笔,留下情感的诗句文笔,…

PE文件和COFF文件格式分析——签名、COFF文件头和可选文件头1
本文将讨论PE文件中非常重要的一部分信息。(转载请指明来源于breakSoftware的CSDN博客) 首先说一下VC中对应的数据结构。“签名、COFF文件头和可选文件头”这三部分信息组合在一起是一个叫IMAGE_NT_HEADERS的结构体。 typedef struct _IMAGE_NT_HEADERS6…
遇到bug心寒了?用Enter键即可解决!
本文图片来自网络做程序员难不难?很难!做个程序员压力大不大?超级大!!测试bug时(图片来自网络)当找到Bug,开始修改的你……(图片来自网络)那怎么办࿱…