当前位置: 首页 > 编程日记 > 正文

前百度主任架构师创业,两年融资千万美元,他说AI新药研发将迎来黄金十年...

AI技术生态论」 人物访谈栏目是CSDN发起的百万人学AI倡议下的重要组成部分。通过对AI生态专家、创业者、行业KOL的访谈,反映其对于行业的思考、未来趋势的判断、技术的实践,以及成长的经历。

2020年,CSDN将对1000+人物进行访谈,形成系列,从而勾勒出AI生态最具影响力人物图谱及AI产业全景图。本文为 「AI技术生态论」系列访谈第13期。

百万人学AI你也有份!参与文章评论,评论区留言入选,可获得价值299元的「2020 AI开发者万人大会」在线直播门票一张。

作者 | Just

出品 | AI科技大本营(ID:rgznai100)

要在AI医疗领域创业,扎实的AI技术和对医疗行业背景的了解缺一不可,这也是许多创业者想要在此掘金却望而止步或中道崩溃的原因。但是,也总有一些开拓者能不断探索前路,望石智慧创始人兼CEO周杰龙就是其中之一。

早在硕士研究生时期,周杰龙的研究方向就是人工智能。2011年,他加入百度,曾任百度主任架构师,负责百度搜索机器学习排序、反垃圾和移动云语音搜索、拍照搜索等项目。两年后,他带领团队把深度学习引入到百度搜索引擎,用机器学习方法替代了人工规则,他称这是全球首次成功将深度学习应用于大规模搜索系统。

百度工作4年后,他把目光聚焦在医疗行业,并最终确定在深耕新药研发赛道创业。

作为一名从互联网跨界到医药研发的创业者,他越来越发现做药物研发与搜索引擎的逻辑共性,一个非常基础的环节就是不断验证候选化合物与靶点的匹配过程,这类似于用户在搜素引擎中不断得到相匹配的搜索列表。“这些蛋白其实都是原子构成的,在成药的分子里常用的有机化学元素也就10种,你可以把它看成是10个字母,一个分子式是由10个字母所构成的一个句子,靶点是大分子,相当于很长的篇章,所以它像是句子跟篇章之间匹配的关系。”

经过近一年的调研后,2018年,望石智慧正式成立,周杰龙带领团队正式利用AI技术新工具专注早期新药研发。

应用深度学习,在10^60化学空间中搜索有效分子

一般而言,新药研发要先确定靶点,然后去做化合物的发现以进行药物候选,候选药物审批过关后去申报IND,临床试验后才能最终申报上市。总之,这是一个产业链很长的行业。而在药物发现过程中,AI在每一环节都可以发挥作用。

要发现一种新药,相当于要从10的60次方化学空间里去寻找一个有效化合物分子,这是一个庞大空间的搜索过程。

早期,化学家通过已有的医药研发知识,比如在了解靶点架构的基础上展开医药设计,但有时需要的靶点结构并没有被测定,只能找到少数合适的分子化合物。不过,AI的出现可以从已有的庞大药物数据中挖掘更多靶点结构,从而给人类专家在早期药物设计上提供更多思路。

“这就好比要装修一个房子,人类设计师凭个人经验可能只能想出几种构图,但AI学习了大量的建筑和装修设计数据后能推荐出数十种甚至上百种构图,这样就能辅助人类设计师发现新颖的房屋设计图。”周杰龙对AI科技大本营(ID:rgznai100)解释。


当前,深度学习已经在CV、NLP等领域展现出强大的能力,同样地,也可在药物研发的早期环节药物设计阶段发挥强力作用。

药物设计一般会经历多个环节,包括候选分子库生成、分子活性预测、分子性质预测、分子结构优化等。基于GAN和ANN的候选分子库生成技术已得到普遍应用,并展现出良好的性能。机器学习一直是分子活性预测的重要工具,在深度学习发展以前,各种传统的机器学习方法(包括SVM,RF等)已得到普遍应用,并成为非常有竞争力的预测手段。近年来,深度学习技术和计算能力的发展,带来更大的应用空间,研究人员开始逐步采用3D CNN和GCN等网络技术,展现出更优的性能和潜力,为药物设计提供更有效的手段。

对于早期新药发现的AI技术链条,不同的环节有不同的技术路线。周杰龙介绍,通过机器学习,尤其深度学习来做化合物发现,会借鉴搜索推荐技术来预测其一系列性质。而逆合成反应可能又会用翻译模型进行逆合成反应路线设计和分析。最后,信号通路是蛋白与蛋白、基因和蛋白之间的相互作用网络,概率图模型则可以应用到信号通路研究进行建模和推断。

基于上述AI技术,望石智慧目前构建了面向小分子新药发现的智能化药物分子设计及知识图谱两大平台。

两大新药研发的“杀手锏”,覆盖药物早期发现

智能化药物分子设计平台是借助分子进行药物设计,针对药物设计前期的苗头、先导以及候选药物环节,望石智慧用产品的不同子模块去解决对应的问题。

“一个分子可以认为是由骨架和药效团构成,类似于树干和树枝的关系。在药物设计中,骨架跃迁好比对药物分子进行树干部位的修改,而骨架衍生则是对分子的树枝进行变化。”周杰龙解释说,通过骨架跃迁,药物化学专家可以找到破专利的新分子,然后通过骨架衍生找到先导化合物,之后通过分子优化模块,去改善先导化合物的某个性质,在此基础上设计出质量更好的新分子。

在技术上,这三个子模块也有不同的目标和实现方法。

骨架跃迁中一个重要的目标是,找到从整体和药效团角度来看都与输入的参考分子比较相似的分子。因此这里可以借用很多深度学习算法模型,例如语言模型中的翻译模型,将两个相似分子分别看成两种不同的语言,但它们都有核心相同的内容。这样就可以借助模型生成大量相似的分子,供后续筛选、排序使用。后续的筛选和排序算法也涉及到很多深度学习或机器学习方法,是一个很复杂的系统。

骨架衍生是为了从一个不错的骨架生成更有活性的分子,模型能够根据骨架学习到该骨架背后的靶点信息,从而更好地生成可能的侧链。

而分子优化是为了获得在某个性质上更优质的分子,在有一个比较准确的评价方法基础上,可以通过强化学习等方法对整个分子生成过程中进行策略的调整,同时也限制分子生成的相似度,这样来保证生成的分子具有更优质的性质。

目前智能化药物分子设计平台已在学术界和工业界推广使用。

另一方面,望石智慧的药物知识图谱平台成为药物研发中的另一关键利器。

药物知识图谱平台将为药物研发算法模型提供源源不断的高质量数据,同时,由于基于知识与情报的AI医药研发领域是以专利为核心,所以药物知识图谱平台还可以提供靶点、适应症、药物以及基因相互作用和属性信息,帮助药企在立项、调研等工作中提供有价值的参考信息。

深度学习技术在知识图谱中的发挥依赖于大规模高质量数据。公开的专利和发表的文献是药物数据的重要来源,CV和NLP技术是数据的自动化解析和知识图谱构建的手段。

周杰龙表示,对于早期的小分子新药发现,这两大平台已基本涵盖了应有的功能,这也是望石与药企展开项目合作的基础。但由于医药研发周期比较长,望石智慧会在新药发现的不同阶段提供相应价值进行变现。

“不同于基于文本的搜索推荐,上线小流量验证都在线上完成,迭代非常快,但做新药发现无论是推荐一条合成路线还是分子设计,需要花几个月时间才能够把分子合成结果进行反馈。”他说。

当然,目前的AI平台设计也需要不断做技术迭代,包括解决多靶点的问题,与DNA编码化合物库技术、高通量技术以及其他技术的结合。更重要的是,借助平台与合作方进行深度落地实验。一方面他们需要用历史数据进行回顾,确保算法性能,另一方面也需要专家把控,来确定化合物的效用,如此才能验证平台的能力。

目前望石智慧有多个合作项目,其中一个项目是寻找新冠病毒的特效药。今年2月初,通过其两大平台,他们利用新冠病毒RNA的聚合酶抑制剂和核酸,对几十篇新专利进行信息挖掘,运用知识图谱技术进行结构化梳理,找到1400多个化合物并将相应化合物信息与医药机构进行公开分享。

同时他们对新冠病毒RdRp靶点利用计算做了同源建模,利用分子动力学对该复合物进行模拟,然后基于望石智慧分子设计平台,将分子和靶点RdRp进行对接。目前,他们正在与中国医学科学院协和药物所合作一项新冠项目。

结语

2017年,AI+医学影像在资本的助推下成为创业风口,伴随2020年新冠疫情的发生,AI医药研发也旋即升温。

周杰龙认为,公众对这一行业的认知更加迫切,也更明晰,他相信未来十年是中国新药研发的“黄金十年”,而AI会起到非常重要的作用。


他预测,未来2-3年是证明AI技术辅助医药研发的一个非常关键的时期。“ 一个候选药物从早期研发到进入临床要几年时间,如果有多个AI设计的药物进入临床,应该就足以说明这件事情的价值非常大,临床试验成功当然更好。”

望石智慧正在朝这一目标前行。3月中旬,他们宣布融到了由美元基金长岭资本和线性资本联合投资的近千万美元A轮融资,计划下一阶段在核心产品研发,加强与药企CRO上下游之间的合作,以及在引入更多AI和药物研发优秀人才等方面进行投入。

“AI技术生态论”近期系列文章:

第12期:循环智能杨植麟:“人机耦合”将是对话语义应用的新趋势

第11期:堪称奇迹!8天诞生一个产品,这家创业公司做到了

第10期:红外光抗疫、成功预测新基建,投资280家企业的光学博士到底是谁?

欢迎所有开发者扫描下方二维码填写《开发者与AI大调研》,只需2分钟,便可收获价值299元的「AI开发者万人大会」在线直播门票!

推荐阅读

  • GitHub标星2000+,如何用30天啃完TensorFlow2.0?

  • 8比特数值也能训练模型?商汤提训练加速新算法丨CVPR 2020

  • 400 多行代码!超详细中文聊天机器人开发指南 | 原力计划

  • 微软为一人收购一公司?破解索尼程序、写黑客小说,看他彪悍的程序人生!

  • 机器学习项目模板:ML项目的6个基本步骤

  • BM、微软、苹果、谷歌、三星……这些区块链中的科技巨头原来已经做了这么多事!

  • 你点的每个“在看”,我都认真当成了AI

相关文章:

Linux环境安装卸载JDK以及安装Tomcat和发布Java的web程序

Linux环境:CentOS7.2 一.安装JDK 安装好的CentOS会自带OpenJdk,最好还是先卸载系统自带的JDK,然后自己重新去Oracle网站下载最新的JDK安装。 1.卸载系统自带的JDK 查看java信息 # java -version 查看JDK # rpm -qa | grep java 或者 还…

(转)详解css3弹性盒模型(Flexbox)

今天刚学了css3的弹性盒模型,这是一个可以让你告别浮动、完美实现垂直水平居中的新特性。 Flexbox是布局模块,而不是一个简单的属性,它包含父元素和子元素的属性。 Flexbox布局的主体思想是似的元素可以改变大小以适应可用空间,当…

Java开发环境的搭建以及使用eclipse创建项目

一、Java 开发环境的搭建 这里主要说windows环境下怎么配置Java环境。如果是Linux环境参考本博客另一篇文章即可: Linux环境安装卸载JDK 1.首先安装JDK java的SDK简称JDK。 去官网下载最新的JDK即可: http://www.oracle.com/technetwork/java/javase…

​MMIT冠军方案 | 用于行为识别的时间交错网络,商汤公开视频理解代码库

作者 | 商汤出品 | AI科技大本营(ID:rgznai100)本文主要介绍三个部分:一个高效的SOTA视频特征提取网络TIN,发表于AAAI2020ICCV19 MMIT多标签视频理解竞赛冠军方案,基于TIN和SlowFast一个基于PyTorch,包含大…

MySQL的主从服务器配置

MySQL的主从服务器配置常见开源数据库有:MySQL,PostgreSQL,SQLite等,商业性质的:Oracle,Sql Server,DB2,Sybase,Infomix其中,Oracle的版本有Oracle 11g,Oracl…

Anaconda中安装Orange3脚本-完整版

2019独角兽企业重金招聘Python工程师标准>>> #Anaconda中安装Orange3脚本,完整版。包括插件的安装,在脚本中一次完成。 sudo apt-get update sudo apt-get -y install git python-pip python-virtualenv python-qt4-dev python3-pyqt4 libqt…

使用eclipse创建Struts2项目

eclipse版本: Kepler Service Release 1 http://www.eclipse.org/downloads/ struts版本:2.3.16 http://struts.apache.org/ 1.新建web项目 打开Eclipse,新建一个web项目"Struts2" 项目名字 勾选 web.xml选项 建好的…

8、进程通信-匿名管道

匿名管道 一个单向,未命名的管道,通常用来在一个父进程和一个子进程间传输数据。只能实现本地机器上两个进程间的通信,而不能实现跨网络的通信。 BOOL CreatePipe( PHANDLE hReadPipe, // read handle PHANDLE hWriteP…

Enhanced-RCNN: 一种高效的比较句子相似性的方法 |​WWW 2020

作者 | 彭爽出品 | AI科技大本营(ID:rgznai100)国际顶级会议WWW2020将于4月20日至24日举行。始于1994年的WWW会议,主要讨论有关Web的发展,其相关技术的标准化以及这些技术对社会和文化的影响,每年有大批的学者、研究人…

直接可以拿去用的正则验证表达式

直接可以拿去用的正则验证表达式为了方便自己也方便初学的学弟们,自己总结了网上的众多正则验证式,现分享给大家,可以直接拿去用。一、校验数字的1 数字:^[0-9]*$2 n位的数字:^\d{n}$3 至少n位的数字:^\d{n…

家庭局域网开启AP隔离利用无线路由器互连

一开始可以上网,可以ping网关192.168.1.1,但是几台电脑之间就是不能互ping。 其实,真实的原因就是没有开启无线路由器的AP隔离。 在浏览器中输入192.168.1.1进入路由搜索一般用户名密码都是admin,具体请参见自己路由的说明书 操…

通过 Python 代码实现时间序列数据的统计学预测模型

来源 | DeepHub IMBA封图 | CSDN 付费下载于视觉中国 在本篇中,我们将展示使用 Python 统计学模型进行时间序列数据分析。 目标是:根据两年以上的每日广告支出历史数据,提前预测两个月的广告支出金额。原始数据:2017-01-01 到 201…

神色洋溢的 域名背后的故事

前短时间,我刚申请一个域名,好的顶级域名都被被人一拥而上的都强去了,我只好找那些申请好的用户买呀,这叫炒作,就是这样的抄起来的。你说平常一个也就100左右就搞定,可是现在要是到那票手里,那就…

Rust语言开发基础(六)基础语法

2019独角兽企业重金招聘Python工程师标准>>> 一、变量的定义和使用 其它常见的编程语言对变量的定义通常是通过声明类型和使用关键new来创建一个变量,但Rust不是,Rust使用关键字let。 1. 变量绑定通过let实现 fn main() { let x 5; } 2. 变量…

400 多行代码!超详细 Rasa 中文聊天机器人开发指南 | 原力计划

作者 | 无名之辈FTER责编 | 夕颜出品 | 程序人生(ID:coder_life)本文翻译自Rasa官方文档,并融合了自己的理解和项目实战,同时对文档中涉及到的技术点进行了一定程度的扩展,目的是为了更好的理解Rasa工作机制…

Linux配置SSH无密码登陆

可以使用“公钥私钥"认证的方式来进行ssh登录。 所谓 "公钥私钥"认证方式,就是首先在客户机上创建一对公钥和私钥,公钥文件:~/.ssh/id_rsa.pub; 私钥文件:~/.ssh/id_rsa 然后把公钥文件放到目标服务器…

Linux进程浏览器htop安装与使用

htop 是一个 Linux 下的交互式的进程浏览器,可以用来替换Linux下的top命令。当前具有按树状方式来查看进程,支持颜色主题,可以定制等特性。其实htop是top的加强版,增加了很多功能。 官网 http://hisham.hm/htop/ 下载地址http:/…

什么?神经网络还能求解高级数学方程?

来源 | 数据派 THU封图 | CSDN 付费下载于视觉中国 Facebook AI建立了第一个可以使用符号推理解决高级数学方程的AI系统。通过开发一种将复杂数学表达式表示为一种语言的新方法,然后将解决方案视为序列到序列的神经网络的翻译问题,我们构建了一个在解决积…

***和******

网络是一把双刃剑,它在人类社会的发展中起着越来越重要作用,但同时,网络自身的安全问题也像挥之不去的阴影时刻笼罩在人们心头。据不完全统计,全世界平均每 20秒钟就发生一起******事件,互联网上大约有20万个***网站可…

Linux监控工具dstat

dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都…

9月16号晚上,Asuka有一场关于Windows 7组策略的Webcast,欢迎兄弟们来捧场

之所以选题在组策略之一块,是因为Windows 7和2008 R2对于组策略有了很大的功能上的增强,但是很多IT人员都无法意识或者去重视这一块内容,所以我将从下面这3个角度去介绍这些更新。如果您正好有时间,那不妨来技术交流一番:)直播进入…

腾讯天衍实验室联合微众银行研发医疗联邦学习 AI利器让脑卒中预测准确率达80%

近几年,医疗行业正在经历一场数字化转型,这场基于大数据和AI技术的变革几乎改变了整个行业的方方面面,将“信息就是力量”这句箴言体现的淋漓尽致,人们对人工智能寄以厚望,希望它能真正深入临床一线,帮助医…

JavaSript模块化 AMD CMD 详解.....

模块化是指在解决某一个复杂问题或者一系列的杂糅问题时,依照一种分类的思维把问题进行系统性的分解以之处理。模块化是一种处理复杂系统分解为代码结构更合理,可维护性更高的可管理的模块的方式。可以想象一个巨大的系统代码,被整合优化分割…

在Eclipse中使用Maven构建Spring项目

最新版的Spring需要使用Maven构建,本文讲述怎么在Eclipse构建Maven项目,以配置Spring项目为例。 maven简单介绍 maven是构建工具,也是构建管理工具。ant只是构建工具,因为不支持生成站点功能,只有预处理,编…

Go 语言官网全新改版

2019独角兽企业重金招聘Python工程师标准>>> 前两天发现 Go 语言官网改版了,布局由原来的左中右变成了上中下结构,主色调没有变,整体依然保持简洁的风格。在首页添加了一个叫 Playground 的模块,它可以编译、运行你输入…

就在今晚 | 港科大李世玮教授问诊未来,开辟大湾区新航路

阳春三月,万象更新,2020年注定是不平凡的一年!有激荡就会遇见变革,有挑战就会迎来机遇。今天总会过去,未来将会怎样?香港科大商学院内地办事处重磅推出全新升级的《袁老师访谈录》全新系列【问诊未来院长系…

NLP(Natural Language Processing)

https://github.com/kjw0612/awesome-rnn#natural-language-processing 通常有: (1)Object Recognition (2)Visual Tracking (3)Image Generation (4)Video Analysis NLP: (1)Language Modeling (2)Speech Recognition…

Linux环境编程

1.__sync_fetch_and_add和__sync_bool_compare_and_swap gcc从4.1.2提供了__sync_*系列的built-in函数,用于提供加减和逻辑运算的原子操作。 其声明如下: type __sync_fetch_and_add (type *ptr, type value, ...) type __sync_fetch_and_sub (type *p…

AI新基建如何构建?浪潮给出了一个答案

作者 | Just出品 | AI科技大本营(ID:rgznai100)伴随生产力升级,社会基础设施也正在发生变化。而智慧时代的新型基础设施,要能够对外提供各种算力服务、数据服务和AI服务。浪潮认为,其核心是计算力的生产中心。因此&…

协作是企业管理的重点和难点

这个问题让我想起了一道数学题,11?。在生活中这个题目的答案会千差万别,更别说一个企业。在我眼中,企业中最难管的是关系,更准确的说是协作。 经理过好几个信息系统建设的项目,小到一个简单的邮件系统&…