当前位置: 首页 > 编程日记 > 正文

中国的“Databricks”们:打造AI基础架构,我们是认真的

AI落地最大的驱动因素是基础架构的升级。

近年来,大数据分析、AI等领域一直备受关注,常有引人关注的融资事件发生。美国数据科学公司Databricks刚刚在今年8月底完成了16亿美元H轮融资,其最新估值高达380亿美元,相比7个月前G轮融资时280亿美元的估值,又轻松增加了100亿美元。

Databricks“红了”,连带着“深巷里的美酒”——数据科学也得到了更多关注。虽然数据科学是一门复杂的学科,但如今已进入金融、工业乃至千行百业,这一过程其实也是AI从“可用”到“好用”的一个缩影。

“AI落地的关键,是其价值的彰显,以及寻找到适合的商业落地途径。”九章云极DataCanvas董事长方磊指出,“以前,人们认为算法可能是壁垒。但随着技术的快速迭代、开源开放,事实证明算法并非高不可攀,AI落地最大的驱动因素是基础架构的升级。”

AI基础架构升级刻不容缓

当前,中国正处于企业数智化转型的时代拐点。回顾信息化发展的历程可以发现,1980年-2000年,这是基础信息化时代,服务器、存储、操作系统、数据库等基础设施软硬件快速发展;2000年-2020年,进入到流程数字化时代,云计算开始大行其道,云成为基础设施,各类SaaS应用百花齐放;2020年以后,市场迈入新的阶段,其标志是“决策智能化”,相关领域包括数据科学平台、云原生数据仓库、开源技术等迎来爆发的机会。

决策智能化的实现,需要一个“智能化的底座”,也就是常说的AI基础架构。通过AI基础架构的不断完善和升级,AI应用落地的效率会更高,也更容易。“AI基础架构的价值就在于,它能够让企业在其上自主地开发AI应用。”方磊概括道。

AI落地的探索源于算法的创新,之后涌现出的一批AI企业,致力于为客户提供定制化的端到端的AI应用开发。这在无形中造成了AI落地的高门槛。随着各行各业对智能化的需求愈发迫切,AI已经成了众多行业头部客户的刚需。但是这些头部客户不仅业务规模庞大,而且十分复杂,其需求也各不相同。如果仍然沿用过去那种“千人千面”的定制化端到端应用开发模式,很难快速满足这些头部客户的业务需求,而且AI应用的门槛依然高高在上,客户始终掌握不了主动权。

“从各行业头部客户的需求来看,他们更希望围绕自身的业务开发自己的AI应用,这就需要一个自主可控的基础设施。”方磊表示,“依托AI基础架构,由企业自主开发AI应用,锻炼并形成自主的AI能力,这才是市场主流,也是AI应用落地的内驱力。”

Databricks之所以受到市场追捧,正是因为它以最擅长的流数据处理为出发点,向上发展机器学习、建模,向下打造数据湖仓一体,不断扩展和完善AI基础架构,为最上层的AI应用提供一个优化的承载平台,即AI Foundation。

来源:Databricks

实际上,目前内业对于AI基础架构还没有一个统一而明确的定义。但从应用实践,以及像Databricks这样的标杆企业的做法来看,AI基础架构至少包含两大基石,即“数据”与“算法”。

以前,大多数的应用都是离线的,比如获得一份营销名单。但是现在,客户对在线应用的需求越来越迫切,很多时候一个模型已经建好,却发现数据“供不应求”。由此可见,AI应用离不开一个实时的数据底座,AI基础架构的重要性在此时得以凸显。4年前,九章云极DataCanvas就开始打造支持高并发的实时数仓,如今经过品牌升级,一个功能和性能都更加完善的HSAP(Hybrid Serving/Analytical Processing)实时数仓产品DingoDB呈现出来。这就是九章云极DataCanvas眼中,AI应用不可或缺的数据底座。

谈到AI基础架构的门槛,方磊表示:“算法是技术上的门槛,但我们已经实现了突破。我们的自动机器学习产品,在性能等指标上已经不逊于国外同类产品,甚至更强。其实,更高的门槛还是在客户,或者说应用层面。当前,自建AI基础架构的需求主要集中在各行业的头部客户身上。作为AI厂商,必须有意愿和能力服务好这些头部客户。我们公司从2014年就开始专注并深耕这一领域。”

九章云极DataCanvas、Databricks像?不像?

从市场大势来看,正是决策智能化时代的到来,才使得像Snowflake、Databricks这样以数据为驱动,以创新的AI基础架构支撑AI、大数据应用落地的企业成了资本市场的宠儿。

就在Databricks成立的2013年,同样崇尚数据科学的九章云极DataCanvas也在中国顺势而起。尽管地处不同,但两者却有不少相似之处,尤其在能力建设和商业模式愿景上,九章云极DataCanvas和Databricks更颇有几分默契,这是巧合?还是殊途同归?

首先,两家公司的定位相似,都是数据科学的研发者、应用者和推动者,并且都在主攻AI基础架构升级的方向。但是由于出发点不同、所擅长的细分技术领域不同,Databricks最早以流数据处理成名,而九章云极DataCanvas则以开源自动机器学习见长,因此在具体构建AI基础架构时,两者选择的路径有所差异。

其次,从产品线来看,虽然在细节上略有差异,但从整体能力建设上看,两家公司的产品可以说是如出一辙,都涵盖了分析和数据两大部分。在分析部分,九章云极DataCanvas享有业内颇受好评的开源架构机器学习平台DataCanvas APS,该平台囊括了算子仓库、模型训练、数据处理、自动机器学习等,再配合数据层面的DingoDB实时数仓,构建出数据实时计算分析闭环。而Databricks除了众所周知的Spark以外,还有同样知名的数据湖仓一体Delta Lake,以及机器学习、数据测试与管理、数据解释和建模产品等。两家公司通过持续不断的创新,致力于让AI基础架构变得更加“厚实而饱满”,可谓异曲同工。

来源:九章云极DataCanvas

“在数据科学这一领域,我们与Databricks拥有相似的愿景、目标和战略,想做同样的事,即打造AI基础架构,将算力和网络充分利用起来。”方磊表示,“对于有人将我们称作‘中国的Databricks’,我们感到非常荣幸。这是对我们的一种认可。但我们也清醒地认识到,AI基础架构市场空间巨大,还有很多‘细致的活儿’要做。这也是我们继续快速前进的动力。”

把AI嵌入到云里去

任何一个想有一番作为的企业,肯定都不会满足于“成为别人”,九章云极DataCanvas也是如此,成为“中国的Databricks”不是终点,“做自己”成为一个独特的存在才是最终目标。

实际上,因为中美两国大到市场和竞争环境,小到企业的AI应用需求,都存在差异。在两块不同的土地上长出的苗,可能属于同一种类,但在个体上会有显著的差别。试举一例,在美国市场,一直是AWS、Azure、Google Cloud“三朵云”打天下。无论是Snowflake还是Databricks,都生长在这“三朵云”之上。但在中国,云计算市场大相径庭,云的碎片化现象显而易见,不同的区域、不同的行业可能造就了上千朵云。虽然从AI应用落地的角度,中美客户的需求没有差别,但是在具体的路径选择和落地方式上,还是有各自的倾向和习惯。

方磊坦言,九章云极DataCanvas现阶段将主要围绕各行业的头部客户群体,为其打造AI基础架构。因为这部分客户的需求最迫切,并且有资金也有技术能力实现AI的自主开发。基于对中国未来AI行业生态发展的预判,九章云极DataCanvas建设性地提出了“云中云”战略(An AI Cloud in the Clouds),即将AI基础架构及相关AI能力,嵌入到形形色色的行业云、区域云、企业云、联盟云等千朵云中。为了满足不同云生态的需求,九章云极DataCanvas必须让自己的解决方案实现更加灵活、高效的交付。而“云中云”显然是事半功倍的做法,可以很好地借力打力,将九章云极DataCanvas的AI能力随云输出。

来源:九章云极DataCanvas

对于AI基础架构,很多行业用户一开始的认知是模糊的,仍需要持续的教育。但是某些先行先试的行业头部企业,已经从AI基础架构的升级中尝到了甜头。比如在银行业,原来需要几天才能完成审批的贷款,现在可以实时审批;在制造业,工业质量检测能力的提升、设备预测性维护的实现等都得益于AI的应用……诸如此类的案例应用不胜枚举。

“在构建AI基础架构的基础之上,有数据、有场景、有预算、有团队,用户就可以开发自己的AI应用了。”方磊表示,“原来,用户习惯‘伸手’向厂商要‘交钥匙’的AI解决方案。但这种单独定制的解决方案并非长久之计。”例如某大型钢铁企业在全球拥有300多条产线,每条产线用到的设备、供应商各不相同。如果没有一个统一的平台支撑其建模、分析、应用开发和管理,那么系统将不堪重负。说到底,用户还是要依靠自身AI能力的提高,运用通用的技术,自主掌握AI应用开发。在这种情况下,AI基础架构就是必须的。这也是九章云极DataCanvas的商业机会。

珠玉在前 事半功倍

打造千朵云生态的AI基础架构,是九章云极DataCanvas的商业定位;而打造中国开源数据科学第一平台,则是九章云极DataCanvas的初心。两者并不矛盾。正相反,数据科学与AI基础架构从学科和商业应用两个不同的维度,在九章云极DataCanvas身上实现了平衡与统一。

在很长时间里,数据科学曲高和寡。在中国,像九章云极DataCanvas这样长期坚持深耕数据科学领域的厂商凤毛麟角。Databricks可以说是全球范围内数据科学领域最先跑出的企业。它居高不下的热度至少证明了,数据科学这个市场大有可为。

新基建、云原生、数智化升级、开源,在这些利好因素下,再加上有Databricks这样的珠玉在前,以及九章云极DataCanvas等公司多年来的精耕细作,数据科学的未来值得期待。

相关文章:

更改git bash默认的路径

在打开git bash时,每次都是在C:\Uer路径下,每次都需要先用cd命令转换到自己需要工作的路径(cd /f/dss)。修改打开git bash 时的默认的路径就可以不用每次都使用cd命令转换到需要管理的目录。 修改默认路径方法:右击Gi…

Gradle入门系列(4):创建二进制发布版本

本文由 伯乐在线 - JustinWu 翻译。未经许可,禁止转载! 英文出处:petrikainulainen。欢迎加入翻译组。 在创建了一个实用的应用程序之后,我们可能想将其与他人分享。其中一种方式就是创建一个可以从网站上下载的二进制文件。 这篇…

什么是A记录、MX记录、CNAME记录

什么是A记录? A (Address) 记录是用来指定主机名(或域名)对应的IP地址记录。用户可以将该域名下的网站服务器指向到自己的web server上。同时也可以设置域名的子域名。通俗来说A记录就是服务器的IP,域名绑定A记录就是告诉DNS,当你输入域名的…

Graph + AI 2021中国峰会:TigerGraph与行业共探图与AI应用前景

由企业级可扩展图分析平台TigerGraph主办的第二届“Graph AI中国峰会”将于10月20日线上举办,本届主题为“图创未来无界精彩”。作为全球唯一一个专注于图技术的行业峰会,“Graph AI峰会”自开办以来,受到数据行业专家及应用领域伙伴的持续…

rrdtool数据备份与迁移

rrdtool 显示错误ERROR: This RRD was created on another architecture rrdtool数据备份与迁移1.在原服务器生成xml文件 …

Format specifies type 'id' but the argument has type 'NSError *__autoreleasing *

我想打印error,但是出现了标题中的错误,代码如下: -(id)yobee_responseObjectForResponse:(NSURLResponse *)response data:(NSData *)data error:(NSError *__autoreleasing *)error { if (error) { NSLog("url ----> %\n error %&…

域名解析和cdn 原理

用户访问未使用CDN缓存网站的过程为: 1)、用户向浏览器提供要访问的域名; 2)、浏览器调用域名解析函数库对域名进行解析,以得到此域名对应的IP地址; 3)、浏览器使用所得到的IP地址,域名的服务主机发出数据访问请求; 4)…

首批 iPhone 13 用户直呼太“坑”:​拍照有马赛克、不能用高刷、还与 Apple Watch “失联”?...

整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)iPhone 13 到底香不香,早在 9 月 15 号的苹果秋季发布会上给了我们答案。对此,自然是仁者见仁智者见智:有人认为 iPhone 13 “加量不加价”挺划算,有人则…

《javascript语言精粹》读书笔记(一)

为什么80%的码农都做不了架构师?>>> 第一章 精华 任何语言都有其精华的部分和鸡肋的部分,javascript也不例外,而且鸡肋的部分还很多。但javascript的流行却不受他的质量影响。javascript为何如此流行?因为他是web浏览…

WPF 与Surface 2.0 SDK 亲密接触–LibraryContainer 篇

最近比较懒惰一直都没写东西,再不写笔里的墨水就快干了。看过前面关于LibraryStack 和LibraryBar 的介绍后,大家可能已经对Library 控件系列有了进一步了解,本篇将继续介绍LibraryContainer,它其实就是LibraryStack、LibrayBar 的…

Transformer 代码完全解读!

作者 | 安晟&闫永强来源 | Datawhale本篇正文部分约10000字,分模块解读并实践了Transformer,建议收藏阅读。2017年谷歌在一篇名为《Attention Is All You Need》的论文中,提出了一个基于attention(自注意力机制)结构来处理序列相关的问题的模型&am…

php后台开发(二)Laravel框架

php后台开发(二)Laravel框架 为了提高后台的开发效率,往往需要选择一套适合自己的开发框架,因此,选择了功能比较完善的Laravel框架,仔细学来,感觉和Python语言的框架Django非常类似。 Laravel框…

Redis的介绍

Redis的介绍数据库主要类型有对象数据库,关系数据库,键值数据库等等,对象数据库太超前了,现阶段不提也罢;关系数据库就是平常说的MySQL,PostgreSQL这些熟的不能再熟的东西,至于键值数据库则是本…

从源代码编译里程碑的 ICS ROM

从源代码编译里程碑的 ICS ROM 操作系统选择 Ubuntu 10.04, 可以用虚拟机;安装 Android SDK , 并更新;打开命令行窗口, 输入下面的命令, 准备编译环境: sudo apt-get install git-core gnupg f…

Varnish purges 缓存清除

Varnish的缓存清除非常复杂。无论是Varnish的清除方式还是清除时候使用的语法规则等,都是比较复杂。为了理解他,我花费了不少时间,现在我很高兴我知道怎么来解释给大家听了。 1、Varnish有两种方式来清除缓存,其中一种方式是通过命…

如何快速搭建智能人脸识别系统

作者 | 小白来源 | 小白学视觉网络安全是现代社会最关心的问题之一,确保只有特定的人才能访问设备变得极其重要,这是我们的智能手机设有两级安全系统的主要原因之一。这是为了确保我们的隐私得到维护,只有真正的所有者才能访问他们的设备。基…

全局唯一ID生成方案

2019独角兽企业重金招聘Python工程师标准>>> 全局唯一ID生成方案对比 - http://cenalulu.github.io/mysql/guid-generate/ 转载于:https://my.oschina.net/meilihao/blog/386264

大型互联网 b2b b2c o2o 电子商务云平台

技术解决方案 开发语言: java、j2ee 数据库:mysql JDK支持版本: JDK1.6、JDK1.7、JDK1.8版本 核心技术:分布式、云服务、微服务、服务编排等。 核心架构: 使用Spring Cloud分布式微服务云架构进行服务化开发&#xff0…

Linux下redis安装部署

1、下载源代码 http://code.google.com/p/redis/downloads/list 下载redis-1.2.6.tar.gz 将下载包拷贝到/usr/local/webserver/redis-1.2.6/下 2、安装 tar -zxvf redis-1.2.6.tar.gzce redis-1.2.6make 3、调整内存 如果内存情况比较紧张的话,需要设定内核参数&am…

阿里无人车配送快递突破 100 万单,小蛮驴牵引的自动驾驶战略布局

作者 | 张昊 出品 | AI科技大本营(ID:rgznai100) 从物流的“最后”三公里中,我们看到了自动驾驶技术的“最前”沿 在9月27日举办的达摩院媒体沟通会上,阿里巴巴集团副总裁、达摩院自动驾驶实验室负责人王刚宣布,达摩院…

[Python] 中文路径和中文文本文件乱码问题

情景: Python首先读取名为log.txt的文本文件, 其中包含有文件名相对路径信息filename. 随后Python调用shutil.copy2(src, dst)对该filename文件进行复制操作. 由于filename为相对路径信息, 所以我们需要硬编码写入父目录, 假设为"C:\\源目录\\", 同时还有目标目录信息…

kubernetes Helm

Helm产生原因利用Kubernetes部署一个应用,需要Kubernetes原生资源文件如deployment、replicationcontroller、service或pod 等。而对于一个复杂的应用,会有很多类似上面的资源描述文件,如果有更新或回滚应用的需求,可能要修改和维…

造车新势力“围猎”秋招,应届生如何拿下高薪 offer ?

作者 | 易璜珵 出品 | 《新程序员》近年来,互联网大厂的秋招开启得越来越早,只为先人一步将优秀的毕业生纳入麾下。所谓“金九银十”,九月即将结束,许多大厂的秋招正式批也逐渐进入笔试和面试环节。在新能源汽车领域&#xf…

云评测、云监测、云加速,性能魔方mmTrix全球速度最快

在移动互联网高速发展的今天,互联网企业如果要实现业务增长,在激烈的市场竞争中站稳脚跟,必须要尽可能的提高用户体验和产品影响力。而要达实现这个目标,产品应用性能质量的好坏往往起到重要作用,APM服务受到了越来越多…

水平切分与垂直切分

数据库优化无非水平切分与垂直切分! 1.水平.就是按记录分. 一个数据库有3000W用户记录.处理速度比较慢.这时可以把3000W.分成三份.每份都是1000W.分别放在不同的机器上. 2.垂直分割就是按字段分. 一个数据库有3000W用户记录.包括字段id,user,password,first_name,l…

iOS 设计模式浅析 1 - 策略

本篇文章主要讲三个点: 1. 什么是策略模式.2. 策略模式的优缺点.3. demo .1. 策略模式定义一系列算法, 并且将每个算法封装起来, 算法之间可以互相替换. 使用前提: 输入已知, 好比你渴了, 可以喝可乐, 可以喝牛奶, 也可以喝水. 在我们项目中比较常见的使用情况: 1. 切换主题, 要…

何崚谈阿里巴巴前端性能优化最佳实践

转载:http://www.infoq.com/cn/interviews/hl-alibaba-front-end-performance-optimization 大家好,我现在在阿里巴巴园区采访阿里巴巴中文站架构师,兼B2B网站优化领域的负责人何崚。何崚你好,请简单介绍一下你自己。 我叫何崚&am…

java基础_04

2019独角兽企业重金招聘Python工程师标准>>> 1、java语言的程序结构。Java语言支持3种程序结构:顺序结构、选择结构(分支结构)、循环结构2、顺序结构是最简单、最普遍的一种。java程序如果没有意外都是按照从前到后、从左到右的顺…

会唱歌、会弹琴,清华大学 AI 学生华智冰火了

整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 清华大学计算机系知识工程实验室,开发的中国首个原创虚拟学生——华智冰,与近日亮相。她的声音、肢体动作全部由人工智能完成。 今年6月,清华大学计算机系录取了一位…

22. Node.Js Buffer类(缓冲区)-(二)

转自:https://blog.csdn.net/u011127019/article/details/52512242转载于:https://www.cnblogs.com/sharpest/p/8046463.html