数据科学究竟是什么?
数据科学是一门将数据变得有用的学科。它包含三个重要概念:
- 统计
- 机器学习
- 数据挖掘/分析
数据科学的定义
如果你回顾一下数据科学这个术语的[早期历史](),会发现有两个主题密切相连:
- 大数据意味着计算机的使用频率增加。
- 统计学家很难将纸张上所写算法用计算机实现。
由此,数据科学得以出现。早先,人们将数据科学家视作会编码的统计学家。如今看来,这种说法并不准确,首先让我们回到数据科学本身。
推特给出的定义circa 2014
2003年,《数据科学杂志》曾提出:“所谓的‘数据科学’,指的是那些任何与数据相关的内容”。对此,我表示赞同,现在一切都无法与数据分割。
之后,对数据科学的定义便层出不穷,例如Conway的维恩图,以及Mason和Wiggins的经典观点。
Drew Conway对数据科学的定义
维基百科上对数据科学的定义更接近于我给学生讲授的内容:
数据科学仅是一种概念,它结合了统计学、数据分析、机器学习及其相关方法,旨在利用数据对实际现象进行“理解和分析”。
简单来讲:数据科学是一门将数据变得有用的学科。
现在你也许不禁会问,“这会不会太简单了,‘有用’怎么就能包含所有的术语呢?”
先看下图,该图内容与维基百科给出的定义十分契合:
这些都是什么,我们又如何知道处于图中所描述的哪个阶段呢?
统计学家和机器学习工程师的区别不在于前者使用R,而后者使用Python。由于众多原因,按照SQL、R、Python进行分类是不合理的,其中最重要的原因是软件会更新。目前,已经可以用SQL来处理机器学习问题。
新手依旧喜欢采用这种方式进行区分,甚至很多大学课程也是如此安排,但这不够合理。并且,最好不要采用直方图、t检验以及神经网络进行分类。如果你足够聪明,并且拥有自己的观点,你可以使用相同的算法解决所有的数学科学问题。
我建议可按如下方式进行区分:
None-One-Many
这究竟指的是什么呢?没错,就是决定!当所有你需要的事实对你可见时,你可以通过描述性分析做出尽可能多的决定。
我们的行动和决定会影响到我们周围的世界。
接下来我们将继续探讨如何让数据变得有用。对我来说,有用的概念与影响世界的行动紧密相连。举个形象的例子:如果我们相信圣诞老人的存在,那圣诞老人这个概念就不重要了,除非它可能会以某种方式影响我的行为。然后,取决于这种行为的潜在后果,它可能开始变得非常重要。
下图是决策导向图,您可以通过以下三步让数据变得有用。
数据挖掘
如果你不知道你要作何决定,最好的办法就是去寻找灵感。这就是所谓的数据挖掘、数据分析、描述性分析、探索性数据分析或知识发现。
分析的黄金准则:只对你所见的下结论。
除非你知道如何制定你的决策,否则就从寻找灵感开始吧。做法很简单,只需要你将数据集想象为你在黑暗的房间中发现的一堆底片。数据挖掘就是让设备尽可能快地公开所有的图片,这样你就能看到这些图片上是否有什么鼓舞人心的东西。和照片一样,不要把你看到的东西想得太严肃。你没有拍这些照片,所以你对屏幕之外的东西了解不多。数据挖掘的黄金法则是:只对你能看到的做出结论,不对你看不到的做出结论,因为你需要统计数据和更多的专业知识。
除此之外,你还应尽力做到最好。数据挖掘的专业知识是通过检查数据的速度来判断的,不要迷恋那些看似有趣的东西。
暗房一开始很吓人,但其实也没什么大不了的。只要学会操作设备就行。这是R语言的教程,这是Python语言的教程。当你开始玩得开心时,你可以称自己为数据分析师,当你能够以闪电般的速度曝光照片以及所有其他类型的数据集时,你就可以称为专家分析师。
统计推断
灵感很容易获取,但严谨却很难做到,如果你想掌握数据,则需要专业课程的学习。作为一名统计学专业的本科生和研究生,我认为统计学推论(简称统计学)是这三个领域中最难且最具哲学思想的。想要做好它需要花费不少的时间。
如果你打算做出高质量且风险可控的决策,由于决策不仅仅依赖你所得到的数据,此时你需要在你的分析团队中加入统计技能。
在情况不确定的时候,或许统计学能够改变你的想法。
机器学习
机器学习从本质上来讲,是使用示例而非指令来实现操作的。我也曾写过一些关于机器学习的文章,包括机器学习与人工智能有何不同、如何入门机器学习、企业运用机器学习的经验教训以及向孩子介绍监督学习等。
数据工程
数据工程指的是将数据传递给数据科学团队的工作。它本身就是一个复杂的领域,通常而言,它更接近于软件工程,而不是统计学。
数据工程与数据科学的差异是前后的区别。
获取数据之前的大部分技术工作都可以被称为“数据工程”,而获取到数据后我们所做的一切都是“数据科学”。
决策智能
决策智能是关于决策的,包括基于数据的大规模决策,这使得它变成了一门工程学科。利用社会和管理学科的观点,增强数据科学的应用。
决策只能是社会和管理学科的组成部分。换句话说,它是这些数据科学的超集,而不涉及为通用用途创建基本方法之类的研究工作。
以上为译文
本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。
文章原标题《What on earth is data science?》,作者:Cassie Kozyrkov,译者:Elaine,审校:袁虎。
文章为简译,更为详细的内容,请查看原文
相关文章:

SQL with NUll处理,Join系列,between,in对比exists以及少量题目
2019独角兽企业重金招聘Python工程师标准>>> 1.一些题目: 选择在每一组B值相同的数据中对应的a最大的记录的所有信息,(用于论坛每月排行榜) Selecta,b,c from tableta wherea(select max(a) from tabletb where tableb.b tableta.b ) 随机抽取出10条数据 Select to…

清华大学提出APDrawingGAN,人脸照片秒变艺术肖像画
作者 | 刘永进教授来源 | 转载自数据派THU(ID:DatapiTHU)清华大学提出APDrawingGAN,该项工作被CVPR 2019录取为oral paper。CVPR是计算机视觉和人工智能领域内的国际顶级会议,2019共收到投稿5160篇,录取1300篇…

图像处理和图像识别中常用的OpenCV函数
1. cvLoadImage:将图像文件加载至内存; 2. cvNamedWindow:在屏幕上创建一个窗口; 3. cvDestroyWindow:销毁显示图像文件的窗口; 4. cvDestroyAllWindows:销毁显示图像文件的所有窗口…

SQLServer之DEFAULT约束
原文:SQLServer之DEFAULT约束DEFAULT约束添加规则 1、若在表中定义了默认值约束,用户在插入新的数据行时,如果该行没有指定数据,那么系统将默认值赋给该列,如果我们不设置默认值,系统默认为NULL。 2、如果“默认值”字…

tmux/screen里面如何用鼠标滚轮来卷动窗口内容
tmux里面用鼠标滚轮来卷动窗口内容在 tmux里面,因为每个窗口(tmux window)的历史内容已经被tmux接管了,所以原来console/terminal提供的ShiftPgUp/PgDn所显示的内容并不是当前窗口的历史内容,所以要用C-b [ 进入copy-mode,然后才能…

图像空间变换--imtransform
转自:http://juyishaanxi.blog.163.com/blog/static/602733002010522105439617/(非原处)空间几何变换将(w,z)坐标系上的图像变换为(x,y)坐标系上的图像,可以表示为: (x,y) T{(w,z) 比如: (x,y) T{(w,z)} (w/2, z/2) 仿射变…

谷歌用1.2万个模型“推翻”现有无监督研究成果!斩获ICML 2019最佳论文
作者 | 夕颜、Just出品 | AI科技大本营(ID:rgznai100)6 月 11 日,在美国加州长滩举行的 ICML 公布了 2019 年最佳论文奖,来自苏黎世联邦理工大学、谷歌大脑等的团队和英国剑桥大学团队摘得最佳论文奖项,此外,大会还公布了 7 篇获最…

实战:掌握PyTorch图片分类的简明教程 | 附完整代码
作者 | 小宋是呢转载自CSDN博客1.引文深度学习的比赛中,图片分类是很常见的比赛,同时也是很难取得特别高名次的比赛,因为图片分类已经被大家研究的很透彻,一些开源的网络很容易取得高分。如果大家还掌握不了使用开源的网络进行训练…

python group()
正则表达式中,group()用来提出分组截获的字符串,()用来分组 import re a "123abc456" print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0) #123abc456,返回整体 print re.sea…

图像配准的方法
转自:http://blog.sina.com.cn/s/blog_4b9b714a0100d5k5.html 图像配准的方法 1 基于特征的图像配准 基于特征的图像配准首先提取图像信息的特征,然后以这些特征为模型进行配准。特征提取的结果是一含有特征的表和对图像的描述,每个特征由…

微软发布Visual Studio 2017 15.8
2019独角兽企业重金招聘Python工程师标准>>> 对于C#/VB/C项目,在Git分支检出和分支切换操作后不再需要重新加载解决方案,这加快了操作的完成。15.8支持新推出的F# 4.5,这无疑将会受到F#开发人员的欢迎。此外,用于F#项目…

推荐系统产品与算法概述 | 深度
作者丨gongyouliu转载自大数据与人工智能(ID:gh_b8b5b02c348b)作者在《推荐系统的工程实现》(点击蓝字可回顾)这篇文章的第五部分“推荐系统范式”中讲到工业级推荐系统有非个性化范式、完全个性化范式、群组个性化范式、标的物关…

【iOS-cocos2d-X 游戏开发之十六】Cocos2dx编译后的Android自动使用(-hd)高清图设置自适应屏幕...
本篇主要介绍Cocos2dx项目开发过程中或者说项目务必遇到的一些知识点(ps.貌似Himi博客写的都是务必的 :tx: Himi认为写别人没写的才更容易吸引人不是~) OK,不多说废话,第一个介绍的是修改项目配置让你的Android项目支…

matlab图像处理命令(一)
转自:http://blog.csdn.net/langyuewu/archive/2009/05/02/4144120.aspx(非原处) 1.applylut 功能: 在二进制图像中利用lookup表进行边沿操作. 语法: A applylut(BW,lut) 举例 lut makelut(sum(x(:)) 4,2); BW1 imread(text.tif); BW2 applylut(BW1,lut); imsh…

MYSQL 查询数据排序数据和分组数据
在mysql查询过程中,可以对数据进行过滤,也可以对数据进行排序,可以对数据分组,下面分别讲述排序数据和分组数据例子。1,数据的排序 使用 ORDER BYselect * from where id10 order by id (正序,倒序)正序 AS…

Oracle RAC系列之:利用srvctl管理RAC数据库
srvctl即Server Control,是Oracle提供的一个命令行工具,用以用于管理Oracle的RAC环境。srvctl在Oracle 9i中被引入,Oracle10g、11g对其功能进行了很大的增强和改进。下面介绍下此命令的简单用法。 一、 查看实例状态(srvctl statu…

matlab图像处理命令(二)
转自:http://blog.163.com/crazyzcs126/blog/static/1297420502010229104452729/ (非原处) 图像增强 1. 直方图均衡化的 Matlab 实现 1.1 imhist 函数 功能:计算和显示图像的色彩直方图 格式:imhist(I,n) imhist(X,map) 说明&#x…

10万人的1000万张图像,微软悄然删除最大公开人脸数据集
作者 | 神经小姐姐转载自HyperAI超神经(ID:HyperAI)前几日,微软静悄悄地删除了一个公开的名人图片数据集。这个本为世界上最大的公开人脸识别数据集,现在已经不能通过微软的渠道访问。这个数据集包含了 10 万张名人面部…

密码学原理学习笔记
攻击的类型: 唯密文攻击(COA):攻击者只知道密文 已知明文攻击(KPA):攻击者知道同一密钥下密文对应的明文。 选择明文攻击(CPA):攻击者可以事先任意选择一定数量的明文,让被攻击的加密算法加密,并得到相应的密文。 选择…

终于申请博客了
今天终于下定决心在51CTO博客安家了。以后要坚持不断的写博客。以此来督促自己不断的学习和总结。把自己所掌握的技术和过往经验总结出来。转载于:https://blog.51cto.com/weijishui/971044

一种二维条码图像处理流程
目前,二维条码主要分两类: (1)、堆叠式二维条码:PDF417、Code 49; (2)、矩阵式二维条码:QR Code、Maxicode、Data Matrix。 本条码类似于Maxicode,处理过程大致为: (1)、图像灰度化ÿ…

vue中 静态文件引用注意事项
(一)assets文件夹与static文件夹的区别区别一:assets文件是src下的,所以最后运行时需要进行打包,而static文件不需要打包就直接放在最终的文件中了区别二:assets中的文件在vue中的template/style下用../这种…

百度AI快车道—企业深度学习实战营,推荐系统主题专场即将开课
身处信息过载的时代,在各大门户网站上,每天会有十万左右的新闻报道产出,京东淘宝等购物平台每小时就有上百万的商品上架出售,在B站、优酷、爱奇艺、搜狐等视频网站上每秒就有几百个小时的视频上线。所有人都正在经历一场信息变革。…

SIFT特征提取算法总结
转自:http://www.jellon.cn/index.php/archives/374 一、综述 Scale-invariant feature transform(简称SIFT)是一种图像特征提取与匹配算法。SIFT算法由David.G.Lowe于1999年提出,2004年完善总结,后来Y.Ke(2004)将其描述子部分用PCA代替直方…
一步步构建大型网站架构
之前我简单向大家介绍了各个知名大型网站的架构,MySpace的五个里程碑、Flickr的架构、YouTube的架构、PlentyOfFish的架构、WikiPedia的架构。这几个都很典型,我们可以从中获取很多有关网站架构方面的知识,看了之后你会发现你原来的想法很可能…

商汤科技举办病理、放疗两大MICCAI国际挑战赛,推动AI医疗落地
近日,商汤科技宣布将联合衡道病理、上海交通大学医学院附属瑞金医院、西京医院、上海市松江区中心医院举办MICCAI 2019消化道病理图像检测与分割国际挑战赛,联合医诺智能科技、浙江省肿瘤医院举办MICCAI 2019放疗规划自动结构勾画国际挑战赛,…

vue实战(1)——解决element-ui中upload组件使用多个时无法绑定对应的元素
解决element-ui中upload组件使用多个时无法绑定对应的元素 以前写的项目关于图片上传的都是单张或几张图片上传(主要是基于vue的element),图片路径都是固定写的,所以遇见过列表中多个上传图片的问题,先看下常用的形式 …

MVVM开发模式MVVM Light Toolkit中使用事件和参数传递
Light中定义了类GalaSoft.MvvmLight.Command.RelayCommand这个类继承了ICommand方法,实现了其中的方法,Action就是一个方法参数// 摘要: // A command whose sole purpose is to relay its functionality to other objects // by invoki…

harris角点检测与ncc匹配
转自:http://zixuanjinan.blog.163.com/blog/static/11543032620097510122831/ file1:-------------------------------------------------------------------------------------- function [y1,y2,r,c]harris(X)% 角点的检测,利用harris 算法% 输出的是…

CVPR 2019超全论文合集新鲜出炉!| 资源帖
整理 | 夕颜出品 | AI科技大本营(ID: rgznai100)实不相瞒,这是一个资源福利帖——CVPR 2019 接收论文超全合集!此前关于 CVPR 2019 论文和合集出过不少,但是这个可能是最全面最丰富的,链接奉上:…