《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一一2.1 引言...
本节书摘来自华章计算机《数据科学R语言实践:面向计算推理与问题求解的案例研究法》一书中的第2章,第2.1节,作者:[美] 德博拉·诺兰(Deborah Nolan) 邓肯·坦普·朗(Duncan Temple Lang) 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.1 引言
在这个“数据免费且无处不在”的时代,我们在搜寻数据上拥有巨大的潜力,这些数据可以使我们洞悉专业领域的问题或个人感兴趣的主题。例如,我们可能对理解人的体能如何随年龄的增长而变化产生兴趣。对于这个问题,其中一个数据源来自公路赛。每年有成百上千人参加公路赛,比赛的组织者收集参赛选手的比赛用时信息并通常在网上发布个人相关的数据。这些可以免费访问的数据能够帮助我们深入了解有关个人体能和年龄之间关系的问题。
每年有许多公路赛,其中一个经典的赛事是樱花开放的4月初在华盛顿地区举行的樱花10英里公路赛。樱花公路赛始于1973年,当时是即将参加波士顿马拉松的跑步精英们的一场训练赛。随着知名度的提高,到了2012年有将近17 000人参与该项赛事,参赛者的年龄跨度从9岁一直到89岁。这项赛事变得十分流行,以致参赛选手需要通过抽奖方式进行选拔,或者他们需保证向官方竞赛慈善机构捐款500美金以获得参赛资格。每年比赛结束之后,组织者都会在http://www.cherryblossom.org/上公布结果(见图2-1),这些数据为研究年龄与比赛成绩之间的关系提供了巨大的资源。
樱花10英里公路赛公开的结果可以从网站上抓取并读入R中[3]以备分析。当前公布的结果包括所有从1999年到2012年的赛事成绩。 稍微具有挑战性的任务是从网站上抓取结果并将其格式化为能在R中分析的形式,这是因为被记录的信息以及信息的格式每年都在变化。一些简单的格式上的差异体现在表头格式和脚注的使用上,有些表中还会包含一些错误,例如,一些值出现在错误的列中,表头缺失,等等。总的来说,数据的获取是相当简单的,但是由于我们要发现一些小错误,那么该过程就变成了一个迭代处理。这里我们用统计的方法实现这个迭代过程,例如,我们检查已经读入R中的数据的汇总统计和分布图,发现异常点,比如2003年所有参赛选手的年龄都小于9岁等,并使用原始表格中的数据对样本观测值进行交叉校验,在某种程度上用尽可能通用的方法来修正代码以解决问题,重新生成数据并重复以上过程。这是有关“凌乱”数据的处理过程。它是2.2节和2.3节中重点关注的问题。此外,2.7节为那些对整个数据获取过程感兴趣的读者介绍了如何从网站上抓取比赛结果的主题。
图2-1 樱花公路赛网站截图。该网页包含每年比赛结果的链接。他们提供的最早数据是1999年的数据。男子组和女子组的结果被分别列出
在将数据成功读入R中并清洗之后,我们在2.4节中研究跑步时间与年龄的关系。鉴于比赛的普及,像数据可视化这样简单的任务也将面临挑战,我们要考虑怎样以一种信息丰富的方式展现数以万计的观察结果。
对于任何一年的比赛结果,我们都有一个成绩-年龄的关系横截面视图。也就是说,我们观察的是不同年龄组的人群和他们的跑步时间,而不是在他变老的过程中观察单个个体的比赛成绩。然而,我们拥有14个年度的赛事成绩,而且许多参赛选手参加了多场比赛,如果我们可以将单个选手几年内的跑步时间联系起来,就可以检测他的成绩随着年龄增长的变化情况。这些数据包括跑步者的姓名、年龄和居住地,因此我们将考虑怎样使用这些信息构建个人跑步时间的纵向视图。这是2.5节的主题。
如果我们研究那些参加过多个年度比赛的选手,就会得到一个成绩的纵向视图。然而,对于一个参赛选手,我们最多有其14年的成绩,因此我们不能在参赛年龄18~89岁整个跨度范围内观察某个个体的成绩变化情况。那么,我们可以拼凑这些纵向数据得到一个比赛成绩对于年龄的函数估计吗?我们将在2.6节研究这个问题的解决方法。
计算方面的主题
使用正则表达式从预格式化的文本表中提取和清洗混乱的数据,并创建唯一标识符以匹配属于同一个体的记录。
采用统计技术来识别坏数据,并确认这些问题已被修正。
可视化具有大量观测值的数据(约150 000条记录)。
获得采用R公式语言进行绘图和建模的经验。
拟合采用最小二乘法的分段线性模型和采用局部平均的非参数化曲线。
比较数据结构,例如,用于支持和处理纵向数据的数据框和数据框列表。这里包含诸如tapply()、mapply()、sapply()和lapply()等“应用”函数的应用。
开发策略,以便使用recover()在报错后通过浏览活动函数的调用来调试代码。
为获得文本内容抓取简单的网页。
相关文章:
Matlab数据的可视化 -- 三维特殊图形
本篇微信图文主要介绍Matlab数据可视化方面的内容。plot3,bar3,barh3,scatter3

baidumap api MySQL_百度地图API开发笔记一(基础篇)
什么是百度地图API?百度地图API是一套由JavaScript语言编写的应用程序接口,它能够帮助您在网站中构建功能丰富、交互性强的地图应用。百度地图API包含了构建地图基本功能的各种接口,提供了诸如本地搜索、路线规划等数据服务。测试js API代码(…
Matlab数据的可视化 -- 三维网格图形
本篇微信图文主要介绍Matlab数据可视化方面的内容。mesh,meshc,meshz

我国网络安全人才培养缺口巨大
近日在武汉举行的国家网络安全宣传周的相关论坛上,我国网络安全人才培养缺口巨大成为与会专家热议的话题。来自中央和地方相关部门、高校研究者、互联网企业代表均认为,我国网络安全人才输出仍距国家、企业需求有较大差距。 去年6月ÿ…

如何写网站的robots.txt和meta name robots的配置
robots.txt基本介绍robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该…

mysql innodb_data_file_path_关于innodb_data_file_path设置
关于innodb_data_file_path设置启动Mysql时报错,无法正常启动,通过日志发有数据文件大小错误,日志如下截图:[ERROR] InnoDB: auto-extending data file /usr/local/mysql/data/ibdata1 is of a different size 768 pages (rounded…

BM提供支持云的量子计算平台,以加速创新
IBM研究院日前首次宣布公众可试用IBM量子处理器。从5月4日开始,IBM通过云服务,使所有有兴趣亲自实践的人们可以接触到量子处理器,帮助科学家和科研社区加速科技创新,并在该领域激发出更多的前沿应用。 这仅仅是量子计算时代的开始…
Matlab数据的可视化 -- 图形格式的设置
本篇微信图文主要介绍Matlab数据可视化方面的内容。title、x,y,zlabel、legend、title、axis、text等

(转)koogra--Excel文件读取利器
koogra是一个.net平台下开源的excel读取程序,可以在开源社区下载它。使用它我们无需office就可以读取excel文件。尽管这个程序已经停止了更新,但是它还是很好用的。下面介绍怎么使用它。下载到该程序的源代码,编译生成Net.SourceForge.Koogra…

mysql切换系统盘命令_mysql常用命令
一、连接MySQL格式: mysql -h主机地址 -u用户名 -p用户密码1、例1:连接到本机上的MYSQL。首先在打开DOS窗口,然后进入目录 mysqlbin,再键入命令mysql -uroot -p,回车后提示你输密码,如果刚安装好…
Matlab数据的可视化 -- 视角与色彩控制
本篇微信图文主要介绍Matlab数据可视化方面的内容。view,colormap

大数据、智慧城市成生态贵州新名片
2016年中国贵州内陆开放型经济试验区跨境投资贸易洽谈会将于11月10日在贵安新区正式开幕。据主办方介绍,此次洽谈会邀请了来自美国、澳大利亚等24个国家和地区的100多家境外企业,以及1000多家国内企业参加,预计签约总金额或超过1400亿元。 9日…

提升网络安全 十大策略全面巩固企业内网
几乎所有企业对于网络安全的重视程度一下子提高了,纷纷采购防火墙等设备希望堵住来自Internet的不安全因素。然而,Intranet内部的攻击和入侵却依然猖狂。事实证明,公司内部的不安全因素远比外部的危害更恐怖。 大多企业重视提高企业网的边界安…

oracle mysql事物隔离级别_Oracle数据库事物隔离级别
事务隔离级别:一个事务对数据库的修改与并行的另一个事务的隔离程度。两个并发事务同时访问数据库表相同的行时,可能存在以下三个问题:1、幻想读:事务T1读取一条指定where条件的语句,返回结果集。此时事务T2插入一行新…
Matlab数据的可视化 -- 柱形立体图
本篇微信图文主要介绍Matlab数据可视化方面的内容。cylinder

中国大陆光伏中上游触底反弹 台湾省亦酝酿涨势
太阳能需求在中国十一长假前回温,厂商受限于人力的调配,难以立即将稼动率全开,使得短期供给无法立即上升以呼应需求,因而中国大陆市场从多晶硅至电池片价格出现短暂触底反弹的情形,台湾省厂商也正酝酿涨价动能。 多晶硅…

js版的box2D
http://sourceforge.net/projects/box2d-js/files/ 受不了了 转载于:https://www.cnblogs.com/vilyLei/articles/1522800.html

mysql 安装 se_mysql的安装过程
(1)下载mysql。(2)解压文件到特定位置。我解压到:/home/jim/Software(3)创建Mysql组和用户。mysql中的一个用户名就是链接mysql服务器时指定的用户名,该名字不必与linux登陆名联系起来,但是必须是linux系统下建立的用户。命令为:g…

创新类编辑推荐:Sequence iBPMS平台
创新类编辑推荐是Sequence,一个“iBPMS”工作流管理平台。本文介绍了该产品以及用户是如何成功使用该平台的。 SearchSOA的编辑会定期为创新性和市场影响而表彰应用集成和现代化技术。PNMsoft的Sequence iBPMS是2016年4月份的编辑推荐。 产品名称: Seque…
Matlab数据的可视化 -- 简易表面图
本篇微信图文主要介绍Matlab数据可视化方面的内容。ezsurf

PL/SQL学习笔记-常量变量及数据类型初步
一:常量和变量 开始之前,还是照例做个经典的例子,如下: declare mydate varchar2(16) : hellow world; begindbms_output.put_line(mydate); end; declare是声明部分我在这个部分声明了varchar2类型的变量,名字叫myda…

python邮件发送哪个好_最全总结!聊聊 Python 发送邮件的几种方式
1. 前言邮件,作为最正式规范的沟通方式,在日常办公过程中经常被用到我们都知道 Python内置了对 SMTP 的支持,可以发送纯文本、富文本、HTML 等格式的邮件本文将聊聊利用 Python 发送邮件的 3 种方式2. 准备以 126 邮箱为例,在编码…

数据库与操作系统时区更改
ORACLE 11G 新部署的环境,刚使用GOLDENGATE 进行完数据迁移和同步,发现ORACLE 自动收集的任务时间 并不是设定的晚上22点启动。检查AIX 时区发现设置的CDT ,数据库的TIMEZONE 是CST6CDT,与系统管理 员沟通,他答复…
Matlab数据的可视化 -- 三维表面图
本篇微信图文主要介绍Matlab数据可视化方面的内容。surf

为自定义控件添加页面响应事件
ascx:<asp:Button ID"Button1" runat"server" Text"Button" OnClick"Button1_Click" />ascx.cs:(1)public delegate void PostBackDelegate(); //定义委托类型public event PostBackDelegate PostBackEvent; //定义委托对象pr…

trogan连接不上_解决连接不上网(Connection not connected).doc
解决连接不上网(Connection not connected).doc解决连接不上网(Connection not connected)The computer doesnt connect to broadband and has a large collection of code problemsSome broadband connection error handlingBroadband connection error 691 (denied access du…

ASP.NET 3.5揭秘-读书笔记1
ASP.NET和.NET FrameworkASP.NET是微软.NET Framework的一部分。.NET Framework由两部分组成:框架类库(Framework Class Library)和公共语言运行库。框架类库:实现了各种各样功能的类的集合,使编程更简单。命名空间程序集(Assembly): 类在硬盘上的表现—…
【C#串口编程计划】串口编程简介
介绍C#串口编程的基本知识。

中国电信换将 三家运营商未来将如何争战
中国电信长期缺董事长的尴尬终于得到解脱,新任董事长走马上任,当然,也不是新人,已经代理工作很长时间的总经理而已。如此,新一代的电信运营商领导层再一次完整,下一步会怎么走呢? 对于资本市场来…

java hanoi_Hanoi问题java解法
用什么语言解法都差不多,思路都是一样,递归,这其中只要注重于开始和结果的状态就可以了,对于中间过程,并不需要深究。(我细细思考了一下,还是算了。_)代码其实很简单注重的是思路。问题描述:有一…