当前位置: 首页 > 编程日记 > 正文

Data - 深入浅出学统计 - 上篇

本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达。

:以漫画形式来讲解最基本的统计概念和方法。

  • ISBN: 9787121299636
  • https://book.douban.com/subject/26906845/

引言:统计无处不在

统计值无处不在。我们伴随着统计值出生,离开后也会化为统计值。
统计帮助我们把握重要事件的大量数据。进而帮助我们更好地理解这个千变万化的世界,并操纵世界。

统计的真正力量更为特别,统计帮助我们在信息有限的情况下,做出充满信心的决策。
我们总是希望能够得到所有数据,接着算出结果,但显然这很难做到。
实际上,我们只能得到的有限的信息,但好在通过统计工具,能使用这些有限的信息,对所有的情况做出充满信心的描述。

统计学是展示数据的工具,而不是解释数据的工具。
也就是说,“统计”只是将隐藏在混杂的、扑朔迷离的数据中规律性信息,以一种方便解释、易于理解的方式表达出来,用来帮助人们做出判断,而不是代替人们下判断。

以下内容主要讲的就是统计学的基本问题:如何通过样本来充满信心的描述整体。

  • 如何采集和调查样本。
  • 如何通过样本探索总体的各种特质(统计推论过程:筛选数据、计算置信区间、进行假设检验)

特别注意:可以通过统计进行充满信心的猜测,但永远无法通过统计得出确定无疑的结果。

1 - 收集统计数据

1.1 - 数字

统计并不只关系到数字,而且也关系到我们的信心。
统计的确需要处理大量数字,而且处理起来并不是总是那么简单。

数字很容易被用于撒谎。这通常会让人们对数字过度怀疑,从而忽略了数字的真正威力。
这要求我们在处理任何数字时,都必须带着适当的怀疑。
不管拿到什么数字,都应该问这样几个问题:

  • 你从哪里来?
  • 谁导致你出现?
  • 为什么?

1.2 - 随机原始数据

很多时候,我们都不可能清楚所有要了解的东西,只能通过研究样本,进而了解总体。

必须知晓的事实:

  • 不可能通过样本完全确定一个总体。统计指的是做出最佳猜测,而绝非确凿无疑的判断。
  • 采集样本犯下的任何错误,都可能会彻底扭曲对较大总体的结论。

通过各种方法采集样本观测值,这个过程并不简单。
最大的挑战可能在于要准确地指出样本中包含哪些内容。目的是避免样本出现偏差,因为偏差可能会导致我们曲解总体。
理想情况是,采集的样本能正确反映总体。

通过随机采集样本来避免偏差。
实践中。我们常常需要设想所有可能令样本发生偏差的问题,并确保这种问题不会出现。
随机样本效果显著的原因是,它表明我们抽取的任何一个样本的可能性都和抽取任何其他样本的可能性是一样大的。
确保样本必须正确是重中之重,因为随机抽样是一切统计调查的关键。

1.3 - 排序

问题的特性十分重要,因为我们的提问类型决定我们最终得到的是类别型数据,还是数值型数据。
这两种数据各自为政,根本差别:是否能够对其进行数学运算。

在下列情况下采集类别数据:

  • 在研究只用文字就能描述的特性时
  • 在能够用“是”或“否”回答问题时

在下列情况下采集数值型数据:

  • 在研究可以用数字进行比较的特性时

尽管可以通过类别数据来了解样本的构成比例,但总得来说,数值型数据更为有用。
在采集到大量数值型数据后,首先要做的就是利用这些数据“画图”,也就是观察现有的数据。
简单的图形能让我们集中关注数据表达的确切意义。

  • 直方图:最基本的数值型数据图形,可以对整个数据集进行整体描述,包含精确的细节。
  • 箱线图:希望了解数据的概要情况,或者希望对不同样本和群组进行比较时,可以迅速了解数据的汇聚情况。

1.4 - 侦探工作

分析数据就像解谜一样,最终目的是从一个随机样本中收集证据。然后用这些证据形成对总体的描述。

首先需要学习如何做一些基本的侦探工作。
当开始动手调查任何一批数据时,总是观察四个主要特性:大小。形状,位置。分散性。

大小

一般说来,样本越大,结果越好。
样本大小会直接关系到,对一个总体可以具有的置信水平。
但在实际工作中,样本大小总会受到某种限制。

形状

每一个样本的形状都是独一无二的。
无论数据汇聚成什么形状,总是有其原因的。

  • 当所有可能结果都比较相似时,可以称这堆数据是平的。
  • 当一批数据因为某种原因围绕一个特定数据聚集在一起。那么可以说这批数据是正态。
  • 当一批数据由于某种原因,在一个方向上的尾部比另一个方向的尾部延伸的更长。那么可以说这些数据是偏斜的。

位置

位置是对一批数据在一个数轴上落点的量度,简而言之就是数据聚集的地方。
通常可用一个数字来描述位置:平均数。

尽管平均数在量度位置时很有用,很精确。却并非完美。
平均数具有欺骗性。一批数据出现偏斜,平均数就会极具误导性,此时中位数更能体现数据情况,能更好地描述典型值。

分散性

是对一批数据宽度的度量,也是对变性的度量。
分布越宽,变异越大。
测量分散性,一个简单明了的办法是,算出全距:最大值与最小值的差值,然后分成四块,每块包含相同数目的数据点,中间的两块被称为四分位距(IQR)。
利用全剧可以了解整个样本的每一部分的变异性,尤其对于偏斜数据的调查研究特别有用。
分散性最常见度量方法是标准差(SD)。
范围较宽的数据具有较大的标准差。标准差越大,意味着变异越大。

1.5 - 怪异的错误

特别注意:通过统计永远不能彻底证明任何结论。
发掘两种变量之间的关系时,往往一个潜在变量会影响结论,甚至将结论搞得面目全非。
潜在变量会给各种统计分析带来麻烦。因此统计师的部分工作就是发现潜在变量。
如果不找出这种潜在变量,就会有“以假乱真”的风险。

1.6 - 样本到总体

最终目标是根据样本。对总体做出充满信心的描述。

将样本数据堆积起来之后,形成的堆积图形成为样本直方图,具有形状、背景、分散性等一些重要特性。
把总体堆积起来,所形成的图形称为总体分布,同样也具有形状,位置,分散性的特征。

样本的特性叫做“统计值”,是实际算出来的结果。
总体的特性叫做“参数”,是真正想知道的信息。

虽然无法直接观察参数,却可以利用统计值去发掘参数,尽管无法利用统计值得出确定的参数。

转载于:https://www.cnblogs.com/anliven/p/11148937.html

相关文章:

android 布局之RelativeLayout(相对布局)

android 布局分为LinearLayout TableLayout RelativeLayout FreamLayout AbsoluteLayout. 常用的有LinearLayout,TableLayout,RelativeLayout ,这几个布局不会应该手机屏幕大小而有变化。通常我们使用HVGA 大小的屏幕(320*480). 接下来我们学习RelativeLayout. 原文…

【js】实现分页查询操作的步骤

1、将CSS的代码复制到goodList.jsp 2、引入common 代码实现&#xff1a; <% include file"../common/common.jsp"%> 3、引入jstl 代码实现&#xff1a; <% taglib prefix"c" uri"http://java.sun.com/jsp/jstl/core"%> 注意&…

Orchard:如何生成Hello World模块

在Orchard架构介绍中对Orchard的一些架构内容进行了介绍&#xff0c;下图是Orchard自带的一些模块&#xff0c; 本篇讲解一下如何扩展Orchard来生成我们的第一个模块。 介绍 Orchard构建在ASP.NET MVC之上&#xff0c;MVC是一个应用模式&#xff0c;我在信息系统开发平台OpenE…

通过域名访问自己部署到服务器上的项目

通过域名访问自己部署到服务器上的项目 如何不输入项目名端口号直接访问java web项目 1、省略输入端口号的步骤 在Linux的下面部署了tomcat&#xff0c;为了安全我们使用非root用户进行启动&#xff0c;但是在域名绑定时无法直接访问80端口号。众所周知&#xff0c;在unix下&am…

【java】异常的分类

注&#xff1a; 1、exception是人工可以修复的&#xff0c;但error的话很少出现&#xff0c;如果出现就无能为力了。 2、我们将所有派生于EXCEPTION和ERROR的类的所有异常称为&#xff08;unchecked&#xff09;非受查异常&#xff0c;其余为受查&#xff08;checked&#xf…

【免费软件测试视频-0013】——Loadrunner9.0 SLA Analysis

LR9.0---SLA Analysis http://www.3atesting.com/mv/bencandy.php?fid15&id16转载于:https://www.cnblogs.com/umain/archive/2008/09/28/1301310.html

训练听力的相关方法

一、听写熟悉一些固定发音 二、多阅读相关的文章&#xff0c;文章相关内容越熟悉&#xff0c;听力效果越好【重要】 三、首先没有听懂的一些音不会影响后面的理解 四、解决口音问题的唯一方法是&#xff0c;多阅读、记忆相关内容【签证及联系教授也要注意】转载于:https://www.…

PHP生成PDF文档的FPDF类

以前在PHP4的早期版本中用PDFlib生成PDF文档比较容易&#xff0c;现在升级到PHP5了&#xff0c;发现更麻烦了&#xff0c;装的PHP 5.2.4默认没有PHPlib&#xff0c;从php.net上找了一个&#xff0c;装上竟一直报错&#xff0c;开始以为是版本兼容问题&#xff0c;后来在租来的服…

Codeforces Round #466 (Div. 2)

http://codeforces.com/contest/940 A水题 //#pragma comment(linker, "/stack:200000000") //#pragma GCC optimize("Ofast,no-stack-protector") //#pragma GCC target("sse,sse2,sse3,ssse3,sse4,popcnt,abm,mmx,avx,tunenative") //#pragma …

WinCE中串口驱动及接口函数介绍(转载)

作者&#xff1a;ARM-WinCE 在WinCE中&#xff0c;串口驱动实际上就是一个流设备驱动,具体架构如图&#xff1a; 串口驱动本身分为MDD层和PDD层。MDD层对上层的Device Manager提供了标准的流设备驱动接口(COM_xxx)&#xff0c;PDD层实现了HWOBJ结构及结构中若干针对于串口硬件操…

【jsp】写jsp文件的准备

1、引入jstl 代码实现&#xff1a; <% taglib prefix"c" uri"http://java.sun.com/jsp/jstl/core" %> 2、编写common文件 代码实现&#xff1a; <c:set var"ctxpath" value"${pageContext.request.contextPath }">&l…

studio2008 无法显示该网页

莫名奇妙的studio调试的时候页面显示无法显示该网页&#xff0c;差网页后得知原来是C:\WINDOWS\system32\drivers\etc下的Hosts文件被修改了&#xff0c; 确认里面有127.0.0.1 localhost 行转载于:https://www.cnblogs.com/sunshinecc/archive/2011/11/11/2245596.html

侠客X官方网站成立,第一个内测版本即将放出,敬请期待.

这是一个难忘的日子&#xff0c;西方的情人节&#xff0c;本站的成立代表侠客X&#xff0c;即将与大家见面了。 我们的要做的是&#xff0c;传承侠客站群经典模式&#xff0c;打造SEO王者力作&#xff0c;侠客X即将公开测试&#xff0c;敬请期待。 http://xpk.in Qin 转载于:ht…

HSSFWorkbook 与 XSSFWorkbook

项目中一直使用NPOI与memcached,一直相安无事,但是最近升级了npoi到最新版本,发生了ICSharpCode.SharpZipLib的版本冲突问题. 因为此前一直使用的是NPOI的1.x的版本,用的SharpZipLib是0.84版本,而升级到最新版本以后,SharpZipLib的版本变成了0.86版本. 但是memcached的却没有最…

P1066 2^k进制数 NOIP 2006 提高组 第四题

洛谷蓝题&#xff08;点击跳转&#xff09; 提高组 第四题 题目描述 设r是个2^k 进制数&#xff0c;并满足以下条件&#xff1a; &#xff08;1&#xff09;r至少是个2位的2^k 进制数。 &#xff08;2&#xff09;作为2^k 进制数&#xff0c;除最后一位外&#xff0c;r的每一位…

线段树专辑——pku 2886 Who Gets the Most Candies?

http://poj.org/problem?id2886 恩&#xff0c;分糖果&#xff0c;快乐的童年啊&#xff01; 题目意思大概n个小孩围成一个圈&#xff0c;每个小孩手里有张卡片&#xff0c;记录着一个数字。开始从第k个孩子&#xff0c;该孩子离开圈子&#xff0c;然后告诉别人他手里的数字&a…

【jsp】通过get和post传值的区别

GET与POST的区别&#xff1a; GET方式提交表单&#xff0c;请求的参数在请求的头部&#xff0c;可以通过request.getQueryString()获取到请求参数及其参数值&#xff1b;POST方式提交表单&#xff0c;请求的参数在请求体中&#xff0c;所以request.getQueryString()方法无法获…

php获取输入流

uc中的用到的代码(在api/uc.php)代码&#xff1a; $post xml_unserialize(file_get_contents(php://input));&#xfeff; php手册&#xff08;http://cn.php.net/manual/zh/wrappers.php.php&#xff09;说明: php://input allows you to read raw data from the request bod…

微信小程序实例源码大全demo下载

怎么本地测试微信小程序实例源码 1.下载源码2.打开微信开发者工具3.添加项目->选择本项目目录->编译执行微信小程序实例源码大全 微信小程序游戏类demo&#xff1a;识色&#xff1b;从相似颜色中挑选不同的一个 源码链接&#xff1a;http://www.wxapp-union.com/forum.ph…

RabbitMQ 学习

参考&#xff1a;https://www.rabbitmq.com/getstarted.html 先在本地安装RabbitMQ 组件(需要安装Erlang组件&#xff09;&#xff0c;启动服务。 激活 RabbitMQs Management Plugin 使用RabbitMQ 管理插件&#xff0c;可以更好的可视化方式查看Rabbit MQ 服务器实例的状态。 打…

怎样提高WebService的性能

服务器端WebService程序using System.Runtime.Serialization.Formatters.Binary;using System.IO;using System.IO.Compression;using System.Data.SqlClient;………public class Service1 : System.Web.Services.WebService{[WebMethod(Description "直接返回 DataSet 对…

【jsp】jsp的内置对象(部分)

一、response 1、setStatus:设置响应状态码。 代码实现&#xff1a; response.setStatus(550); 更改的位置如图&#xff1a; 2、sendRedirect:服务器端跳转 代码实现&#xff1a; response.sendRedirect("Success.jsp"); 3、setContentRType:设置返回内容类型…

linux tar的使用方法

tar [-cxtzjvfpPN] 文件与目录 ....参数&#xff1a;-c &#xff1a;建立一个压缩文件的参数指令(create 的意思)&#xff1b;-x &#xff1a;解开一个压缩文件的参数指令&#xff01;-t &#xff1a;查看 tarfile 里面的文件&#xff01;特别注意&#xff0c;在参数的下达中&a…

关闭webstorm自动保存,并显示文件未保存标识

1.取消自动保存 2.显示编辑状态设置&#xff1a; 转载于:https://www.cnblogs.com/webSong/p/8807732.html

【转】SQL函数:字符串中提取数字,英文,中文,过滤重复字符

SQL函数&#xff1a;字符串中提取数字&#xff0c;英文&#xff0c;中文&#xff0c;过滤重复字符 --提取数字IF OBJECT_ID(DBO.GET_NUMBER) IS NOT NULLDROP FUNCTION DBO.GET_NUMBERGOCREATE FUNCTION DBO.GET_NUMBER(S VARCHAR(100))RETURNS VARCHAR(100)ASBEGINWHILE PATI…

【java】实现数据在页面之间传输

传数据页面&#xff1a; 方法&#xff1a;使用a标签传输数据 格式&#xff1a; <a name"C03S417" href"getRoomFinal.jsp?roomNumberC03S415">入住 </a> 接收数据页面&#xff1a; 方法&#xff1a; &#xff08;1&#xff09;使用java代…

Android画图学习总结(四)——Animation(上)

随着对Drewable的深入了解&#xff0c;发现了Drawable更加强大的功能&#xff1a;显示Animation。Android SDK介绍了2种Animation&#xff1a; Tween Animation&#xff1a;通过对场景里的对象不断做图像变换(平移、缩放、旋转)产生动画效果 Frame Animation&#xff1a;顺序播…

ES6 Rest参数

Rest参数接收函数的多余参数&#xff0c;组成一个数组&#xff0c;放在形参的最后&#xff0c;形式如下&#xff1a; function func(a, b, ...theArgs) { // ... }rest参数只包括那些没有给出名称的参数&#xff0c;注意&#xff0c;rest参数之后不能再有其它参数&#xff08;即…

Data - 深入浅出学统计 - 下篇

本文是已读书籍的内容摘要&#xff0c;少部分有轻微改动&#xff0c;但不影响原文表达。 &#xff1a;以漫画形式来讲解最基本的统计概念和方法。 ISBN: 9787121299636https://book.douban.com/subject/26906845/2 - 探寻参数 2.1 - 中心极限定理&#xff08;Central Limit The…

[网摘学习]在Ubuntu上安装和配置OpenStack Nova之二

再收藏一份Openstack的文章,这两天的操作与此相同.但其中出现的问题还需要查找原因.待个人继续学习研究. 原文参考:http://www.linuxde.net/2011/11/1599.html此处仅供学习记录,版权归原作者. OpenStack 是 Python 2.6 写的&#xff0c;CentOS 5.6 上默认的是 Python 2.4 的环境…