20个案例详解 Pandas 当中的数据统计分析与排序
作者 | 俊欣
来源 | 关于数据分析与可视化
今天小编来给大家讲一下Pandas
模块当中的数据统计与排序,说到具体的就是value_counts()
方法以及sort_values()
方法。
value_counts()
方法,顾名思义,主要是用于计算各个类别出现的次数的,而sort_values()
方法则是对数值来进行排序,当然除了这些,还有很多大家不知道的衍生的功能等待被挖掘,下面小编就带大家一个一个的说过去。
导入模块并且读取数据库
我们这次用到的数据集是“非常有名”的泰坦尼克号的数据集,该数据源能够在很多平台上都能够找得到
import pandas as pd
df = pd.read_csv("titanic_train.csv")
df.head()
output
常规的用法
首先我们来看一下常规的用法,代码如下
df['Embarked'].value_counts()
output
S 644
C 168
Q 77
Name: Embarked, dtype: int64
下面我们简单来介绍一下value_counts()
方法当中的参数,
DataFrame.value_counts(subset=None,normalize=False,sort=True,ascending=False,dropna=True)
常用到参数的具体解释为:
subset: 表示根据什么字段或者索引来进行统计分析
normalize: 返回的是比例而不是频次
ascending: 降序还是升序来排
dropna: 是否需要包含有空值的行
对数值进行排序
上面返回的结果是按照从大到小来进行排序的,当然我们也可以反过来,从小到大来进行排序,代码如下
df['Embarked'].value_counts(ascending=True)
output
Q 77
C 168
S 644
Name: Embarked, dtype: int64
对索引的字母进行排序
同时我们也可以对索引,按照字母表的顺序来进行排序,代码如下
df['Embarked'].value_counts(ascending=True).sort_index(ascending=True)
output
C 168
Q 77
S 644
Name: Embarked, dtype: int64
当中的ascending=True
指的是升序排序
包含对空值的统计
默认的是value_counts()
方法不会对空值进行统计,那要是我们也希望对空值进行统计的话,就可以加上dropna
参数,代码如下
df['Embarked'].value_counts(dropna=False)
output
S 644
C 168
Q 77
NaN 2
Name: Embarked, dtype: int64
百分比式的数据统计
我们可以将数值的统计转化成百分比式的统计,可以更加直观地看到每一个类别的占比,代码如下
df['Embarked'].value_counts(normalize=True)
output
S 0.724409
C 0.188976
Q 0.086614
Name: Embarked, dtype: float64
要是我们希望对能够在后面加上一个百分比的符号,则需要在Pandas
中加以设置,对数据的展示加以设置,代码如下
pd.set_option('display.float_format', '{:.2%}'.format)
df['Embarked'].value_counts(normalize = True)
output
S 72.44%
C 18.90%
Q 8.66%
Name: Embarked, dtype: float64
当然除此之外,我们还可以这么来做,代码如下
df['Embarked'].value_counts(normalize = True).to_frame().style.format('{:.2%}')
output
Embarked
S 72.44%
C 18.90%
Q 8.66%
连续型数据分箱
和Pandas
模块当中的cut()
方法相类似的在于,我们这里也可以将连续型数据进行分箱然后再来统计,代码如下
df['Fare'].value_counts(bins=3)
output
(-0.513, 170.776] 871
(170.776, 341.553] 17
(341.553, 512.329] 3
Name: Fare, dtype: int64
我们将Fare
这一列同等份的分成3组然后再来进行统计,当然我们也可以自定义每一个分组的上限与下限,代码如下
df['Fare'].value_counts(bins=[-1, 20, 100, 550])
output
(-1.001, 20.0] 515
(20.0, 100.0] 323
(100.0, 550.0] 53
Name: Fare, dtype: int64
分组再统计
pandas
模块当中的groupby()
方法允许对数据集进行分组,它也可以和value_counts()
方法联用更好地来进行统计分析,代码如下
df.groupby('Embarked')['Sex'].value_counts()
output
Embarked Sex
C male 95female 73
Q male 41female 36
S male 441female 203
Name: Sex, dtype: int64
上面的代码是针对“Embarked”这一类别下的“Sex”特征进行分组,然后再进一步进行数据的统计分析,当然出来的结果是Series
数据结构,要是我们想让Series
的数据结果编程DataFrame
数据结构,可以这么来做,
df.groupby('Embarked')['Sex'].value_counts().to_frame()
数据集的排序
下面我们来谈一下数据的排序,主要用到的是sort_values()
方法,例如我们根据“年龄”这一列来进行排序,排序的方式为降序排,代码如下
df.sort_values("Age", ascending = False).head(10)
output
对行索引重新排序
我们看到排序过之后的DataFrame
数据集行索引依然没有变,我们希望行索引依然可以是从0开始依次的递增,就可以这么来做,代码如下
df.sort_values("Age", ascending = False, ignore_index = True).head(10)
output
下面我们简单来介绍一下sort_values()
方法当中的参数
DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', # last,first;默认是lastignore_index=False, key=None)
常用到参数的具体解释为:
by: 表示根据什么字段或者索引来进行排序,可以是一个或者是多个
axis: 是水平方向排序还是垂直方向排序,默认是垂直方向
ascending: 排序方式,是升序还是降序来排
inplace: 是生成新的
DataFrame
还是在原有的基础上进行修改kind: 所用到的排序的算法,有快排quicksort或者是归并排序mergesort、堆排序heapsort等等
ignore_index: 是否对行索引进行重新的排序
对多个字段的排序
我们还可以对多个字段进行排序,代码如下
df.sort_values(["Age", "Fare"], ascending = False).head(10)
output
同时我们也可以对不同的字段指定不同的排序方式,如下
df.sort_values(["Age", "Fare"], ascending = [False, True]).head(10)
output
我们可以看到在“Age”一样的情况下,“Fare”字段是按照升序的顺序来排
自定义排序
我们可以自定义一个函数方法,然后运用在sort_values()
方法当中,让其按照自己写的方法来排序,我们看如下的这组数据
df = pd.DataFrame({'product': ['keyboard', 'mouse', 'desk', 'monitor', 'chair'],'category': ['C', 'C', 'O', 'C', 'O'],'year': [2002, 2002, 2005, 2001, 2003],'cost': ['$52', '$24', '$250', '$500', '$150'],'promotion_time': ['20hr', '30hr', '20hr', '20hr', '2hr'],
})
output
当中的“cost”这一列带有美元符号“$”,因此就会干扰排序的正常进行,我们使用lambda
方法自定义一个函数方法运用在sort_value()
当中
df.sort_values('cost', key=lambda val: val.str.replace('$', '').astype('float64')
)
output
当然我们还可以自定义一个更加复杂一点的函数,并且运用在sort_values()
方法当中,代码如下
def sort_by_cost_time(x):if x.name == 'cost':return x.str.replace('$', '').astype('float64')elif x.name == 'promotion_time':return x.str.replace('hr', '').astype('int')else:return xdf.sort_values(['year', 'promotion_time', 'cost'], key=sort_by_cost_time
)
output
还有另外一种情况,例如我们遇到衣服的尺码,XS
码、S
码、M
码、L
码又或者是月份,Jan
、Feb
、Mar
、Apr
等等,需要我们自己去定义大小,这个时候我们需要用到的是CategoricalDtype
cat_size_order = CategoricalDtype(['XS', 'S', 'M', 'L', 'XL'], ordered=True
)
cat_size_order
output
CategoricalDtype(categories=['XS', 'S', 'M', 'L', 'XL'], ordered=True)
于是针对下面的数据
df = pd.DataFrame({'cloth_id': [1001, 1002, 1003, 1004, 1005, 1006],'size': ['S', 'XL', 'M', 'XS', 'L', 'S'],
})
output
我们将事先定义好的顺序应用到该数据集当中,代码如下
df['size'] = df['size'].astype(cat_size_order)
df.sort_values('size')
output
先通过astype()
来转换数据类型,然后再进行排序
往
期
回
顾
技术
全面解析Kmeans聚类算法
资讯
商汤科技上市,开启AI新篇章
技术
2021年有用的数据清洗python库
资讯
这个AI模型火上GitHub热榜
分享
点收藏
点点赞
点在看
相关文章:

zend studio 8安装与汉化
http://archive.eclipse.org/technology/babel/update-site/R0.8.0/helios正确操作:1、大家可以用这个地址作为更新源(操作:菜单栏中window->property->Installation/update->update 添加这个地址,并打勾) 2、…

分享一个电视节目API接口PHP调用代码
央视及各地卫视的电视节目时间表,包括本周及下周的电视节目内容 获取电视台分类 复制代码 获取电视频道 复制代码 获取电视节目的详情 复制代码 注意,该示例代码适用于 www.apishop.net网站下API 使用该产品前,您需要通过 https://…

用Zend Stuido 的WSDL编辑器
文件->新建->其他->Webservice->WSDL新建WSDL下一步点完成生成如下wsdlTestSoapSoap下面填写php webService 如myservice.phpNewOption:添加方法。WebService里需要提供给别人调用的方法名input :设置输入参数名和类型output:设置返回值。Ad…

坐地铁就能学会的3种非常有趣的 Python 玩法
作者 | 黄伟呢来源 | 数据分析与统计学之美本文说明为什么要学习python?是因为不仅很多工作需要用到python,同时我们可以利用python做很多好玩儿的事儿。比如说下面的3种用法:1.利用python给小猪佩奇换背景色;2.利用python将小猪佩…

asp.net input怎么获取值
前台: <input type"hidden" name"content" value"content"> 后台: Request.Form["content"].ToString(); 切记:name不能缺少,id可由可无。>如有问题,请联系我&…

koa2 简单了解
为什么80%的码农都做不了架构师?>>> 1.安装 $ nvm install 7 $ npm i koa $ node my-koa-app.js2.简介 基于ES7开发的koa2,和koa 1相比,koa2完全使用Promise并配合async来实现异步。 app.use(async (ctx, next) > {await next…

亚洲最大的元宇宙平台,体验在豪宅里开party
整理 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 想象一下,你刚刚得到了你愿望清单上一直想拥有的生活方式,电视、可提高您生活质量的家用电器以及最新款时尚智能手机。现在,如果我们告诉你可以使用这些创新产品来装…

html5知识点补充—hgroup元素的使用
使用hgroup元素组合标题 使用新的HTML5元素hgroup,可以为header元素添加更多的信息。 这个元素用来对多个相关联的h1~h6标题进行分组。如果你的网站有副标题,可以使用hgroup元素。虽然hgroup是一个有效的分组选项,但是它主要是用来告知文档大…

Linux下nginx支持.htaccess文件实现伪静态的方法!
在Google上搜索的资料很多人都说nginx目前不支持.htaccess文件,我按照nginx的规则试验了一下,结果发现nginx是完全支持.htaccess文件的! 方法如下:1. 在需要使用.htaccess文件的目录下新建一个.htaccess文件,如本人的一…

查看mysql的编码格式
1.查看数据库编码格式 show variables like character_set_database; 2.查看数据表的编码格式 show create table <表名>; 3.创建数据库时指定数据库的字符集 create database <数据库名> character set utf8; 4.创建数据表时指定数据表的编码格式 create table tb…

undefined reference to `libiconv_open 无法编译PHP libiconv
原文:http://hi.baidu.com/ostech/blog/item/a63f9b0dabed1ae7ab6457d0.html./configure --with-mysql/backup/mysql --with-freetype-dir --with-jpeg-dir --with-png-dir --with-zlib --with-curl --with-gd --enable-gd-native-ttf --with-apxs2/usr/local/apach…

Meta 被爆暂停 AR/VR 操作系统项目,元宇宙能否推进?
编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 据 The Information 的近日报道,Meta 已经停止了一直以来为 AR 和 VR 操作系统的努力。在11月就通知了负责 VR 和 AR 设备的实验室的员工,表示将要停止 XROS 相关的开发工作。 …

DevOps:怎么实现源代码注释和系统文档的自动化更新?
【编者按】计算机软件传统定义为:软件是计算机系统中与硬件相依存的另一部分,软件包括程序、数据及其相关文档的完整集合。然而在时下的开发中,文档的合规性往往被忽视的干干净净。本文由 Todd Waits 撰写,讲述应用程序文档化所遭…

在Kubernetes v1.8中使用RBAC
Kubernetes 1.8一个重要里程碑是推出了基于角色的访问控制(RBAC)授权,在这个版本中被提升为GA。RBAC是一种控制访问Kubernetes API的机制,因为在1.6中推出beta版,许多Kubernetes集群和配置策略在默认情况下都启用了它。展望未来,我…

Java String.substring内存泄露?
2019独角兽企业重金招聘Python工程师标准>>> String可以说是最常用的Java类型之一了,但是最近听说JDK6里面String.substring存在内存泄露的bug,伙惊呆!一起来看看到底是啥情况吧。 这个是可以导致Exception in thread "main&…

第二弹,坐地铁就能学会的3种「非常有趣」的 Python 玩法
作者 | 黄伟呢来源 | 数据分析与统计学之美本文说明为什么要学习python?是因为不仅很多工作需要用到python,同时我们可以利用python做很多好玩儿的事儿。比如说下面的3种用法:1.利用python给小猪佩奇换背景色;2.利用python将小猪佩…

php比较长的configure
原先的字串./configure --prefix/usr/local/php --with-apxs2/usr/local/apache2/bin/apxs --enable-zip --enable-calendar --with-mysql/usr/local/mysql --with-pdo-mysql/usr/local/mysql --with-iconv/usr/local/libiconv --with-curl/usr/local/curl --with-gd/usr/local…

用mpvue实现的微信小程序版cnode社区
五一放假,没出去玩,想熟悉下vue的开发流程,又想体验下mpvue,于是写了个练手项目。一个用mpvue实现的cnode微信小程序版。 代码在仓库。欢迎各位star、fork、issue、pr。目前已经完成了百分之80的功能。个人感觉这个项目还是非常适…

PHP编译安装
#wget http://museum.php.net/php5/php-5.2.6.tar.gz (下载php源码) http://cn.php.net/releases/ 可以找到 #tar zxvf php-5.2.6.tar.gz #cd php-5.2.6 #./configure --prefix/usr/local/php --with-mysql/usr/local/mysql --with-apxs2/usr/local/apa…

Python 办公自动化,一键给PDF文件加密,超方便
作者 | 欣一来源 | Python爱好者集中营今天给大家做一个给PDF文件加密的GUI界面(图形用户界面),方便现在的一些上班族白领们使用,尤其是需要给一些比较重要的PDF文件加密的时候,下面我们来看具体的步骤给PDF文件加密首先我们需要清楚的是如何…

YUM安装多个(多实例) Mysql
2019独角兽企业重金招聘Python工程师标准>>> 这里使用的是MYSQL的percona分支 先安装repo包 yum install percona-release-0.0-1.x86_64.rpm -y 想安装5.6的把5.5替换就行了,5.6的太耗内存了-。- yum install Percona-Server-server-55.x86_64 Percona-Server-clien…

scala可变长度参数函数
2019独角兽企业重金招聘Python工程师标准>>> scala可变长度参数函数只需要在参数列表的最后放一个星号,实验如下: def main (args:Array[String]){argsfun("Runoob", "Scala", "Python")} def argsfun(args:St…

3000 字推荐一个可视化神器,50 行 Python 代码制作数据大屏
作者 | 俊欣来源 | 关于数据分析与可视化今天小编给大家分享一个制作数据大屏的工具,非常的好用,100行左右的Python代码就可以制作出来一个完整的数据大屏,并且代码的逻辑非常容易理解。PywebIO介绍Python当中的PywebIO模块可以帮助开发者在不…

使用Varnish+ESI实现静态页面的局部缓存
页面静态化是搭建高性能网站必用的招式之一,页面静态化可以有效提升系统响应速度,同时也有利于搜索引擎优化。但在页面静态化后,静态页面之间包含(例如所有的静态页面包含页头、页脚)以及静态页面中的局部信息的动态更…

The Apply method of function object
2019独角兽企业重金招聘Python工程师标准>>> http://webreference.com As explained in the previous page, JavaScript 1.3 includes two new methods for the Function object, call() andapply(). The apply() method is a variation on the call() method. The …

资源 | 100+个自然语言处理数据集大放送,再不愁找不到数据!
奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧! 数据集 Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮…

Java中ArrayList源码分析
一、简介 ArrayList是一个数组队列,相当于动态数组。每个ArrayList实例都有自己的容量,该容量至少和所存储数据的个数一样大小,在每次添加数据时,它会使用ensureCapacity()保证容量能容纳所有数据。 1.1、ArrayList 的继承与实现接…

介绍三种绘制时间线图的方法
作者 |周萝卜来源 |萝卜大杂烩今天我们再来分享几种不同的制作方法,大家可以自行比较下各种方法的优劣。Matplotlib 制作Matplotlib 作为 Python 家族最为重要的可视化工具,其基本的 API 以及绘制流程还是需要掌握的。尤其是该库的灵活程度以及作为众多工…

phpize是什么
安装php(fastcgi模式)的时候,常常有这样一句命令:/usr/local/webserver/php/bin/phpize 一、phpize是干嘛的? phpize是什么东西呢?php官方的说明: http://php.net/manual/en/install.pecl.phpiz…

C语言比较好的风格梳理
errno int err;tb malloc(sizeof(struct xtracer_table));if (!tb) {err errno;fprintf(stderr, "%s:%d, errno:%d, %s\n",__func__, __LINE__, err, strerror(err));return NULL;} 转载于:https://www.cnblogs.com/muahao/p/8979144.html