当前位置: 首页 > 编程日记 > 正文

22个案例详解 Pandas 数据分析/预处理时的实用技巧,超简单

95708e19b56ecdc8855d4d16a223415b.gif

作者 | 俊欣

来源 | 关于数据分析与可视化

今天小编打算来讲一讲数据分析方面的内容,整理和总结一下Pandas在数据预处理和数据分析方面的硬核干货,我们大致会说

  • Pandas计算交叉列表

  • Pandas将字符串与数值转化成时间类型

  • Pandas将字符串转化成数值类型

Pandas当中的交叉列表

首先我们来讲一下Pandas模块当中的crosstab()函数,它的作用主要是进行分组之后的信息统计,里面会用到聚合函数,默认的是统计行列组合出现的次数,参数如下

pandas.crosstab(index, columns,values=None,rownames=None,colnames=None,aggfunc=None,margins=False,margins_name='All',dropna=True,normalize=False)

下面小编来解释一下里面几个常用的函数

  • index: 指定了要分组的类目,作为行

  • columns: 指定了要分组的类目,作为列

  • rownames/colnames: 行/列的名称

  • aggfunc: 指定聚合函数

  • values: 最终在聚合函数之下,行与列一同计算出来的值

  • normalize: 标准化统计各行各列的百分比

我们通过几个例子来进一步理解corss_tab()函数的作用,我们先导入要用到的模块并且读取数据集

import pandas as pddf = pd.read_excel(io="supermarkt_sales.xlsx",engine="openpyxl",sheet_name="Sales",skiprows=3,usecols="B:R",nrows=1000,
)

output

我们先简单来看几个corsstab()函数的例子,代码如下

pd.crosstab(df['城市'], df['顾客类型'])

output

顾客类型   会员   普通
省份            
上海    124  115
北京    116  127
四川     26   35
安徽     28   12
广东     30   36
.......

这里我们将省份指定为行索引,将会员类型指定为列,其中顾客类型有“会员”、“普通”两种,举例来说,四川省的会员顾客有26名,普通顾客有35名。

当然我们这里只是指定了一个列,也可以指定多个,代码如下

pd.crosstab(df['省份'], [df['顾客类型'], df["性别"]])

output

顾客类型  会员      普通    
性别    女性  男性  女性  男性
省份                  
上海    67  57  53  62
北京    53  63  59  68
四川    17   9  16  19
安徽    17  11   9   3
广东    18  12  15  21
.....

这里我们将顾客类型进行了细分,有女性会员、男性会员等等,那么同理,对于行索引我们也可以指定多个,这里也就不过多进行演示。

有时候我们想要改变行索引的名称或者是列方向的名称,我们则可以这么做

pd.crosstab(df['省份'], df['顾客类型'],colnames = ['顾客的类型'],rownames = ['各省份名称'])

output

顾客的类型  会员   普通
各省份名称            
上海    124  115
北京    116  127
四川     26   35
安徽     28   12
广东     30   36

要是我们想在行方向以及列方向上加一个汇总的列,就需要用到crosstab()方法当中的margin参数,如下

pd.crosstab(df['省份'], df['顾客类型'], margins = True)

output

顾客类型   会员   普通   All
省份                  
上海    124  115   239
北京    116  127   243
.....
江苏     18   15    33
浙江    119  111   230
黑龙江    14   17    31
All   501  499  1000

你也可以给汇总的那一列重命名,用到的是margins_name参数,如下

pd.crosstab(df['省份'], df['顾客类型'],margins = True, margins_name="汇总")

output

顾客类型   会员   普通   汇总
省份                  
上海    124  115   239
北京    116  127   243
.....
江苏     18   15    33
浙江    119  111   230
黑龙江    14   17    31
汇总   501  499  1000

而如果我们需要的数值是百分比的形式,那么就需要用到normalize参数,如下

pd.crosstab(df['省份'], df['顾客类型'],normalize=True)

output

顾客类型     会员     普通
省份                
上海    0.124  0.115
北京    0.116  0.127
四川    0.026  0.035
安徽    0.028  0.012
广东    0.030  0.036
.......

要是我们更加倾向于是百分比,并且保留两位小数,则可以这么来做

pd.crosstab(df['省份'], df['顾客类型'],normalize=True).style.format('{:.2%}')

output

顾客类型  会员   普通
省份                
上海     12.4%   11.5%
北京     11.6%   12.7%
四川     26%     35%
安徽     28%     12%
广东     30%     36%
.......

下面我们指定聚合函数,并且作用在我们指定的列上面,用到的参数是aggfunc参数以及values参数,代码如下

pd.crosstab(df['省份'], df['顾客类型'],values = df["总收入"],aggfunc = "mean")

output

顾客类型         会员         普通
省份                        
上海    15.648738  15.253248
北京    14.771259  14.354390
四川    20.456135  14.019029
安徽    10.175893  11.559917
广东    14.757083  18.331903
.......

如上所示,我们所要计算的是地处“上海”并且是“会员”顾客的总收入的平均值,除了平均值之外,还有其他的聚合函数,如np.sum加总或者是np.median求取平均值。

我们还可以指定保留若干位的小数,使用round()函数

df_1 = pd.crosstab(df['省份'], df['顾客类型'],values=df["总收入"],aggfunc="mean").round(2)

output

顾客类型     会员     普通
省份                
上海    15.65  15.25
北京    14.77  14.35
四川    20.46  14.02
安徽    10.18  11.56
广东    14.76  18.33
.......

时间类型数据的转化

对于很多数据分析师而言,在进行数据预处理的时候,需要将不同类型的数据转换成时间格式的数据,我们来看一下具体是怎么来进行

首先是将整形的时间戳数据转换成时间类型,看下面的例子

df = pd.DataFrame({'date': [1470195805, 1480195805, 1490195805],'value': [2, 3, 4]})
pd.to_datetime(df['date'], unit='s')

output

0   2016-08-03 03:43:25
1   2016-11-26 21:30:05
2   2017-03-22 15:16:45
Name: date, dtype: datetime64[ns]

上面的例子是精确到秒,我们也可以精确到天,代码如下

df = pd.DataFrame({'date': [1470, 1480, 1490],'value': [2, 3, 4]})
pd.to_datetime(df['date'], unit='D')

output

0   1974-01-10
1   1974-01-20
2   1974-01-30
Name: date, dtype: datetime64[ns]

下面则是将字符串转换成时间类型的数据,调用的也是pd.to_datetime()方法

pd.to_datetime('2022/01/20', format='%Y/%m/%d')

output

Timestamp('2022-01-20 00:00:00')

亦或是

pd.to_datetime('2022/01/12 11:20:10',format='%Y/%m/%d %H:%M:%S')

output

Timestamp('2022-01-12 11:20:10')

这里着重介绍一下Python当中的时间日期格式化符号

  • %y 两位数的年份表示(00-99)

  • %Y 四位数的年份表示(000-9999)

  • %m 表示的是月份(01-12)

  • %d 表示的是一个月当中的一天(0-31)

  • %H 表示的是24小时制的小时数

  • %I 表示的是12小时制的小时数

  • %M 表示的是分钟数 (00-59)

  • %S 表示的是秒数(00-59)

  • %w 表示的是星期数,一周当中的第几天,从星期天开始算

  • %W 表示的是一年中的星期数

当然我们进行数据类型转换遇到错误的时候,pd.to_datetime()方法当中的errors参数就可以派上用场,

df = pd.DataFrame({'date': ['3/10/2000', 'a/11/2000', '3/12/2000'],'value': [2, 3, 4]})
# 会报解析错误
df['date'] = pd.to_datetime(df['date'])

output

9d60a5b7d21f59e2780f7bce89e963c8.png

我们来看一下errors参数的作用,代码如下

df['date'] = pd.to_datetime(df['date'], errors='ignore')
df

output

date      value
0 3/10/2000   2
1 a/11/2000   3
2 3/12/2000   4

或者将不准确的值转换成NaT,代码如下

df['date'] = pd.to_datetime(df['date'], errors='coerce')
df

output

date       value
0 2000-03-10   2
1 NaT          3
2 2000-03-12   4

数值类型的转换

接下来我们来看一下其他数据类型往数值类型转换所需要经过的步骤,首先我们先创建一个DataFrame数据集,如下

df = pd.DataFrame({'string_col': ['1','2','3','4'],'int_col': [1,2,3,4],'float_col': [1.1,1.2,1.3,4.7],'mix_col': ['a', 2, 3, 4],'missing_col': [1.0, 2, 3, np.nan],'money_col': ['£1,000.00','£2,400.00','£2,400.00','£2,400.00'],'boolean_col': [True, False, True, True],'custom': ['Y', 'Y', 'N', 'N']})

output

3d42ccef3810f7bd373d3194bad9b3e7.png

我们先来查看一下每一列的数据类型

df.dtypes

output

string_col      object
int_col          int64
float_col      float64
mix_col         object
missing_col    float64
money_col       object
boolean_col       bool
custom          object
dtype: object

可以看到有各种类型的数据,包括了布尔值、字符串等等,或者我们可以调用df.info()方法来调用,如下

df.info()

output

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 8 columns):#   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  0   string_col   4 non-null      object 1   int_col      4 non-null      int64  2   float_col    4 non-null      float643   mix_col      4 non-null      object 4   missing_col  3 non-null      float645   money_col    4 non-null      object 6   boolean_col  4 non-null      bool   7   custom       4 non-null      object 
dtypes: bool(1), float64(2), int64(1), object(4)
memory usage: 356.0+ bytes

我们先来看一下从字符串到整型数据的转换,代码如下

df['string_col'] = df['string_col'].astype('int')
df.dtypes

output

string_col       int32
int_col          int64
float_col      float64
mix_col         object
missing_col    float64
money_col       object
boolean_col       bool
custom          object
dtype: object

看到数据是被转换成了int32类型,当然我们指定例如astype('int16')astype('int8')或者是astype('int64'),当我们碰到量级很大的数据集时,会特别的有帮助。

那么类似的,我们想要转换成浮点类型的数据,就可以这么来做

df['string_col'] = df['string_col'].astype('float')
df.dtypes

output

string_col     float64
int_col          int64
float_col      float64
mix_col         object
missing_col    float64
money_col       object
boolean_col       bool
custom          object
dtype: object

同理我们也可以指定转换成astype('float16')astype('float32')或者是astype('float128')

而如果数据类型的混合的,既有整型又有字符串的,正常来操作就会报错,如下

df['mix_col'] = df['mix_col'].astype('int')

output

13bf260e326b5c5773584086d8975a17.png

当中有一个字符串的数据"a",这个时候我们可以调用pd.to_numeric()方法以及里面的errors参数,代码如下

df['mix_col'] = pd.to_numeric(df['mix_col'], errors='coerce')
df.head()

output

79b8dd33f8d2740489cc0c9de4d9b64f.png

我们来看一下各列的数据类型

df.dtypes

output

string_col     float64
int_col          int64
float_col      float64
mix_col        float64
missing_col    float64
money_col       object
boolean_col       bool
custom          object
dtype: object

"mix_col"这一列的数据类型被转换成了float64类型,要是我们想指定转换成我们想要的类型,例如

df['mix_col'] = pd.to_numeric(df['mix_col'], errors='coerce').astype('Int64')
df['mix_col'].dtypes

output

Int64Dtype()

而对于"money_col"这一列,在字符串面前有一个货币符号,并且还有一系列的标签符号,我们先调用replace()方法将这些符号给替换掉,然后再进行数据类型的转换

df['money_replace'] = df['money_col'].str.replace('£', '').str.replace(',','')
df['money_replace'] = pd.to_numeric(df['money_replace'])
df['money_replace']

output

0    1000.0
1    2400.0
2    2400.0
3    2400.0
Name: money_replace, dtype: float64

要是你熟悉正则表达式的话,也可以通过正则表达式的方式来操作,通过调用regex=True的参数,代码如下

df['money_regex'] = df['money_col'].str.replace('[\£\,]', '', regex=True)
df['money_regex'] = pd.to_numeric(df['money_regex'])
df['money_regex']

另外我们也可以通过astype()方法,对多个列一步到位进行数据类型的转换,代码如下

df = df.astype({'string_col': 'float16','int_col': 'float16'
})

或者在第一步数据读取的时候就率先确定好数据类型,代码如下

df = pd.read_csv('dataset.csv', dtype={'string_col': 'float16','int_col': 'float16'}
)

b47315a4336b4ee8373ba36223d885ea.gif

技术

用python写3D游戏,太赞了

资讯

算力超越iPhone,芯片堪比Mac

技术

31个好用的Python字符串方法

资讯

GPT-3平替版语言模型,性能更优化

b3011fb939dfbc68036f721262683dc9.png

分享

ebe5f845f7ac97da65bf2ce8acb2ce87.png

点收藏

b40d7522da853ef1fc123096b709e247.png

点点赞

92c5bfb538749043303989872c9334aa.png

点在看

相关文章:

《mysql性能调优与架构设计》笔记: 一mysql 架构组成

2019独角兽企业重金招聘Python工程师标准>>> 2.1mysql物理文件组成 2.1.1日志文件&#xff1a; 1&#xff0c;查看mysql配置文件&#xff1a;mysql --verbose --help | grep -A 1 Default options; 1&#xff0c;错误日志&#xff1a;--log-error[file_name] 指定错…

发现一个可以搜索常用rpm包的地址(http://www.rpmfind.net/)

http://www.rpmfind.net/ 虽然资源不多&#xff0c;但也够用。 >如有问题&#xff0c;请联系我&#xff1a;easonjim#163.com&#xff0c;或者下方发表评论。<

PHP版UTF-8文件BOM自动检测移除程序

BOM信息是文件开头的一串隐藏的字符&#xff0c;用于让某些编辑器识别这是个UTF-8编码的文件。但PHP在读取文件时会把这些字符读出&#xff0c;从而形成了文件 开头含有一些无法识别的字符的问题。比如用UTF-8格式保存的生成图片的PHP文件&#xff0c;因为文件头隐藏的BOM信息也…

java: web应用中不经意的内存泄露

前面有一篇讲解如何在spring mvc web应用中一启动就执行某些逻辑&#xff0c;今天无意发现如果使用不当&#xff0c;很容易引起内存泄露&#xff0c;测试代码如下&#xff1a; 1、定义一个类App package com.cnblogs.yjmyzz.web.controller;import java.util.Date;public class…

「游戏圈地震级消息」687亿美元,微软收购游戏巨头动视暴雪

整理 | 苏宓、禾木木 出品 | CSDN 2022年1月18日晚&#xff0c;一条热搜刷爆了朋友圈&#xff1a; 继 2018 年&#xff0c;微软以 75 亿美元收购全球知名的代码托管平台 GitHub 后&#xff0c;2022 年 1 月 18 日&#xff0c;微软将以 687 亿美元的价格收购著名游戏制作和发行公…

java实现用户登录注册功能(用集合框架来实现)

需求&#xff1a;实现用户登录注册功能(用集合框架来实现) 分析&#xff1a; A:需求的类和接口 1.用户类 UserBean 2.用户操作方法接口和实现类 UserDao UserDaoImpl 3.测试类 UserTest B:各个类中的东西 1.用户类UserBean: …

第3次翻译了 Pandas 官方文档,叒写了这一份R万字肝货操作!

作者 | 黄伟呢来源 | 数据分析与统计学之美今天&#xff0c;我继续为大家讲述Pandas如何实现R语言的相关操作。由于 Pandas 旨在提供人们使用 R 进行的大量数据操作和分析功能&#xff0c;因此本页开始提供更详细的 R 语言及其与 Pandas 相关的许多第三方库的介绍。与 R 和 CRA…

PHP autoload机制详解

PHP autoload机制详解 转载自 jeakcccPHP autoload机制详解(1) autoload机制概述在使用PHP的OO模式开发系统时&#xff0c;通常大家习惯上将每个类的实现都存放在一个单独的文件里&#xff0c;这样会很容易实现对类进行复用&#xff0c;同时将来维护时也很便利。这 也是OO设计…

有关博客的一些断想

作者&#xff1a;朱金灿来源&#xff1a;http://blog.csdn.net/clever101随着微博、微信等短平快社交媒体的兴起&#xff0c;文字相对严肃的博客毫无疑问受到很大的冲击。我在想博客会不会因此而消亡呢。我相信不会&#xff0c;因为喜欢轻快的文字固然是人类的天性&#xff0c;…

pythonl学习笔记——爬虫的基本常识

1 robots协议 Robots协议&#xff08;也称为爬虫协议、机器人协议等&#xff09;的全称是“网络爬虫排除标准”&#xff08;Robots Exclusion Protocol&#xff09;&#xff0c;网站通过Robots协议告诉搜索引擎哪些页面可以抓取&#xff0c;哪些页面不能抓取。 如&#xff1a; …

hibernate相关收集

2019独角兽企业重金招聘Python工程师标准>>> 1、Hibernate SQL方言 如果出现如下错误&#xff0c;则可能是Hibernate SQL方言 (hibernate.dialect)设置不正确。 Caused by: java.sql.SQLException: [Microsoft][SQLServer 2000 Driver for JDBC][SQLServer]last_ins…

盘一盘 2021 年程序员们喜欢的网站数据

作者 | 周萝卜来源 | 萝卜大杂烩世界上流量最大的网站有哪些&#xff0c;也许我们都能脱口而出&#xff0c;比如 Google&#xff0c;YouTube&#xff0c;Facebook 还有 PxxnHub 等等&#xff0c;今天我们就通过多个维度来看看&#xff0c;那些叱咤全球的流量网站&#xff01;数…

烽火18台系列之十一:刚需中的刚需——网站篡改监控

网站篡改事件近些年来越演越烈&#xff0c;其中包括政府、教育、金融、事业企业单位等。根据国家互联网应急响应中心发布的《2015年中国互联网网络安全报告》中指出&#xff0c;“2015年CNCERT/CC工检测到境内被篡改的网站数量为24550个&#xff0c;其中境内政府网站篡改数量为…

Http与RPC通信协议的比较

OSI网络结构的七层模型 各层的具体描述如下&#xff1a;第七层&#xff1a;应用层 定义了用于在网络中进行通信和数据传输的接口 - 用户程式&#xff1b;提供标准服务&#xff0c;比如虚拟终端、文件以及任务的传输 和处理&#xff1b; 第六层&#xff1a;表示层 掩…

基于 Python 和 OpenCV 构建智能停车系统

作者 | 努比来源 | 小白学视觉当今时代最令人头疼的事情就是找不到停车位&#xff0c;尤其是找20分钟还没有找到停车位。根据复杂性和效率的不同&#xff0c;任何问题都具有一个或多个解决方案。目前智能停车系统的解决方案&#xff0c;主要包括基于深度学习实现&#xff0c;以…

js获取鼠标位置

1.PageX/PageX:鼠标在页面上的位置,从页面左上角开始,即是以页面为参考点,不随滑动条移动而变化2.clientX/clientY:鼠标在页面上可视区域的位置,从浏览器可视区域左上角开始,即是以浏览器滑动条此刻的滑动到的位置为参考点,随滑动条移动 而变化. 可是悲剧的是,PageX只有FF…

Lua保留指定小数位数

默认会四舍五入 比如&#xff1a;%0.2f 会四舍五入后&#xff0c;保留小数点后2位print(string.format("%.1f",0.26)) ---会输出0.3&#xff0c;而不是0.2 Lua保留一位小数 --- nNum 源数字 --- n 小数位数 function Tool. GetPreciseDecimal(nNum, n)if type(nNum)…

htaccess文件用法收集整理

1.时区设置有些时候&#xff0c;当你在PHP里使用date或mktime函数时&#xff0c;由于时区的不同&#xff0c;它会显示出一些很奇怪的信息。下面是解决这个问题的方法之一。就是设置你的服务器的时区。你可以在这里找到所有支持的时区的清单。 1.SetEnv TZ Australia/Melbourne …

手把手教你使用 YOLOV5 训练目标检测模型

作者 | 肆十二来源 | CSDN博客这次要使用YOLOV5来训练一个口罩检测模型&#xff0c;比较契合当下的疫情&#xff0c;并且目标检测涉及到的知识点也比较多。先来看看我们要实现的效果&#xff0c;我们将会通过数据来训练一个口罩检测的模型&#xff0c;并用pyqt5进行封装&#x…

数据仓库数据模型之:极限存储--历史拉链表

摘要: 在数据仓库的数据模型设计过程中&#xff0c;经常会遇到文内所提到的这样的需求。而历史拉链表&#xff0c;既能满足对历史数据的需求&#xff0c;又能很大程度的节省存储资源。在数据仓库的数据模型设计过程中&#xff0c;经常会遇到这样的需求&#xff1a;1. 数据量比较…

super的用法(带了解)

super的用法&#xff08;带了解&#xff09; super的用法&#xff08;带了解&#xff09;posted on 2018-05-11 21:31 leolaosao 阅读(...) 评论(...) 编辑 收藏 转载于:https://www.cnblogs.com/leolaosao/p/9026686.html

Posted content type isn't multipart/form-data

版权声明&#xff1a;欢迎转载&#xff0c;请注明沉默王二原创。 https://blog.csdn.net/qing_gee/article/details/48712507 在有文件上传的表单提交过程中&#xff0c;搞不好就会报Posted content type isnt multipart/form-data的错误。 解决办法 <form class"form-…

CSDN 十大技术主题盘点-AI篇

关于2021&#xff0c;我们能看到的技术变化有很多。当云原生向下而生&#xff0c;当分布式数据库席卷而至&#xff0c;当低代码平台扩展了开发的边界&#xff0c;当万物互联蔚然成风……我们看到了太多在2021年形成的变化&#xff0c;但也能看到这些趋势非但没有结束&#xff0…

PHP编程问题集锦

1. Win32下apache2用get方法传递中文参数会出错 test.php?a你好&b你也好传递参数是会导致一个内部错误解决办法:"test.php?a".urlencode(你好)."&b".urlencode(你也好)2. win32下的session不能正常工作 php.ini默认的session.save_path /tmp 这…

jsonp详解

json相信大家都用的多&#xff0c;jsonp我就一直没有机会用到&#xff0c;但也经常看到&#xff0c;只知道是“用来跨域的”&#xff0c;一直不知道具体是个什么东西。今天总算搞明白了。下面一步步来搞清楚jsonp是个什么玩意。 同源策略 首先基于安全的原因&#xff0c;浏览器…

PHP面向对象精华

PHP面向对象精华1 使用extends实现继承以及重载、魔术方法的含义 class B extends A 声明的时候B里可以没有A里的方法 调用的时候$bnew B(); $b->A里的方法(); $b->A里的属性1; $b->B里的方法(); $b->B里的方法(); 如果$anew A(); 可以 $a->A里的方法(); $a->…

springmvc和mybatis整合关键配置

springmvcmybaits的系统架构&#xff1a; 第一步&#xff1a;整合dao层 mybatis和spring整合&#xff0c;通过spring管理mapper接口。 使用mapper的扫描器自动扫描mapper接口在spring中进行注册。 第二步&#xff1a;整合service层 通过spring管理 service接口。 使用配置方式将…

阿里亲制明信片,字节、百度直接发锅……这些公司的新年礼盒越来越会玩~

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍整理 | 王晓曼出品 | 程序人生&#xff08;ID&#xff1a;coder _life&#xff09;每到年末&#xff0c;各大互联网大厂的新年礼盒都会作为…

html中radio、checkbox选中状态研究(静下心来看,静下心来总结)

html中radio、checkbox选中状态研究&#xff08;静下心来看&#xff0c;静下心来总结&#xff09; 一、总结 1、单选框的如果有多个checked 会以最后一个为准 2、js动态添加checked属性&#xff1a;不行&#xff1a;通过 $("[namesex]:eq(1)").attr("checked&q…

新年新气象,100 行 Python 代码制作动态鞭炮

作者 | FrigidWinter来源 | CSDN博客放鞭炮贺新春&#xff0c;在我国有两千多年历史。关于鞭炮的起源&#xff0c;有个有趣的传说。西方山中有焉&#xff0c;长尺余&#xff0c;一足&#xff0c;性不畏人。犯之令人寒热&#xff0c;名曰年惊惮&#xff0c;后人遂象其形&#xf…