Pandas 数据类型概述与转换实战
作者 | 周萝卜
来源 | 萝卜大杂烩
在进行数据分析时,确保使用正确的数据类型是很重要的,否则我们可能会得到意想不到的结果或甚至是错误结果。对于 pandas 来说,它会在许多情况下自动推断出数据类型
尽管 pandas 已经自我推断的很好了,但在我们的数据分析过程中,可能仍然需要显式地将数据从一种类型转换为另一种类型。本文将讨论基本的 pandas 数据类型(又名 dtypes ),它们如何映射到 python 和 numpy 数据类型,以及从一种 pandas 类型转换为另一种的方法
Pandas 数据类型
数据类型本质上是编程语言用来理解如何存储和操作数据的内部结构。例如,一个程序需要理解将两个数字相加,如 5 + 10 得到 15。或者有两个字符串,如“cat”和“hat”,可以将它们连接(加)在一起得到“cathat”
不过在大多数情况下,无需担心是否应该尝试显式地将 pandas 类型强制为对应于 NumPy 类型。大多数时候,使用 pandas 默认的 int64 和 float64 类型就可以了
下面我们将重点介绍以下 pandas 类型:
object
int64
float64
datetime64
bool
而对于category 和 timedelta 类型,我们会在后面的文章中重点介绍
还需要注意的是object
数据类型实际上可以包含多种不同的类型。例如,a 列可以包括整数、浮点数和字符串,它们统称为object
。因此,我们可能需要一些额外的技术来处理object
列中的混合数据类型,我们也在后面的文章专门讨论
下面我们先来查看本文使用的测试数据
import numpy as np
import pandas as pddf = pd.read_csv("sales_data_types.csv")
Output:
乍一看数据好像还不错,所以我们可以尝试做一些操作来分析数据。让我们尝试将 2016 年和 2017 年的销售额相加:
df['2016'] + df['2017']
Output:
0 $125,000.00$162500.00
1 $920,000.00$101,2000.00
2 $50,000.00$62500.00
3 $350,000.00$490000.00
4 $15,000.00$12750.00
dtype: object
结果显然不是我们期望的,我们希望将总数加在一起,但 pandas 只是将两个值连接在一起。其实问题也很明显,我们的数据类型是dtype: object
,object 是 pandas 中的字符串,因此它执行字符串操作而不是数学操作
我们可以通过如下代码查看数据所有的数据类型信息
df.dtypes
Output:
Customer Number float64
Customer Name object
2016 object
2017 object
Percent Growth object
Jan Units object
Month int64
Day int64
Year int64
Active object
dtype: object
当然我们还可以使用df.info()
来查看更多信息
df.info()
Output:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 10 columns):# Column Non-Null Count Dtype
--- ------ -------------- ----- 0 Customer Number 5 non-null float641 Customer Name 5 non-null object 2 2016 5 non-null object 3 2017 5 non-null object 4 Percent Growth 5 non-null object 5 Jan Units 5 non-null object 6 Month 5 non-null int64 7 Day 5 non-null int64 8 Year 5 non-null int64 9 Active 5 non-null object
dtypes: float64(1), int64(3), object(6)
memory usage: 528.0+ bytes
以上都是 Pandas 为我们自动分配的数据类型,有几个问题:
Customer Number 是 float64 但应该是 int64
2016 和 2017 列存储为 object,而不是诸如 float64 或 int64 之类的数值
百分比增长和 Month 单位也存储为 object 而不是数值
列 Month 、 Day 和 Year 应转换为 datetime64 类型
Active 列应该是一个布尔值
也就是说,在我们进行数据分析之前,我们必须手动更正这些数据类型
在 pandas 中转换数据类型,有三个基本选项:
使用 astype() 强制转换数据类型
创建自定义函数来转换数据
使用 pandas 函数,例如 to_numeric() 或 to_datetime()
使用 astype() 函数
将 pandas 数据列转换为不同类型的最简单方法是使用 astype(),例如,要将 Customer Number 转换为整数,我们可以这样调用它:
df['Customer Number'].astype('int')
Output:
0 10002
1 552278
2 23477
3 24900
4 651029
Name: Customer Number, dtype: int32
如果我们想更改原始数据中的信息,则需要定义变量接收返回值,因为 astype() 函数返回一个副本
df["Customer Number"] = df['Customer Number'].astype('int')
df.dtypes
Output:
Customer Number int32
Customer Name object
2016 object
2017 object
Percent Growth object
Jan Units object
Month int64
Day int64
Year int64
Active object
dtype: object
这样我们就完成了 Customer Number 列的类型转换
看起来很简单,让我们尝试对 2016 列做同样的事情,并将其转换为浮点数:
同样的,转换 Jan Units 列
转换异常了~
上面的情况中,数据中包含了无法转换为数字的值。在 sales 列中,数据包括货币符号以及每个值中的逗号;在 Jan Units 列中,最后一个值是“Closed”,它不是数字
我们再来尝试转换 Active 列
df['Active'].astype('bool')
Output:
0 True
1 True
2 True
3 True
4 True
Name: Active, dtype: bool
乍一看似乎还不错,但仔细观察,问题就大了。所有值都被解释为 True,但最后一位客户的 Active 标志为 N,竟然也被转换为 True 了
所以,我们可以得到,astype() 的使用是有条件的,仅在以下情况下才有效:
数据是干净的,可以简单地转换为一个数字
将数值转换为字符串对象
如果数据有非数字字符或者不是同质的,那么 astype() 将不是类型转换的好选择。我们需要进行额外的转换才能使类型更改正常工作
自定义转换函数
由于此数据的转换有点复杂,我们可以构建一个自定义函数,将其应用于每个值并转换为适当的数据类型
对于(这个特定数据集的)货币转换,我们可以使用一个简单的函数:
def convert_currency(val):"""Convert the string number value to a float- Remove $- Remove commas- Convert to float type"""new_val = val.replace(',','').replace('$', '')return float(new_val)
该代码使用 python 的字符串函数去除“$”和“,”,然后将值转换为浮点数
也许有人会建议使用 Decimal 类型的货币。但这不是 pandas 中的内置数据类型,所以我们使用 float 方法
现在我们可以使用 pandas 的 apply 函数将其应用于 2016 列中的所有值
df['2016'].apply(convert_currency)
Output:
0 125000.0
1 920000.0
2 50000.0
3 350000.0
4 15000.0
Name: 2016, dtype: float64
成功了!
当然我们也可以使用 lambda 函数来处理,代码简洁了,但是可读性却下降了
df['2016'].apply(lambda x: x.replace('$', '').replace(',', '')).astype('float')
接下来处理 Active 列,自定义函数需要使用 np.where()。有几种可能的方法可以解决这个特定问题。np.where() 方法对许多类型的问题都很有用,所以我们选择在这里使用
基本思想是使用 np.where() 函数将所有“Y”值转换为 True 并将其他所有值转换为 False
df["Active"] = np.where(df["Active"] == "Y", True, False)
Output:
数据类型也转换为 bool 了
df.dtypes
Output:
Customer Number int32
Customer Name object
2016 object
2017 object
Percent Growth object
Jan Units object
Month int64
Day int64
Year int64
Active bool
dtype: object
Pandas 辅助函数
Pandas 在 astype() 函数和更复杂的自定义函数之间有一个中间地带,这些辅助函数对于某些数据类型转换非常有用
到目前为止,我们没有对日期列或 Jan Units 列做任何事情。这两者都可以简单地使用内置的 pandas 函数进行转换,例如 pd.to_numeric() 和 pd.to_datetime()
Jan Units 转换存在问题的原因是列中包含非数字值。如果我们尝试使用 astype() 我们会得到一个错误(如前所述)。pd.to_numeric() 函数可以更优雅地处理这些值:
pd.to_numeric(df['Jan Units'], errors='coerce')
Output:
0 500.0
1 700.0
2 125.0
3 75.0
4 NaN
Name: Jan Units, dtype: float64
有几点需要注意。首先,该函数可以轻松处理数据并创建一个 float64 列。
此外,它用 NaN 值替换了无效的“Closed”值,因为我们传递了 errors=coerce 。
我们可以保留该值或使用 fillna(0) 将其填充为 0:
pd.to_numeric(df['Jan Units'], errors='coerce').fillna(0)
Output:
0 500.0
1 700.0
2 125.0
3 75.0
4 0.0
Name: Jan Units, dtype: float64
最后我们使用 pd.to_datetime() 函数来处理日期数据
pd.to_datetime(df[['Month', 'Day', 'Year']])
Output:
0 2015-01-10
1 2014-06-15
2 2016-03-29
3 2015-10-27
4 2014-02-02
dtype: datetime64[ns]
该函数将列组合成一系列适当的 datateime64 dtype,很方便
最后,我们把上面处理代码都放到一起
df_2 = pd.read_csv("sales_data_types.csv",dtype={'Customer Number': 'int'},converters={'2016': convert_currency,'2017': convert_currency,'Percent Growth': convert_percent,'Jan Units': lambda x: pd.to_numeric(x, errors='coerce'),'Active': lambda x: np.where(x == "Y", True, False)})df_2.dtypes
Output:
Customer Number int32
Customer Name object
2016 float64
2017 float64
Percent Growth float64
Jan Units float64
Month int64
Day int64
Year int64
Active object
dtype: object
相关文章:

7.10 数据注解特性--NotMapped
NotMapped特性可以应用到领域类的属性中,Code-First默认的约定,是为所有带有get,和set属性选择器的属性创建数据列。。 NotManpped特性打破了这个约定,你可以使用NotMapped特性到某个属性上面,然后Code-First就不会为这个属性就不…

Condition
2019独角兽企业重金招聘Python工程师标准>>> 1、Condition的简介 线程通信中的互斥除了用synchronized、Object类的wait()和notify()/notifyAll()方式实现外,方法JDK1.5中提供的Condition配套Lock可以实现相同的功能。Condition中的await()和signal()/si…

使用who.is查域名DNS信息以及用sameip.org查其他网站
www.who.is网站可以查域名信息,非常好用:例如查 hack-test.com然后我们可以找找同个IP上的其他站点(旁站:sameip.org)参考: 黑客是怎么攻击一个网站的?

基于 OpenCV 的人脸追踪
作者 | 努比 来源 | 小白学视觉 在Raspberry上启动项目很简单,所以让我们开始吧。 01. 产品清单 Raspberry Pi 4 Model B — 4GB 适用于Raspberry Pi的Pan-Tilt HAT Pi Camera v2 8MP 微型SD卡 迷你HDMI电缆 Raspberry Pi摄像头电缆—尺寸:457mm x …

-bash: /bin/rm: Argument list too long的解决办法
-bash: /bin/rm: Argument list too long的解决办法 当目录下文件太多时,用rm删除文件会报错: -bash: /bin/rm: Argument list too long 提示文件数目太多。 解决的办法是使用如下命令: ls | xargs -n 10 rm -fr ls 输出所有的文件名(用…

React使用ES6语法重构组件代码
首次使用react,要注意react不同版本库,是ES5还是ES6的写法,如何做到统一。下面对于ES6语法重构组件的代码如下:(1)原始代码: <script type"text/babel">var destinationdocumen…

PHP哈希表碰撞攻击原理
哈希表碰撞攻击(Hashtable collisions as DOS attack)的话题不断被提起,各种语言纷纷中招。本文结合PHP内核源码,聊一聊这种攻击的原理及实现。 哈希表碰撞攻击的基本原理 哈希表是一种查找效率极高的数据结构,很多语言…

Java8(jdk1.8)中文档注释处理工具javadoc的环境参量配置及使用方法
Java8(jdk1.8)中文档注释处理工具javadoc的环境参量配置及使用方法Java语言提供了一种功能强大的注释形式:文档注释。如果编写Java源代码时添加了合适的文档注释,然后通过JDK提供的javadoc工具可以直接将源代码里的文档注释提取成一份系统的API文档。jav…

如何读取Excel表格中不同sheet表的同一位置单元格数据,并绘制条形图呢?
作者 | 黄伟呢来源 | 数据分析与统计学之美今天,有位朋友在群里面咨询了一个问题:如何读取Excel表格中"不同sheet表"的同一位置单元格数据,并绘制条形图呢?有人提议用vba,但是不得不说,没有学过v…

vue-router学习笔记
配置路由模式 const routernew VueRouter({routes }) hash模式(默认):通过url的hash来模拟一个完整的url,于是当url改变时,页面不会重新加载。history模式:通过history完成url跳转而不需要重新加载页面。注意:为了防止404错误&…

PHP防止注入攻击
注入攻击不多说了PHP addslashes() 函数--单撇号加斜线转义PHP String 函数定义和用法addslashes() 函数在指定的预定义字符前添加反斜杠。这些预定义字符是:单引号 ()双引号 (")反斜杠 (\)NULL语法addslashes(string)参数描述string必需。规定要检查的字符串。…

首届腾讯数字安全创新大赛在京启动,挖掘新锐力量推动产业创新
3月10日,首届腾讯数字安全创新大赛在京正式启动。本次大赛由腾讯安全和中国产业互联网发展联盟联合主办,腾讯安全、KEEN、元起资本、赛博英杰、数世咨询等多家企业联合发起,中国产业互联网发展联盟安全专委会承办。 大赛旨在寻找网络安全新力…

oracle数据库无监听程序
在电脑---服务---启动oracle tns 如果还是出现错误的话,找到Net Manager,将网络的ip监听删除,将本机的主机名配好,即可打开tns服务 转载于:https://www.cnblogs.com/jiangsheng3/p/5025201.html

个人开发者即时到账收款方案 BufPay.com
BufPay 个人即时到账支付平台前言 作为独立开发者,一般只有一个人独立奋战,做出了产品需要收款是非常麻烦的,接入支付宝微信支付都需要公司公户,而注册公司、开公户等一系列操作非常麻烦,成本也很高一年也要 1w 左右。…

用 Python 制作数据大屏,超简单
作者 | 俊欣来源 | 关于数据分析与可视化今天我们用Streamlit模块来制作一个数据面板,将数据更加直观地呈现给别人观看,整个页面大致如下图所示:制作工具栏在页面的左侧是一个工具栏,工具栏中有多个按钮,分别是“About…

Oracle 12C -- 清空audit记录
1.使用job清空 SQL> dbms_audit_mgmt.create_purge_job(audit_trail_type> DBMS_AUDIT_MGMT.AUDIT_TRAIL_UNIFIED,audit_trail_purge_interval>12,audit_trail_purge_name>audit_trail_pj,use_last_arch_timestamp>TRUE,container>dbms_audit_mgm…

魔法引用函数magic_quotes_gpc和magic_quotes_runtime的区别和用法
PHP提供两个方便我们引用数据的魔法引用函数magic_quotes_gpc和magic_quotes_runtime, 这两个函数如果在php.ini设置为ON的时候,就会为我们引用的数据碰到单引号和双引号"是自动加上反斜线,帮我们自动转译符号,确保数据操作的…
Unity脚本生成插件:Script Create Dialog
最近写代码又犯懒了...感觉每次新建脚本都要写一堆简单重复的东西好无聊,所以搜索了一下有没有自动生成脚本的插件。结果还真被我发现了,官方在N久之前就制作了自动生成脚本的插件[Script Create Dialog],大概是名字起的和脚本生成器相差太多…

多路IO复用模型 select epoll 等
同步阻塞IO在等待数据就绪上花去太多时间,而传统的同步非阻塞IO虽然不会阻塞进程,但是结合轮询来判断数据是否就绪仍然会耗费大量的CPU时间。多路IO复用提供了对大量文件描述符进行就绪检查的高性能方案。selectselect诞生于4.2BSD,在几乎所有…

可操作性强!Python实现一个电影订票系统!
来源丨Python小二一、效果展示通过Python实现一个电影订票系统,效果如下所示:二、整体结构图三、代码分解3.1 infos.py一部电影的详细信息适合用 字典 结构来存储,我们可以给字典里添加多个键值对来保存电影的名称、座位表和宣传时用的字符画…

centos7 install mysql
1. 下载mysql的repo源 $ wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm 2. 安装mysql-community-release-el7-5.noarch.rpm包 $ sudo rpm -ivh mysql-community-release-el7-5.noarch.rpm 安装这个包后,会获得两个mysql的yum repo源&#x…

unity加载ab后,场景shader不起效问题(物件表现黑色)
需要把unity自带的shader,加入到默认列表转载于:https://www.cnblogs.com/lancidie/p/9293827.html

Linux下各类TCP网络服务器的实现源代码
http://www.linuxeden.com/forum/t146870.html大家都知道各类网络服务器程序的编写步骤,并且都知道网络服务器就两大类:循环服务和并发服务。这里附上源代码来个小结吧。首先,循环网络服务器编程实现的步骤是这样的: 这种服务器模…

ReferenceQueue的使用
转:http://www.iflym.com/index.php/java-programe/201407140001.html 1 何为ReferenceQueue 在java的引用体系中,存在着强引用,软引用,虚引用,幽灵引用,这4种引用类型。在正常的使用过程中,我们…

红帽、Docker、SUSE 在俄罗斯停服
国际局势给技术圈带来的影响依然在蔓延。整理 | 苏宓出品 | CSDN(ID:CSDNnews)继 Oracle、Google、苹果等科技公司和 React 开源项目之后,如今 Linux 发行版也牵扯进俄乌之间冲突的漩涡中。其中一个是全球最大的独立开源软件公…

配置linux-Fedora系统下iptables防火墙
参考地址:https://blog.csdn.net/zhangjingyi111/article/details/78902820 本篇文章为实验课过程记录,较为简略。 1.查看系统是否安装iptables 命令:iptables --version 2.开启iptables 命令:service iptables start 出现错误&am…

output_buffering详细介绍
HTTP Header为什么要使用Output Buffering技术Output Buffering的工作原理基本用法高级用法使事情更为简单哈哈,我成功了我个人认为,Output buffering是比较纯粹的PHP4.0特征。尽管从概念上看来相当简单,但是output buffering功能非常强大&am…

12 个 Pandas 数据处理高频操作
作者 | 老表来源 | 简说Python今天给大家分享几个自己近期常用的Pandas数据处理技巧,主打实用,所以你肯定能用的着,建议扫一遍,然后收藏起来,下次要用的时候再查查看即可。简单说说总结分享统计一行/一列数据的负数出现…

ORACLE初次安装自动安装软件包
一、自动安装所需软件包提前配置好yum仓库定义package.txt包列表文件:以官网RHEL6为例,这里有compat-libstdc有两个包,如果不加*,号后面的compat-libstdc-33-3.2.3-69.el6.x86_64,compat-libstdc-296-2.96-144.el6.i68…

中文详解phpmailer所有对象和属性
2019独角兽企业重金招聘Python工程师标准>>> 2009-03-09 19:13:50 前言: phpmailer是一个优秀的发件程序,但中文资料比较少,于是有牛人手动翻译了phpmailer的elementindex.html,E文的:[url]http://www.bblog.com/api…