当前位置: 首页 > 编程日记 > 正文

​一个参数一张Excel表,玩转Pandas的read_excel()表格读取


作者 | 黄伟呢

来源 | 数据分析与统计学之美

我觉得很有必要讲述这个文章,进行数据处理的第一步就是Python数据读取。但是你可能没想到,在进行数据读取的同时,我们其实可以配合相关参数做很多事儿,这对于后续的数据处理都是极其有帮助。

read_excel()函数和read_csv()函数,在参数上面有很多相同点,因此我就以read_excel()函数为例,进行详细的说明。



1)sheet_name参数

  • 含义:选择要读取的sheet表;

  • sheet_name=0表示默认读取第一个sheet表,等同于sheet_name=“sheet名称”;

  • sheet_name=[“sheet名”,0]会返回一个字典,然后可以利用键获取每一个sheet表中的数据;

  • sheet_name=None也会返回一个字典,但是会返回全部的sheet表;

① sheet_name=0和sheet_name="Sheet1"
# 下面这两个读取方式等同。
#df2 = pd.read_excel("readexcel.xlsx",sheet_name=0)
df2 = pd.read_excel("readexcel.xlsx",sheet_name="Sheet1")
df2

结果如下:

② sheet_name=[“sheet名”,0]
df2 = pd.read_excel("readexcel.xlsx",sheet_name=[0,1])
df2

结果如下:

接着,我们可以使用键值对的方式,获取每个sheet表中的数据。

注:关于sheet_name=None效果同上,只不过会返回所有的sheet表中的数据。

2)header参数

  • 含义:指定某一行作为表头;

  • header=None专门针对没有表头的表,这也是默认值;

  • header=1指定第一行作为表头;

  • header=[]主要针对复合表头的情况;

① header=None
df3 = pd.read_excel("header.xlsx",header=None)
df3

结果如下:

②  header=1
df3 = pd.read_excel("header.xlsx",sheet_name=2,header=1) 
df3

结果如下:

③ header=[]
df3 = pd.read_excel("header.xlsx",sheet_name=3,header=[0,1],index_col=0) 
df3

结果如下:

注意:上述用到了一个index_col参数,这个参数用于指定作为行索引的列,我就不详细举例了,看看下图。

3)usecols参数

  • 含义:选择读取一张表中的指定列;

  • usecols=None也是默认情况,表示读取所有列;

  • usecols=[A,C]表示只选取A列和C列。usecols=[A,C:E]表示选择A列,C列、D列和E列;

  • usecols=[0,2]表示只选择第一列和第三列;

  • usecols=["列名1","列名2"...]这也是推荐使用的一种写法;

① usecols=None
df4 = pd.read_excel("usecols.xlsx",usecols=None) # 默认
df4

结果如下:

② usecols=[A,C]
df4 = pd.read_excel("usecols.xlsx",usecols="A,C") 
df4

结果如下:

③ usecols=[A,C:D]
df4 = pd.read_excel("usecols.xlsx",usecols="A,C:D") 
df4

结果如下:

④ usecols=[0,2]
df4 = pd.read_excel("usecols.xlsx",usecols=[0,2]) 
df4

结果如下:

⑤ usecols=["列名1","列名2"...]

这种方式照说是没有任何问题的,但是在我这边运行总是无结果,我很纳闷,大家可以下去试试。

4)names参数

  • 含义:如果表中没有表头,可以用这个参数添加一个标题。如果表中有表头,可以用这个参数修改标题。

names = ["月份","语文","英语"]
df6 = pd.read_excel("names.xlsx",header=None,names=names) 
df6

结果如下:

5)dtype参数

  • 含义:读取数据时,设置每一列的数据类型(重要);

  • dtype={}传入一个字典,类似于{"列名":"类型"};

df7 = pd.read_excel("dtype.xlsx")
df7.dtypes
------------------------------------------------------
df7 = pd.read_excel("dtype.xlsx",dtype={"年龄":"str"})
df7.dtypes

结果如下:

6)parse_dates参数

  • 含义:指定将哪些列,解析为日期格式;

  • parse_dates=True是专门用于将行索引,解析为日期格式;

  • parse_dates=[0,1,2,3,4]和parse_dates=["列名1","列名2","列名3","列名4"],都是将指定列一起解析为日期格式;

  • parse_dates=[[1,2,3]]和parse_dates=[["年","月","日"]],都是将多个列,解析为单个日期列;

  • parse_dates={"日期":[1,2,3]}不仅将多个日期列解析为单个日期列,同时还为这一列命名;

① parse_dates=True
df8 = pd.read_excel("parse_dates",index_col=2,parse_dates=True)
df8.index

结果如下:

② parse_dates=[0,1]和parse_dates=["列名1","列名2"]
df8 = pd.read_excel("parse_dates",parse_dates=[0,1,2,3,4])
df8.dtypes
# 这个代码效果同上
df8 = pd.read_excel("parse_dates.xlsx",parse_dates=["数值日期1","文本日期2","文本日期3","文本日期4","文本日期5"])

结果如下:

③ parse_dates=[[1,2,3]]和parse_dates=[["年","月","日"]]
#df8 = pd.read_excel("parse_dates.xlsx",sheet_name="Sheet2",parse_dates=[["年","月","日"]])
df8 = pd.read_excel("parse_dates.xlsx",sheet_name="Sheet2",parse_dates=[[1,2,3]])
df8

结果如下:

④ parse_dates={"日期":[1,2,3]}
df8 = pd.read_excel("parse_dates.xlsx",sheet_name="Sheet2",parse_dates={"日期":[1,2,3]})
df8

结果如下:

7)date_parser参数
  • 含义:利用lambda函数,将某个字符串列,解析为日期格式;

  • 一般是配合parse_dates参数,一起使用;

df9 = pd.read_excel("date_parser.xlsx",parse_dates=[1],date_parser=lambda x: pd.to_datetime(x,format="%Y年%m月%d"))
print(df9.dtypes)
df9

结果如下:

8)na_values参数

  • 含义:用于将某些特定的值,解析为NaN值,然后便于我们后面做缺失值的处理;

  • na_values=”值1“表示将所有数据中值1全部替换为NaN;

  • na_values=[”值1“,"值2"]表示将所有数据中值1、值2全部替换为NaN;

  • na_values={"列1":[”值1“,"值2"]}表示将第一列中所有的值1、值2全部替换为NaN;

① na_values=”值1“
df10 = pd.read_excel("na_values.xlsx",na_values=" ")
df10

结果如下:

② na_values=[”值1“,"值2"]
df10 = pd.read_excel("na_values.xlsx",na_values=["a","0"])
df10

结果如下:

③ na_values={"列1":[”值1“,"值2"]}
#  只替换某一列中的某些值为NaN
df10 = pd.read_excel("na_values.xlsx",na_values={"列2":["0"," "]})
df10

结果如下:

9)converters参数
  • 含义:对某一列使用Lambda函数,进行某种运算;

  • 例如:converters={"工资":lambda x: x + 1000};

df11 = pd.read_excel("converters.xlsx",converters={"地址":lambda x: "中国"+x,"工资":lambda x: x + 1000})
df11

结果如下:


推荐阅读

  • 算法实现太难了?机器学习也需要开源软件

  • TikTok算法背后是抖音用户数据?想多了

  • 图解Transformer,读完这篇就够了

  • 马小峰:金融科技界的区块链博士

  • 2019年中国IaaS公有云市场排名及份额出炉

相关文章:

Android 设计模式:(三)装饰者模式 —— 装饰对象

*利用组合(composition)和委托(delegation)可以在运行时实现继承行为的效果,动态地给对象加上新的行为。*利用继承扩展子类的行为,是在编译时静态决定的;利用组合的做法,可以在运行时…

润乾报表永久授权说明

永久授权是什么? 永久授权是运行润乾报表的带有机器特征码的没有时间限制的正式授权文件 2 机器特征码是什么? 机器特征码是为了制作永久授权,由润乾公司提供程序从用户的服务器上获取硬件和操作系统信息,生成的一个数字串&#x…

维度爆炸?Python实现数据压缩如此简单

作者 | 萝卜来源 | 早起Python(ID: zaoqi-python)用Python基于主成分分析常见的三个应用场景中,其中有一个是「数据描述」,以描述产品情况为例,比如著名的波士顿矩阵,子公司业务发展状况,区域投…

深入剖析C#的多态

作者: 天雨一、什么是多态 面向对象程序设计中的另外一个重要概念是多态性。在运行时,可以通过指向基类的指针,来调用实现派生类中的方法。可以把一组对象放到一个数组中,然后调用它们的方法,在这种场合下,多态性作用…

/usr/local/lib/libz.a: could not read symbols: Bad value(64 位 Linux)

/usr/bin/ld: /usr/local/lib/libz.a(crc32.o): relocation R_X86_64_32 against a local symbol can not be used when making a shared object; recompile with -fPIC /usr/local/lib/libz.a: could not read symbols: Bad value 一般是64 位 电脑才会出现。 解决方法如下&am…

关于BIO | NIO | AIO的讨论

关于BIO | NIO | AIO的讨论一直存在,有时候也很容易让人混淆,就我的理解,给出一个解释: BIO | NIO | AIO,本身的描述都是在Java语言的基础上的。而描述IO,我们需要从两个层面: 编程语言实现原理…

NYOJ-49 开心的小明

开心的小明 时间限制:1000 ms | 内存限制:65535 KB难度:4描述小明今天很开心,家里购置的新房就要领钥匙了,新房里有一间他自己专用的很宽敞的房间。更让他高兴的是,妈妈昨天对他说:“你的房间…

两个硬盘和文件相关的小技巧 (C#)

取系统的硬盘分区的盘符,用API函数:GetDriveType [DllImport("kernel32.dll", EntryPoint"GetDriveType")] public static extern int GetDriveType (string nDrive); 调用:string [] dirs Environment.GetLogicalDri…

从数百个Excel中查找数据,一分钟用Python搞定

作者 | 陈熹来源 | 早起Python今天分享一个真实的办公自动化需求,大家一定要仔细阅读需求说明,在理解需求之后即可体会Python的强大。需求说明首先我们来看下今天的需求,有一份档案记录总表的Excel工作簿, 每天会根据当天日期建立…

namenode如何存储复本?

2019独角兽企业重金招聘Python工程师标准>>> namenode如何选择在哪个datanode存储复本?这里需要对可靠性,写入带宽和读取带宽进行权衡。例如,把所有复本都存储在一个节点损失的写入带宽最小,因为复制管线都是在同一节点…

EBS-使用 fnd_user_pkg API 创建用户,添加职责,修改用户

比如有一个外围支持系统,用户需要在外围系统登录之后点个link就可以登录到Oracle ERP系统中,那么我们需要先把外围系统的用户创建在Oracle ERP中,并且分配职责给他。 DECLARE a BOOLEAN; BEGIN---------------------------------------------…

万字长文总结机器学习的模型评估与调参 | 附代码下载

作者 | Sebastian Raschka翻译&整理 | Sam来源 | SAMshare目录一、认识管道流1.1 数据导入1.2 使用管道创建工作流二、K折交叉验证2.1 K折交叉验证原理2.2 K折交叉验证实现三、曲线调参3.1 模型准确度3.2 绘制学习曲线得到样本数与准确率的关系3.3 绘制验证曲线得到超参和准…

[百万级]通用存储过程.分页存储过程

/* 名称:spAll_ReturnRows 输入: 输出: 调用: EXEC spAll_ReturnRows SELECT * FROM 表名, 页号, 返回记录数, 主键, 排序字段 spAll_ReturnRows SELECT * FROM all_Categories,2,10,[ID],[ID] 说明:[百万级]通用存储过程.分页存储过程..返回指定返回条数、指定页数的记录 …

Unsupported major.minor version (jdk版本错误)解决方案

2019独角兽企业重金招聘Python工程师标准>>> 如果你遇到了 Unsupported major.minor version ,请认真看一下,说不定会有帮助。 我花两个小时总结的经验,你可能10分钟就得到了。 ^**^ 一、错误现象: 当改变了jdk版本时…

The key of C# 学习笔记I-II

作者 :Kemins booootLog http://blog.csdn.net/keminlau/ Sunday, October 3, 2004 微软提出的CLS(Common Language Specification, 通用语言标准)对能被用来编写dotNET程序的语言的最小功能集做出了规定。 就拿C#来说,它是目前程序设计语言“以效率换安…

分布式平台下的HS(High-Security) --Apache Shiro API(介绍)

在尝试保护你的应用时,你是否有过挫败感?是否觉得现有的Java安全解决方案难以使用,只会让你更糊涂?本文介绍的Apache Shiro,是一个不同寻常的Java安全框架,为保护应用提供了简单而强大的方法。本文还解释了Apache Shiro的项目目…

豪赌 ARM 梦碎:63 岁孙正义的「花甲历险记」

来源 | HyperAI超神经这几天,传出 NVIDIA 将以 400 亿 英镑的价格收购 ARM 的消息,不少媒体在争相报道收购进度的同时,也将整起交易的幕后推手 —— 孙正义,放到了聚光灯下。软银 CEO,传奇投资人,冒险家&am…

Java 集合 — HashMap

HashMap 无序(每次resize的时候都会变)非线程安全key和value都看可以为null使用数组和链表实现查找元素的时候速度快几个重要属性: loadFactor:用来计算thresholdthreshold:决定map是否需要扩容,threshold …

赠书 | 人工智能识万物:卷积神经网络的前世今生

来源 |《Python人工智能开发从入门到精通》作者 | 杨柳、郭坦、鲁银芝责编 | 晋兆雨深度学习在技术与应用上的突破引发了第三次人工智能浪潮,获得了空前成功。在前述章节的基础上,本章将主要介绍训练卷积神经网络和深度神经网络的重要方法与技巧&#xf…

通过WMI获得硬盘和CPU的物理序列号(VB.net)

作者:iwebsms获得硬盘序列号Dim cmicWmi As New System.Management.ManagementObjectSearcher("SELECT * FROM Win32_DiskDrive")Dim Uint32 As UInt32For Each cmicWmiObj As ManagementObject In cmicWmi.GetUint32 cmicWmiObj("signature")…

[转] Zend studio中开发常用

转载自: http://www.cnblogs.com/iphper/archive/2012/03/21/2409397.html 、快捷键设置 在zendstudio中开发的过程中,我们应专注与代码的逻辑中,而不是把一大半的时间都浪费在编辑器的操作以及鼠标的点击中,经常使用快捷键进行操作会达到事半…

程序员新手 0年份等级 指导(一) 开发人员IT架构总览

程序员新手 0年份等级 指导(一) 开发人员IT架构总览 程序员新手 0年份等级 指导(一) 开发人员相关IT架构总览之职能分解 开发人员IT架构总览一、职能分解 软件项目的主要组成大体上按照一个项目的生命周期流程分为: 需…

磁盘配额的wmi版本(C#)

作者&#xff1a;iwebsmsusing System;using System.Management;namespace DiskQuota{/// <summary>/// Class1 的摘要说明。/// </summary>class Class1{/// <summary>/// 应用程序的主入口点。/// </summary>[STAThread]static void Main(string[] a…

Smarty的配置与高级缓存技术

前言 Smarty 是一个出色的PHP模板引擎&#xff0c;它分离了逻辑代码和user interface。 学习和使用Smarty&#xff0c;没有应用到它的缓存技术是一个很大的损失&#xff0c;它可以将用户最终看到的HMTL文件缓存成一个静态的HTML页&#xff0c;当设定Smarty的cache属性为true时&…

Get了!用Python制作数据预测集成工具 | 附代码

作者 | 李秋键责编 | 晋兆雨大数据预测是大数据最核心的应用&#xff0c;是它将传统意义的预测拓展到“现测”。大数据预测的优势体现在&#xff0c;它把一个非常困难的预测问题&#xff0c;转化为一个相对简单的描述问题&#xff0c;而这是传统小数据集根本无法企及的。从预测…

方差,标准差,协方差、期望值

方差&#xff1a;方差是变量与其平均值的平方和的算术平均值&#xff0c;例如&#xff1a; 有一组数据{4,5,6,7}, 平均值为&#xff1a;(4567)/422/45.5 其方差为&#xff1a;[(4-5.5)2(5-5.5)2(6-5.5)2(7-5.5)2]/4 标准差&#xff1a;方差的开2次方 例如上面那组数据的标准差为…

简单代码的性能差异

《.net 框架程序设计》里的几句代码&#xff0c;我重新整理了一下&#xff0c;写成函数&#xff0c;这样下面的反编译代码看起来更方便点&#xff1a;dahuzizyd的专栏 http://blog.csdn.net/dahuzizyd/publicvoidBoxing() { Int32 v 5; Conso…

求助贴:人工智能offer,阿里or腾讯,选哪个?

笔者曾在脉脉上看到一条网友求助帖&#xff1a;拿到两个offer&#xff0c;一个腾讯&#xff0c;一个阿里&#xff0c;选哪个&#xff1f;抛开“柠檬”这件事不说&#xff0c;笔者观察到另一件事&#xff1a;那就是他的offer都是视觉岗。前一阵刚巧也看到一份报告&#xff1a;人…

EIGRP注入默认路由

实验TOP&#xff1a; 三、实验要求: R1,R2,R3运行EIGRP,用ip default-network 命令使EIGRP向EIGRP域内传递缺省路由,各路由器的各环回口之间路由可达。 四:实验过程: 1、 基本接口的配置.(见图) 1(config)#int e0/0 R1(config-if)#ip add 12.0.0.1 255.255.255.0 R1(config-if)…

Python OpenCV学习笔记之:图像读取,显示及保存

为什么80%的码农都做不了架构师&#xff1f;>>> #-*- coding: utf-8 -*- # 读取&#xff0c;保存&#xff0c;显示图片 import cv2 as cv# 读取为灰度图片 img cv.imread("../../datas/images/fish.jpg",0)# 保存图片 cv.imwrite("../../datas/ima…