再见 for 循环!pandas 提速 315 倍~
for
是所有编程语言的基础语法,初学者为了快速实现功能,依懒性较强。但如果从运算时间性能上考虑可能不是特别好的选择。
本次东哥介绍几个常见的提速方法,一个比一个快,了解pandas
本质,才能知道如何提速。
下面是一个例子,数据获取方式见文末。
>>> import pandas as pd
# 导入数据集
>>> df = pd.read_csv('demand_profile.csv')
>>> df.head()date_time energy_kwh
0 1/1/13 0:00 0.586
1 1/1/13 1:00 0.580
2 1/1/13 2:00 0.572
3 1/1/13 3:00 0.596
4 1/1/13 4:00 0.592
基于上面的数据,我们现在要增加一个新的特征,但这个新的特征是基于一些时间条件生成的,根据时长(小时)而变化,如下:
因此,如果你不知道如何提速,那正常第一想法可能就是用apply
方法写一个函数,函数里面写好时间条件的逻辑代码。
def apply_tariff(kwh, hour):"""计算每个小时的电费""" if 0 <= hour < 7:rate = 12elif 7 <= hour < 17:rate = 20elif 17 <= hour < 24:rate = 28else:raise ValueError(f'Invalid hour: {hour}')return rate * kwh
然后使用for
循环来遍历df
,根据apply
函数逻辑添加新的特征,如下:
>>> # 不赞同这种操作
>>> @timeit(repeat=3, number=100)
... def apply_tariff_loop(df):
... """用for循环计算enery cost,并添加到列表"""
... energy_cost_list = []
... for i in range(len(df)):
... # 获取用电量和时间(小时)
... energy_used = df.iloc[i]['energy_kwh']
... hour = df.iloc[i]['date_time'].hour
... energy_cost = apply_tariff(energy_used, hour)
... energy_cost_list.append(energy_cost)
... df['cost_cents'] = energy_cost_list
...
>>> apply_tariff_loop(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_loop` ran in average of 3.152 seconds.
对于那些写Pythonic
风格的人来说,这个设计看起来很自然。然而,这个循环将会严重影响效率。原因有几个:
首先,它需要初始化一个将记录输出的列表。
其次,它使用不透明对象范围(0,len(df))
循环,然后再应用apply_tariff()
之后,它必须将结果附加到用于创建新DataFrame
列的列表中。另外,还使用df.iloc [i]['date_time']
执行所谓的链式索引,这通常会导致意外的结果。
这种方法的最大问题是计算的时间成本。对于8760行数据,此循环花费了3秒钟。
接下来,一起看下优化的提速方案。
使用 iterrows循环
第一种可以通过pandas
引入iterrows
方法让效率更高。这些都是一次产生一行的生成器
方法,类似scrapy
中使用的yield
用法。
.itertuples
为每一行产生一个namedtuple
,并且行的索引值作为元组的第一个元素。nametuple
是Python
的collections
模块中的一种数据结构,其行为类似于Python
元组,但具有可通过属性查找访问的字段。
.iterrows
为DataFrame
中的每一行产生(index,series)
这样的元组。
在这个例子中使用.iterrows
,我们看看这使用iterrows
后效果如何。
>>> @timeit(repeat=3, number=100)
... def apply_tariff_iterrows(df):
... energy_cost_list = []
... for index, row in df.iterrows():
... # 获取用电量和时间(小时)
... energy_used = row['energy_kwh']
... hour = row['date_time'].hour
... # 添加cost列表
... energy_cost = apply_tariff(energy_used, hour)
... energy_cost_list.append(energy_cost)
... df['cost_cents'] = energy_cost_list
...
>>> apply_tariff_iterrows(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_iterrows` ran in average of 0.713 seconds.
这样的语法更明确,并且行值引用中的混乱更少,因此它更具可读性。
时间成本方面:快了近5倍!
但是,还有更多的改进空间,理想情况是可以用pandas
内置更快的方法完成。
pandas的apply方法
我们可以使用.apply
方法而不是.iterrows
进一步改进此操作。pandas
的.apply
方法接受函数callables
并沿DataFrame
的轴(所有行或所有列)应用。下面代码中,lambda
函数将两列数据传递给apply_tariff()
:
>>> @timeit(repeat=3, number=100)
... def apply_tariff_withapply(df):
... df['cost_cents'] = df.apply(
... lambda row: apply_tariff(
... kwh=row['energy_kwh'],
... hour=row['date_time'].hour),
... axis=1)
...
>>> apply_tariff_withapply(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_withapply` ran in average of 0.272 seconds.
apply
的语法优点很明显,行数少,代码可读性高。在这种情况下,所花费的时间大约是iterrows
方法的一半。
但是,这还不是“非常快”。一个原因是apply()
将在内部尝试循环遍历Cython
迭代器。但是在这种情况下,传递的lambda
不是可以在Cython
中处理的东西,因此它在Python中调用并不是那么快。
如果我们使用apply()
方法获取10年的小时数据,那么将需要大约15分钟的处理时间。如果这个计算只是大规模计算的一小部分,那么真的应该提速了。这也就是矢量化操作派上用场的地方。
矢量化操作:使用.isin选择数据
什么是矢量化操作?
如果你不基于一些条件,而是可以在一行代码中将所有电力消耗数据应用于该价格:df ['energy_kwh'] * 28
,类似这种。那么这个特定的操作就是矢量化操作的一个例子,它是在pandas
中执行的最快方法。
但是如何将条件计算应用为pandas
中的矢量化运算?
一个技巧是:根据你的条件,选择和分组DataFrame
,然后对每个选定的组应用矢量化操作。
在下面代码中,我们将看到如何使用pandas
的.isin()
方法选择行,然后在矢量化操作中实现新特征的添加。在执行此操作之前,如果将date_time
列设置为DataFrame
的索引,会更方便:
# 将date_time列设置为DataFrame的索引
df.set_index('date_time', inplace=True)@timeit(repeat=3, number=100)
def apply_tariff_isin(df):# 定义小时范围Boolean数组peak_hours = df.index.hour.isin(range(17, 24))shoulder_hours = df.index.hour.isin(range(7, 17))off_peak_hours = df.index.hour.isin(range(0, 7))# 使用上面apply_traffic函数中的定义df.loc[peak_hours, 'cost_cents'] = df.loc[peak_hours, 'energy_kwh'] * 28df.loc[shoulder_hours,'cost_cents'] = df.loc[shoulder_hours, 'energy_kwh'] * 20df.loc[off_peak_hours,'cost_cents'] = df.loc[off_peak_hours, 'energy_kwh'] * 12
我们来看一下结果如何。
>>> apply_tariff_isin(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_isin` ran in average of 0.010 seconds.
提示,上面.isin()
方法返回的是一个布尔值数组,如下:
[False, False, False, ..., True, True, True]
布尔值标识了DataFrame
索引datetimes
是否落在了指定的小时范围内。然后把这些布尔数组传递给DataFrame
的.loc
,将获得一个与这些小时匹配的DataFrame
切片。然后再将切片乘以适当的费率,这就是一种快速的矢量化操作了。
上面的方法完全取代了我们最开始自定义的函数apply_tariff()
,代码大大减少,同时速度起飞。
运行时间比Pythonic的for循环快315倍,比iterrows快71倍,比apply快27倍!
还能更快?
太刺激了,我们继续加速。
在上面apply_tariff_isin
中,我们通过调用df.loc
和df.index.hour.isin
三次来进行一些手动调整。如果我们有更精细的时间范围,你可能会说这个解决方案是不可扩展的。但在这种情况下,我们可以使用pandas
的pd.cut()
函数来自动完成切割:
@timeit(repeat=3, number=100)
def apply_tariff_cut(df):cents_per_kwh = pd.cut(x=df.index.hour,bins=[0, 7, 17, 24],include_lowest=True,labels=[12, 20, 28]).astype(int)df['cost_cents'] = cents_per_kwh * df['energy_kwh']
上面代码pd.cut()
会根据bin
列表应用分组。
其中include_lowest
参数表示第一个间隔是否应该是包含左边的。
这是一种完全矢量化的方法,它在时间方面是最快的:
>>> apply_tariff_cut(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_cut` ran in average of 0.003 seconds.
到目前为止,使用pandas处理的时间上基本快达到极限了!只需要花费不到一秒的时间即可处理完整的10年的小时数据集。
但是,最后一个其它选择,就是使用 NumPy
,还可以更快!
使用Numpy继续加速
使用pandas
时不应忘记的一点是Pandas
的Series
和DataFrames
是在NumPy
库之上设计的。并且,pandas
可以与NumPy
阵列和操作无缝衔接。
下面我们使用NumPy
的 digitize()
函数更进一步。它类似于上面pandas
的cut()
,因为数据将被分箱,但这次它将由一个索引数组表示,这些索引表示每小时所属的bin
。然后将这些索引应用于价格数组:
@timeit(repeat=3, number=100)
def apply_tariff_digitize(df):prices = np.array([12, 20, 28])bins = np.digitize(df.index.hour.values, bins=[7, 17, 24])df['cost_cents'] = prices[bins] * df['energy_kwh'].values
与cut
函数一样,这种语法非常简洁易读。
>>> apply_tariff_digitize(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_digitize` ran in average of 0.002 seconds.
0.002秒! 虽然仍有性能提升,但已经很边缘化了。
更多精彩推荐
☞Python 分析热卖年货,今年春节大家都在送啥?☞爬了20W+条猫咪交易数据,它不愧是人类团宠☞英超引入 AI 球探,寻找下一个足球巨星
☞三年投 1000 亿,达摩院何以仗剑走天涯?☞2021年浅谈多任务学习
点分享点收藏点点赞点在看
相关文章:

UVa 374 - Big Mod
题目大意:计算R BP mod M,根据模运算的性质计算。 正常计算会超时,可以用分治的思想降低时间复杂度。不过如果遇到00,结果...话说00的结果是1吗?忘了都... 1 #include <cstdio>2 3 int powMod(int base, int ex…

微软在慕尼黑设立欧洲首个物联网实验室
北京时间3月30日晚间消息,微软今日在慕尼黑设立了其在欧洲的首个物联网实验室。在此之前,微软已经在雷德蒙(Redmond)总部和中国深圳设立了物联网实验室。 慕尼黑是德国许多知名大企业的故乡,如宝马和西门子等。在此之前,思科和IBM…

linux的strace命令
linux的strace命令 strace 命令是一种强大的工具,它能够显示所有由用户空间程序发出的系统调用。 strace 显示这些调用的参数并返回符号形式的值。strace 从内核接收信息,而且不需要以任何特殊的方式来构建内核。 下面记录几个常用 option . …
明年,我要用 AI 给全村写对联
作者 | 神经小兮来源 | HyperAI超神经春节已经过完,你是否还沉浸在年味里?到腊月二十九、三十,家家户户贴上了 红红的春联,春节就正式拉开了序幕。春联也称为「对联」、「门对」、「楹联」,是汉语所独有的一种艺术形式…

C++实现int与string之间的相互转换
2019独角兽企业重金招聘Python工程师标准>>> c 利用stringstream实现int与string类型的相互转换,记录在此,以备后用 #include<iostream> #include<sstream> #include<string>using namespace std;string add_int(const st…

逆变器的技术创新 让光伏电站更具发展前景
曾几何时,光伏发电因为光照强度和温度的变化,逆变器输出功率波动大,对电网产生冲击,而被称为垃圾电而受到限制。随着技术的进步,光伏逆变器完善了多种保护功能,增加了低(零)电压穿越…

8个免费实用的C++GUI库
C标准中并没有包含GUI,这也使得C开发图形化界面需要依赖于第三方的库。实际上,图形界面恰恰是C的强项,小到平常使用的各类桌面软件,大到魔兽世界这样的游戏,都是C擅长的地方。C之所以能做到这一点,原因在于…

.Net2.0 使用ConfigurationManager读写配置文件
.net1.1中如果需要灵活的操作和读写配置文件并不是十分方便,一般都会在项目中封装一个配置文件管理类来进行读写操作。而在.net2.0中使用ConfigurationManager 和WebConfigurationManager 类可以很好的管理配置文件,ConfigurationManager类在System.Conf…
举个例子,如何用GCN图卷积神经网络实现摔倒监测?
作者 | 李秋键责编 | 寇雪芹头图 | 下载于视觉中国引言近几年来深度学习的发展越来越火热,其中最为典型的就是半监督学习的新研究进展GCN。由Kipf和Welling提出的GCN被证明是一种有效的图半监督学习框架应用,如社会、医疗、商业和交通网络分析࿰…

数据中心节能大法 —— 尽在上海11月中国数据中心展
根据调研机构451Research的预测,全球数据中心托管市场2018年的市场规模将达到332亿美元。据悉,2015年我国数据中心节能改造规模已达30亿元左右,数据中心节能市场的空间是非常大的,在未来有望达到85亿元的市场空间。 根据调研机构4…

古怪的ConfigurationManager类
开始使用VS 2005,习惯性的使用ConfigurationSettings类来读取应用程序配置文件的信息时,却被编译器提示说:警告 1 “System.Configuration.ConfigurationSettings.AppSettings”已过时:“This method is obsolete, it has been replaced by …

最常用的css选择器及兼容性 +几个好用却不多见的 nth-child等
你也许已经掌握了id、class、后台选择器这些基本的css选择器。但这远远不是css的全部。下面向大家系统的解析css中30个最常用的选择器,包括我们最头痛的浏览器兼容性问题。掌握了它们,才能真正领略css的巨大灵活性。 1. * * { margin: 0; paddin…
对比四种爬虫定位元素方法,你更爱哪个?
作者 | 陈熹来源 | 早起Python头图 | 下载于视觉中国在使用Python本爬虫采集数据时,一个很重要的操作就是如何从请求到的网页中提取数据,而正确定位想要的数据又是第一步操作。本文将对比几种 Python 爬虫中比较常用的定位网页元素的方式供大家学习&…

2017年安全漏洞审查报告:安全补丁在不断增加,用户却不安装
软件漏洞难修复吗?年度FLexera漏洞审查报告显示,全部安全漏洞当中有81%已经拥有与之匹配的修复补丁,但多数常见软件项目的补丁安装率却相当低下。 作为一家面向应用程序开发商与企业客户的软件安全漏洞管理解决方案厂商,Flexera S…

Visual SourceSafe简明培训教程
名称Visual SourceSafe简明培训教程(Visual SourceSafe Training Short Course) 作者晨光(Morning) 简介对于采用Visual SourceSafe 6.0作为版本控制工具的项目及产品开发,本教程针对不同用户角色,提供有关该软件的若干使用指导…

水母智能联合蚂蚁森林、犀牛智造等,用AI助力非遗出圈,39万人开工得“福”
如今过年越来越有年味了,许多淡出已久的中国传统年俗,以更有趣、更年轻新潮、更科技的方式回到了大家身边。集五福、写福字、贴福字,挂福饰品,当然还有接“福袋”!人工智能实现智能设计已经相当成熟,已有微…

绿色信托任重道远 应建立补偿机制?
作为绿色金融的分支之一,绿色信托面临的状况不如绿色信贷、绿色债券,整体规模尚小,且监管方面的鼓励措施未有明确,甚至连概念都尚未统一。 日前,北京大学法学院非营利组织法研究中心与中航信托联合发布《2016年绿色信托…

解读C#正则表达式
多少年来,许多的编程语言和工具都包含对正则表达式的支持,.NET基础类库中包含有一个名字空间和一系列可以充分发挥规则表达式威力的类,而且它们也都与未来的Perl 5中的规则表达式兼容。 此外,regexp类还能够完成一些其他的功能&am…

wpa_supplicant学习
2019独角兽企业重金招聘Python工程师标准>>> interface gtk makefile wrapper buffer methods 目录(?)[-] 本来以为这个东西只有在Atheros的平台上用的突然发现Ralink的平台也可以用甚至还看到还有老美把这个东西往android上移植看来是个好东西学习一下 官方…
一张图,看编程语言十年热度变化
作者 | 叶庭云来源 | 修炼Python头图 | 下载于视觉中国什么是 TIOBE 排行榜TIOBE 排行榜是根据互联网上有经验的程序员、课程和第三方厂商的数量,并使用搜索引擎(如Google、Bing、Yahoo!)以及Wikipedia、Amazon、YouTube 统计出排名数据&…

小扎的野心不止做社交 市政厅的上线说明了这一点
一个月前,扎克伯格刚在一封6千字长信里宣布了自己要做一个全球社区的理想,日前Facebook就上线了个叫“市政厅”的政务服务功能。 美国的用户在“市政厅”的功能页填写完自己的地理位置信息之后,可以看到当地政府官员的名单,包括美…

C#调用存储过程简单完整例子
CREATE PROC P_TEST Name VARCHAR(20), Rowcount INT OUTPUT AS BEGINSELECT * FROM T_Customer WHERE NAMENameSET RowcountROWCOUNT END GO ---------------------------------------------------------------------------------------- --存储过程调用如下: -------------…
高手的习惯:pythonic风格代码
来源 | Python大数据分析责编 | 寇雪芹头图 | 下载于视觉中国什么是pythonicpythonic是开发者们在写python代码过程中总结的编程习惯,崇尚优雅、明确、简单。就好比中文的笔画,讲究先后顺序,最符合文字书写的习惯。因为是习惯,不是…

计算机天才Aaron Swartz 名作 《如何提高效率》——纪念真正的“hacker!
如何提高效率 《HOWTO: Be more productive》(如何提高效率)作者:Aaron Swartz 肯定有人跟你说过这样的话,“你有看电视的那么长时间,都可以用来写一本书了”。不可否认写书肯定比看电视更好的利用了时间,但…

python的web压力测试工具-pylot安装使用
pylot是python编写的一款web压力测试工具。使用比较简单。而且测试结果相对稳定。 这里不得不鄙视一下apache 的ab测试,那结果真是让人蛋疼,同样的url,测试结果飘忽不定,看得人心惊肉跳,摸不着头脑。 下载 pylot官网&a…
快过HugeCTR:用OneFlow轻松实现大型推荐系统引擎
Wide & Deep Learning Wide & Deep Learning (以下简称 WDL)是解决点击率预估(CTR Prediction)问题比较重要的模型。WDL 在训练时,也面临着点击率预估领域存在的两个挑战:巨大的词表(Em…

路由的有类和无类
有类和无类路由1.通告时不以主类子网掩码通告,一条路由被通告出去的时候并没有自动汇总,而是以本身的子网掩码通告。即为无类路由。2.被通告的路由化成主类网络后和通告该路由的接口被化成主类网络后相比不是同一个网络,那么这台路由器就产生…

VS2005 常用快捷键
ShiftAltEnter: 切换全屏编辑CtrlB,T / CtrlK,K: 切换书签开关CtrlB,N / CtrlK,N: 移动到下一书签 CtrlB,P: 移动到上一书签 CtrlB,C: 清除全部标签CtrlI: 渐进式搜索 CtrlShiftI: 反向渐进式搜索CtrlF: 查找 CtrlShiftF: 在文件中查找F3: 查找下一个ShiftF3: 查找上一个CtrlH:…

2016政策与市场协同发力大数据,小公司如何搏杀BAT?
大数据这个词来到2016年,绽放出绚烂的光。 先看看最近几天的新闻:大数据分析腐败问题、大数据曝光基友的世界、大数据助交警查处多起毒驾……不仅仅是与经济相关,大数据正在渗透社会各个领域,与传统社会嫁接的大数据,正…
机器学习的第一个难点,是数据探索性分析
作者 | 陆春晖责编 | 寇雪芹头图 | 下载于视觉中国当我们在进行机器学习领域的学习和研究时,遇到的第一个难点就是数据探索性分析(Exploratory Data Analysis)。虽然从各种文献中不难了解到数据探索性分析的重要性和一般的步骤流程࿰…