这个插件竟打通了Python和Excel,还能自动生成代码!
作者 | 云朵君
来源丨数据STUDIO
加载一个Jupyter插件后,无需写代码就能做数据分析,还帮你生成相应代码?
没错,只需要加载这个名为Mito的小工具包,用Python做数据分析,变得和用Excel一样简单:
介绍
以 Excel 为代表的电子表格是探索数据集的最重要、最具适应性的方式之一。它可以帮助对数据类型进行必要的更改、创建新特征、对数据进行排序以及从现有特征中创建新特征。
遵循以上相同的思路,Mito是一个Jupyter-Lab扩展和Python库,它使得在支持GUI的电子表格环境中操作数据变得超级容易。
Mito的出现,像是将Python的强大功能、和Excel的易用性进行了结合。
只需要掌握Excel的用法,就能使用Python的数据分析功能,还能将写出来的代码“打包带走”
。
它弥补了Excel在数据分析上的几个缺陷:
Excel无法做大数据分析(大型数据集处理得不好)
Excel运行缓慢
Excel无法轻松创建可重复流程
同时,又比SQL和Python更简单、直观。毕竟这些专业工具对于0基础初学者来说,需要至少几年时间,才能完全上手。
在本文中,我们将一起学习:
如何合理设置Mito
如何debug安装错误
使用 Mito 提供的各种功能
该库如何为对数据集所做的所有操作生成 Python 等效代码
安装Mito
Mito 是一个 Python 库,可以通过 pip 包管理器安装。它需要 Python 3.6 及以上版本。此外,系统上需要安装 Nodejs,一个 JavaScript 运行时环境。
另外,可以在单独的环境(虚拟环境)中安装这个包,可以避免一些依赖错误。接下来在终端中运行这些命令,完成安装即可。
1. 创建环境
我正在使用 Conda 创建一个新环境。你还可以使用 Python 的“venv”
来创建虚拟环境。
conda create -n mitoenv python=3.8
2. 激活环境
conda activate mitoenv
3. 通过pip安装Mito
pip install mitoinstaller
4. 运行 Mito 安装程序
python -m mitoinstaller install
此过程将需要一段时间来安装和设置 Mito。
5. 启动 Jupyter Lab
jupyter lab
报错解决
当启动 Jupyter Lab时,可能会遇到如下错误:
File "c:userslenovoanaconda3envsmitoenvlibsite-packagesjupyter_corepaths.py", line 387, in win32_restrict_file_to_userimport win32api
ImportError: DLL load failed while importing win32api: The specified module could not be found.
要修复此错误,只需运行以下命令:
pip install --upgrade pywin32==225
如果你遇到其他困难,请随时在下面发表评论。我很乐意提供帮助。
MitoSheets 界面
在 Jupyter Lab中,创建一个新笔记本并初始化 Mitosheet:
import mitosheet
mitosheet.sheet()
第一次,系统会提示输入你的电子邮件地址进行注册:

填写完基础知识后,将被重定向到 GUI 电子表格。接下来我们一起看看这个接口的所有特性,并一起学习如何生成 Python 等效代码。
加载数据集
要在 MitoSheets 中加载数据集,只需单击导入。有两个选择:
从当前文件夹添加文件:这将列出当前目录中的所有 CSV 文件,可以从下拉菜单中选择文件。
按文件路径添加文件:这将仅添加该特定文件。
如下图所示

如果你看下面的单元格,你会发现Python等效的代码导入一个数据集使用pandas已经生成了适当的注释!

这就是 Mito 的魅力,你在 Mitosheet 中执行的每个操作都将转换为 Python 等效代码!接下来我们一起详细探讨一下 Mito 的所有功能。
添加和删除列
添加列
就像在 Excel 等电子表格中一样,你可以添加一个新列,该列可能是从现有列或特征创建的。要在 Mito 中执行此操作,只需单击“Add Col”
按钮。该列将添加到当前选定的列旁边。最初,列名将是一个字母表,列的所有值都为零。
编辑新列的内容
单击新列名称(分配的字母表)
将弹出侧边栏菜单,你可以在其中编辑列的名称。
要更新该列的内容,请单击该列的任何单元格,然后输入值。你可以输入一个常量值,也可以根据数据集的现有特征创建值。如果要从现有列创建值,则直接使用要执行的运算符调用列名。
新列的数据类型根据分配的值进行更改。
下面的 GIF 演示了上面提到的所有内容:
删除列
通过单击选择任何列。
单击
“Del Col”
,该特定列将从数据集中删除。

Python代码
在下一个单元格中生成带有正确注释的 Python 等效代码,用于执行的操作是:
# MITO CODE START (DO NOT EDIT)
from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-7bf77d26-84f4-48ed-b389-3f7a3b729753') # Let Mito know which analysis is being run
# Imported edxCourses.csv
import pandas as pd
edxCourses_csv = pd.read_csv('edxCourses.csv')
# Added column H to edxCourses_csv
edxCourses_csv.insert(7, 'H', 0)
# Renamed H to newCol in edxCourses_csv
edxCourses_csv.rename(columns={"H": "newCol"}, inplace=True)
# Set newCol in edxCourses_csv to =coursePrice + courseEnrollments
edxCourses_csv['newCol'] = edxCourses_csv['coursePrice'] + edxCourses_csv['courseEnrollments']
# Deleted column newCol from edxCourses_csv
edxCourses_csv.drop('newCol', axis=1, inplace=True)
# MITO CODE END (DO NOT EDIT)
创建数据透视表
数据透视表是一个重要的 excel 功能,它根据另一个分类特征汇总数字变量。要使用 Mito 创建这样的表,
单击
“Pivot”
并选择源数据集(默认加载 CSV)选择数据透视表的行、列和值列。还可以为值列选择聚合函数。所有下拉选项,如求和、平均值、中值、最小值、最大值、计数和标准偏差都可用。
选择所有必要的字段后,将获得一个单独的表,其中包含数据透视表的实现。
下面的 GIF 演示了如何为聚合函数“均值”
创建数据透视表:
Python代码
# MITO CODE START (DO NOT EDIT)
from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-a35246c0-e0dc-436b-8667-076d4f08e0c1') # Let Mito know which analysis is being run
# Imported edxCourses.csv
import pandas as pd
edxCourses_csv = pd.read_csv('edxCourses.csv')
# Pivoted edxCourses_csv into df2
pivot_table = edxCourses_csv.pivot_table(index=['courseOrganization'],values=['coursePrice'],aggfunc={'coursePrice': 'mean'}
)
# Reset the column name and the indexes
df2 = pivot_table.rename_axis(None, axis=1).reset_index()
# MITO CODE END (DO NOT EDIT)
合并两个数据集
合并数据集是数据科学项目的重要组成部分。通常,数据集被划分到不同的表格中,以增加信息的可访问性和可读性。合并 Mitosheets 很容易。
单击
“Merge”
并选择数据源。需要指定要对其进行合并的键。
也可以从数据源中选择合并后要保留的列。默认情况下,所有列都将保留在合并的数据集中。
Python代码
# MITO CODE START (DO NOT EDIT)
from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-88ac4a92-062f-4ed8-a55d-729394975740') # Let Mito know which analysis is being run
# Imported Airport-Pets.csv, Zipcode-Data.csv
import pandas as pd
Airport_Pets_csv = pd.read_csv('Airport-Pets.csv')
Zipcode_Data_csv = pd.read_csv('Zipcode-Data.csv')
# Merged Airport_Pets_csv and Zipcode_Data_csv
temp_df = Zipcode_Data_csv.drop_duplicates(subset='Zip')
Airport_Pets_csv_tmp = Airport_Pets_csv.drop(['State', 'Division'], axis=1)
Zipcode_Data_csv_tmp = temp_df.drop(['Mean_Income', 'Pop'], axis=1)
df3 = Airport_Pets_csv_tmp.merge(Zipcode_Data_csv_tmp, left_on=['Zip'], right_on=['Zip'], how='left', suffixes=['_Airport_Pets_csv', '_Zipcode_Data_csv'])
# MITO CODE END (DO NOT EDIT)
修改列数据类型、排序和过滤
你可以更改现有列的数据类型,按升序或降序对列进行排序,或通过边界条件过滤它们。在 Mito 中的这些都很简单,可以通过选择屏幕上的选项通过GUI本身完成。
单击所需的列
将看到一个数据类型列表。可以根据需要从下拉列表中选择任何数据类型,该数据类型将应用于整个列。
接下来可以通过选择提供的选项按升序或降序对数据进行排序。
还可以使用自定义过滤器过滤数据。
Python代码
# MITO CODE START (DO NOT EDIT)
from mitosheet import * # Import necessary functions from Mito
register_analysis('UUID-cc414267-d9aa-4017-8890-ee3b7461c15b') # Let Mito know which analysis is being run
# Imported edxCourses.csv
import pandas as pd
edxCourses_csv = pd.read_csv('edxCourses.csv')
# Changed coursePrice from int64 to float
edxCourses_csv['coursePrice'] = edxCourses_csv['coursePrice'].astype('float')
# Sorted coursePrice in edxCourses_csv in descending order
edxCourses_csv = edxCourses_csv.sort_values(by='coursePrice', ascending=False, na_position='first')
edxCourses_csv = edxCourses_csv.reset_index(drop=True)
# Filtered coursePrice in edxCourses_csv
edxCourses_csv = edxCourses_csv[edxCourses_csv['coursePrice'] >= 500]
edxCourses_csv = edxCourses_csv.reset_index(drop=True)
# MITO CODE END (DO NOT EDIT)
图表和统计数据生成
还可以直接在此扩展中生成图形,而无需编写绘图逻辑。默认情况下,此扩展生成的所有图都是使用 Plotly 制作的。这意味着绘图是交互式的,可以即时修改。
注意,这里并没有像操作列一样,在下一个单元格中生成图形代码(也许开发人员会在以后的更新中推送此代码)
可以使用 Mito 生成两种类型的图:
1. 通过点击图表按钮
你将看到一个侧边栏菜单,用于选择图形类型和要选择的相应轴。
2. 通过点击列名
当你点击电子表格中的列名称时,可以看见过滤器和排序选项。但如果你导航到“Summary Stats”
,则会根据变量的类型显示线图或条形图以及变量的摘要。此摘要更改为文本和没有文本变量。
保存和回放
对数据集所做的所有转换都可以保存并用于其他类似的数据集。这在 Excel 中采用宏或 VBA 的形式。也可以通过这些功能完成相同的操作。

文件是以Python编写的,而不是用比较难懂的VBA。
回溯执行的所有步骤
要想重复上面的步骤的话,也非常容易,Mito自带“重复已保存分析步骤”
功能,一键就能用同样的方法分析其他数据。这个功能是最有趣的。你实际上可以追踪在 Mitosheet 中应用的所有转换。所有操作的列表都带有适当的标题。
此外,你可以查看该特定步骤!这意味着假设你更改了一些列,然后删除了它们。你可以退回到未删除的时间。

写在最后
到这里,就和云朵君一起学习了一个新工具“Mito”
。用于在 Python 环境中实现类似电子表格的功能,并为所做的每一步生成等效操作的 Python 代码。
项目主页:
https://trymito.io/launch
往
期
回
顾
用Python写了个使命召唤外挂
资讯
俄罗斯 Android 系统受限
技术
面向小白超全Python可视化教程
技术
一行Python代码能干嘛?来看!
分享
点收藏
点点赞
点在看
相关文章:

集合list set Map问题
2019独角兽企业重金招聘Python工程师标准>>> ####集合list set Map的个人理解 首先集合说的对一类数据的存储容器,对象都是引用类型并不是基本数据类型 collection 接口 list和set都需实现它 collections 抽象了一些集合的基本功能,reverse s…

python学习第四课
#!/user/bin/env python#-*-coding:utf-8-*-# 一、字符串魔法# (1).isalpha()是否是字母或汉字。# 例:# a"张san22"# b"张三lisi"# va.isalpha()# v1b.isalpha()# print(v)# print(v1)# 因为a里含有数字,结果…

PHP 截取字符串专题
1. 截取GB2312中文字符串<?php< ?php//截取中文字符串functionmysubstr($str, $start, $len){$tmpstr ""; $strlen $start $len; for($i 0; $i< $strlen; $i){if(ord(substr($str, $i, 1))> 0xa0){$tmpstr. substr($str, $i, 2); $i; }else$tm…

GPT-3好“搭档”:这种方法缓解模型退化,让输出更自然
作者 | LZM来源丨数据实战派文本生成对于许多自然语言处理应用来说都是非常重要的。但神经语言模型的基于最大化的解码方法(如 beam search)往往导致退化解,即生成的文本是不自然的,并且常常包含不必要的重复。现有的方法通过采样…

(Question)CSS中position的绝对定位问题
RT,绝对定位相对于定位的元素存在是哪里? https://yunpan.cn/crjSMTiak2srZ 访问密码 1570转载于:https://www.cnblogs.com/LiuChunfu/p/5139958.html

BZOJ 4817: [Sdoi2017]树点涂色(LCT+树剖+线段树)
题目描述 Bob有一棵 nn 个点的有根树,其中1号点是根节点。Bob在每个点上涂了颜色,并且每个点上的颜色不同。 定义一条路径的权值是:这条路径上的点(包括起点和终点)共有多少种不同的颜色。 Bob可能会进行这几种操作&am…

ls -l |wc -l命令多统计一行
#ls -l |wc -l注意:总用量也占用1行,所以统计出来的是14而不是13其他网友提醒 #ls -l |wc -l 就统计实际的行,放大就看出效果1和l不同

驱动数字经济加速,摩尔线程发布全新元计算架构MUSA和GPU产品
2022年3月30日,北京——摩尔线程今天举行主题为“元动力 创无限”的春季发布会。摩尔线程创始人兼CEO张建中解读了“元计算”这一产业趋势,并发布全新架构及系列重磅新品,包括:MUSA(Moore Threads Unified System Arch…

HDU 4869 Turn the pokers(思维+组合公式+高速幂)
Turn the pokers 大意:给出n次操作,给出m个扑克。然后给出n个操作的个数a[i],每一个a[i]代表能够翻的扑克的个数,求最后可能出现的扑克的组合情况。Hint Sample Input: 3 3 3 2 3 For the this example: 0 express fac…

马云打响本地生活消费攻坚战,饿了么获手淘一级入口,美团危险了
8月2日,细心的网友可以发现,手机淘宝App首页已上线“饿了么外卖”,饿了么成为手机淘宝首页的10个默认入口之一。这也就意味着以后手机淘宝用户可以通过淘宝首页新入口进入外卖服务,在应用内直接完成由饿了么提供的订餐外卖服务。 …

Linux文件,文件描述符以及dup()和dup2()
一.Linux中文件 可以分为4种:普通文件、目录文件、链接文件和设备文件。1、普通文件是用户日常使用最多的文件,包括文本文件、shell脚本、二进制的可执行和各种类型的数据。ls -lh 来查看某个文件的属性,可以看到有类似 -rw-r--r-- ÿ…

摩尔线程推出首款数据中心级全栈功能GPU:MTT S2000
2022年3月30日,北京——摩尔线程正式推出首款基于其先进架构MUSA统一系统架构(Moore Threads Unified System Architecture)打造的数据中心级多功能GPU产品MTT S2000。摩尔线程MTT S2000基于其第一代MUSA架构GPU芯片苏堤研发制成,…

jquery 获取 outerHtml 包含当前节点本身的代码
在开发过程中,jQuery.html() 是获取当前节点下的html代码,并不包含当前节点本身的代码,然后我们有时候确需要,找遍jQuery api文档也没有任何方法可以拿到。 看到有的人通过parent().html(),如果当前元素没有兄弟元素还…

修改CentOS yum源
解决在CentOS yum源下载慢的办法最近在虚拟机下面安装了个CentOS 5.5,使用yum更新时发现下载速度异常慢。可以修改yum的配置文件,把其镜像指向国内的服务器即可。 方案一: # cd /etc/yum.repos.d/ # mv CentOS-Base.repo CentOS-Base.repo.b…

带monkey的测流量!
为什么80%的码农都做不了架构师?>>> //public static void flow(){ //String command1 "adb shell monkey -p com.netease.newsreader.activity -s 500 -v 2000"; //String command2 "adb shell ps"; //String str"com.nete…

实现AI技术自立自强,国产深度学习框架面临三大难题
作为推动AI应用大规模落地的关键力量,深度学习框架的重要性日益凸显。它不仅关系国计民生的行业和领域广泛的应用,同样也对信息系统的科技安全有着决定性的意义。 “深度学习框架在人工智能技术体系中,处于贯通上下的腰部位置,它下…

关于Android H5混合开发遇到的问题
2019独角兽企业重金招聘Python工程师标准>>> 添加WebChromeClient,复写onJsAlert、onJsConfirm、onJsPrompt方法后,弹框异常退出问题 项目经理说,Android没有处理弹框,点击按钮没有反应,iOS就可以。于是就复…

手动配置lnmp环境
做php开发的,想要进一步提升自己,手动搭建开发环境,我想是必须经历的一个坎。虽然说有很多第三方集成环境可供使用,但我想说的是在你没有自己搭建过一次环境的时候,你没有太多的资本去“偷懒”。虽然我自己也是个菜鸟&…

负载均衡,会话保持,session同步
一,什么负载均衡一个新网站是不要做负载均衡的,因为访问量不大,流量也不大,所以没有必要搞这些东西。但是随着网站访问量和流量的快速增长,单台服务器受自身硬件条件的限制,很难承受这么大的访问量。在这种…

终于“打造”出了一个可以随时随地编程的工具
作者 | 老表来源丨简说Python分享概要 系统:阿里云ECS共享型n4服务器 1核2g 存储50g(双十一便宜买的,180元/3年)环境:自带python3.6.8 方便演示,直接使用它开始动手动脑 首先我们需要连接上服务器ÿ…

JVM堆 栈 方法区详解
一、栈 每当启用一个线程时,JVM就为他分配一个JAVA栈,栈是以帧为单位保存当前线程的运行状态 栈是由栈帧组成,每当线程调用一个java方法时,JVM就会在该线程对应的栈中压入一个帧 只有在调用一个方法时,才为当前栈分配一…

ECSHOP学习笔记
帮助 http://help.ecshop.com/index.phpECSHOP各文件夹功能说明 1、根目录:前台程序文件2、admin:后台程序文件夹 --根目录:后台程序文件 *.php文件 --help\zh_cn:各功能的帮助文件 *.xml文件 --images:后台页面…

Redis主从复制配置
环境描述Redis Master:192.168.1.100 6379(Ubuntu系统)Redis Slave1:192.168.1.101 6380(Ubuntu系统)Redis Slave2:192.168.1.102 6381(Ubuntu系统) 安装redis分别在192.168.1.100、192.168.1.101、192.168.1.102三台机器上安装redis…

利用 Python 打造一个语音合成系统
作者 | thedaydreamer来源丨CSDN博客背景一直对语音合成系统比较感兴趣,总想能给自己合成一点内容,比如说合成小说,把我下载的电子书播报给我听等等。语音合成系统其实就是一个基于语音合成的工具,但是这个东西由于很多厂家都提供…

干货:排名前 16 的 Java 工具类!
2019独角兽企业重金招聘Python工程师标准>>> 干货:排名前 16 的 Java 工具类! 在Java中,工具类定义了一组公共方法,这篇文章将介绍Java中使用最频繁及最通用的Java工具类。以下工具类、方法按使用流行度排名…

使用ecshop电子商务系统的100个小问题
总结100条关于操作ecshop电子商务系统的小问题。1:如何修改网站"欢迎光临本店"回答:languages\zh_cn\common.php文件中, $_LANG[welcome] 欢迎光临本店;将他修改成你需要的字样。2:如何修改首页"热门搜索关键字"回答:后台->系统设置->网…

MyCAT常用分片规则之分片枚举
MyCAT支持多种分片规则,下面测试的这种是分片枚举。适用场景,列值的个数是固定的,譬如省份,月份等。 在这里,需定义三个值,规则均是在rule.xml中定义。 1. tableRule 2. function 3. mapFile 首先ÿ…

手把手带你打造一款 签名设计 的GUI图形界面!
作者 | 黄伟呢来源丨数据分析与统计学之美1.概述 整体布局呢我们已经搭建起来,唯一没有实现的一个步骤就是,用户每输入一个名字,就会将个性签名一并显示在这个窗口界面中,今天我就带着大家一起完成这个需求。今天的文章可以看成是…

跨域资源共享 CORS
简介 CORS是一个W3C标准,全称是"跨域资源共享"(Cross-origin resource sharing)。它允许浏览器向跨源服务器,发出XMLHttpRequest请求,从而克服了AJAX只能同源使用的限制。 CORS需要浏览器和服务器同时支持。…

SMARTY核心
http://www.smarty.net/http://smarty.php.net/manual/en/1.配置define("ROOTPATH",dirname(__FILE__)."/../");require_once("smarty/Smarty.class.php");/*** Smarty Template Class Initializtion*/if( constant( "ENABLED_TPL" ) …