用Matplotlib轻松复刻分析图,看看哪个城市买房最自由
作者 | 费弗里
来源 | Python大数据分析
简介
前不久「贝壳研究院」基于其丰富的房地产相关数据资源,发布了「2020 新一线城市居住报告」:
图1
而在这个报告中有几张数据可视化作品还是比较可圈可点的,作为(在模仿中精进数据可视化)系列文章的开篇之作,我将基于我观察原始数据可视化作品进而构思出的方式,以纯Python的方式模仿复刻图2所示作品:
图2
复刻过程
2.1 观察原作品
其实原作品咋一看上去有点复杂,但经过观察,将原始图片主要元素拆分成几个部分来构思复现方式,还是不算复杂的,我总结为以下几部分:
「1 坐标系部分」
稍微懂点数据可视化的人应该都可以看出原作品的坐标不是常规的笛卡尔坐标系,而是极坐标系,这里复现原作品极坐标系的难点在于,其并不是完整的极坐标系,即左边略小于半圆的区域是隐藏了参考线的。
因此与其在matplotlib中极坐标系的基础上想方法隐藏部分参考线,不如逆向思维,从构造参考线的角度出发,自己组织构造参考线,会更加的自由和灵活。
「2 颜色填充」
这里的「颜色填充」指的是以居住自由指数折线为中线,在购房自由指数折线与租房自由指数折线之间的颜色填充区域,但困难的是这里当购房自由指数高于租房自由指数时对应的颜色为浅蓝绿色,而反过来则变为灰色,与购房自由指数、租房自由指数的颜色相呼应。
图3
2.2 开始动手!
综合考虑前面这些难点,我决定借助matplotlib+geopandas+shapely操纵几何对象和绘制调整图像的方便快捷性,来完成这次的挑战。
2.2.1 构建坐标系统
因为极坐标系中的参考线非常类似俯视南北极点所看到的经纬线,因此我们可以利用地图学中坐标参考系里的「正射投影」(Orthographic),可以理解为纯粹的半球:
我们只需要设定中心点参数在南极点或北极点,再配合简单的经纬度相关知识就可以伪造出任意的经纬线,再利用geopandas中的投影变换向设定好的「正射投影」进行转换,再作为平面坐标进行绘图即可。
譬如按照这个思路来创建东经10度到东经220度之间,以及南纬-90度到-80度之间,对应的5条纬度线和对应38个城市的经线:
import geopandas as gpd
from shapely.geometry import LineString, Point, Polygon
import matplotlib.pyplot as plt
import numpy as np
import warningsplt.rcParams['font.sans-serif'] = ['SimHei'] # 解决matplotlib中文乱码问题
plt.rcParams['axes.unicode_minus'] = False # 解决matplotlib负号显示问题
warnings.filterwarnings('ignore')# 设置中心点在南极点的正射投影
crs = '+proj=ortho +lon_0=0 +lat_0=-90'# 构建经度线并设置对应经纬度的地理坐标系
lng_lines = gpd.GeoDataFrame({'geometry': [LineString([[lng, -90], [lng, -78]]) for lng in np.arange(10, 220, 210 / 38)]}, crs='EPSG:4326')# 构建纬度线并设置为对应经纬度的地理坐标系
lat_lines = gpd.GeoDataFrame({'geometry': [LineString([[lng, lat] for lng in range(10, 220)]) for lat in range(-90, -79, 2)]}, crs='EPSG:4326')
构造好数据之后,将经线与纬线对应的GeoDataFrame转换到设置好的「正射投影」crs上,再作为不同图层进行叠加绘制:
图5
嘿嘿,是不是底层的参考线已经有内味了~
2.2.2 绘制指标折线
坐标系以及参考线的逻辑定了下来之后,接下来我们需要将原作品中所展现的3种指标数据转换为3条样式不同的折线。
首先我们来准备数据,因为原报告中只能找到居住自由指数的具体数值,其他两个指标未提供,因此我们可以结合这3个数值的相互关系,推断出每个城市的购房自由指数与租房自由指数1个比自身的居住自由指数高,1个比居住自由指数低的规律来「伪造」数据:
图6
按照前面推断出的规则来伪造示例数据,并对伪造过程中的不合理数据进行修正:
def fake_index(value):fake = []fake.append(value+np.random.uniform(5, 10))fake.append(value-np.random.uniform(5, 10))return np.random.choice(fake, size=2, replace=False).tolist()data['购房自由指数'], data['租房自由指数'] = list(zip(*data['居住自由指数'].apply(fake_index)))# 修正伪造数据中大于100和小于0的情况
data.loc[:, '居住自由指数':] = data.loc[:, '居住自由指数':].applymap(lambda v: 100 if v > 100 else v)
data.loc[:, '居住自由指数':] = data.loc[:, '居住自由指数':].applymap(lambda v: 0 if v < 0 else v)
data.head()
图7
至此我们的数据已经伪造完成,接下来我们需要做的事情是对我们的指标值进行变换,使其能够适应前面所确立的坐标系统。
虽然严格意义上说俯视南极点所看到的每一段等间距的纬度带随着其越发靠近赤道,在平面上会看起来越来越窄,但因为我们选取的是南纬-90度到南纬-80度之间的区域,非常靠近极点,因此可以近似视为每变化相同纬度宽度是相等的。
利用下面的函数实现0-100向-90到-80的线性映射:
图8
接下来我们就来为每个指标构造线与散点部分的矢量数据,并在统一转换坐标参考系到「正射投影」之后叠加到之前的图像上:
# 为每个城市生成1条经线
lng_lines = gpd.GeoDataFrame({'geometry': [LineString([[lng, -90], [lng, -78]]) for lng in np.arange(10, 220, 210 / data.shape[0])]}, crs='EPSG:4326')# 居住自由指数对应的折线
line1 = gpd.GeoDataFrame({'geometry': [LineString([(lng, lat) for lng, lat in zip(np.arange(10, 220, 210 / data.shape[0]),data['居住自由指数_映射值'])])]}, crs='EPSG:4326')# 居住自由指数对应的折线上的散点
scatter1 = gpd.GeoDataFrame({'geometry': [Point(lng, lat) for lng, lat in zip(np.arange(10, 220, 210 / data.shape[0]),data['居住自由指数_映射值'])]}, crs='EPSG:4326')# 购房自由指数对应的折线
line2 = gpd.GeoDataFrame({'geometry': [LineString([(lng, lat) for lng, lat in zip(np.arange(10, 220, 210 / data.shape[0]),data['购房自由指数_映射值'])])]}, crs='EPSG:4326')# 购房自由指数对应的折线上的散点
scatter2 = gpd.GeoDataFrame({'geometry': [Point(lng, lat) for lng, lat in zip(np.arange(10, 220, 210 / data.shape[0]),data['购房自由指数_映射值'])]}, crs='EPSG:4326')# 租房自由指数对应的折线
line3 = gpd.GeoDataFrame({'geometry': [LineString([(lng, lat) for lng, lat in zip(np.arange(10, 220, 210 / data.shape[0]),data['租房自由指数_映射值'])])]}, crs='EPSG:4326')# 租房自由指数对应的折线上的散点
scatter3 = gpd.GeoDataFrame({'geometry': [Point(lng, lat) for lng, lat in zip(np.arange(10, 220, 210 / data.shape[0]),data['租房自由指数_映射值'])]}, crs='EPSG:4326')fig, ax = plt.subplots(figsize=(8, 8))# 绘制经度线与纬度线
ax = lng_lines.to_crs(crs).plot(ax=ax, linewidth=0.4, edgecolor='lightgrey')
ax = lat_lines.to_crs(crs).plot(ax=ax, linewidth=0.75, edgecolor='grey', alpha=0.8)
ax = line1.to_crs(crs).plot(ax=ax, color='black', linewidth=1)
ax = scatter1.to_crs(crs).plot(ax=ax, color='black', markersize=12)
ax = line2.to_crs(crs).plot(ax=ax, color='#00CED1', linewidth=0.6)
ax = scatter2.to_crs(crs).plot(ax=ax, color='#00CED1', markersize=4)
ax = line3.to_crs(crs).plot(ax=ax, color='lightgrey', linewidth=0.6)
ax = scatter3.to_crs(crs).plot(ax=ax, color='lightgrey', markersize=4)
ax.axis('off'); # 关闭坐标轴fig.savefig('图11.png', dpi=500, inches_bbox='tight', inches_pad=0)
图9
哈哈,是不是更加有内味了~,至此,我们的绘制指标折线部分已完成。
2.2.3 绘制填充区域
在相继解决完「坐标系统」、「指标折线绘制」之后,就到了最好玩的部分了,接下来我们来绘制图中购房自由指数与租房自由指数之间的折线,并且要按照「填充较大值对应色彩」的原则来处理,接下来我们需要用到一点简单的拓扑学知识,首先我们分别构造购房自由指数_映射值和租房自由指数_映射值引入南极点后所围成的多边形:
图10
图11
接下来我们先暂停下来思考思考,购房自由指数_映射值与租房自由指数_映射值之间彼此高低起伏交错而形成的填充区域对应着上面两个多边形之间的什么关系?没错!就是就是两者去除掉彼此重叠区域后各自剩余的部分!
图12
那么接下来我们要做的事就so easy了,只需要分别得到两者去除重叠面后,剩余的部分,以对应的填充色彩叠加绘制在图11的图像上就可以啦~,利用geopandas中的difference即可轻松实现:
fig, ax = plt.subplots(figsize=(8, 8))# 绘制经度线与纬度线
ax = lng_lines.to_crs(crs).plot(ax=ax, linewidth=0.4, edgecolor='lightgrey')
ax = lat_lines.to_crs(crs).plot(ax=ax, linewidth=0.75, edgecolor='grey', alpha=0.8)
ax = line1.to_crs(crs).plot(ax=ax, color='black', linewidth=1)
ax = scatter1.to_crs(crs).plot(ax=ax, color='black', markersize=12)
ax = line2.to_crs(crs).plot(ax=ax, color='#00CED1', linewidth=0.6)
ax = scatter2.to_crs(crs).plot(ax=ax, color='#00CED1', markersize=4)
ax = line3.to_crs(crs).plot(ax=ax, color='lightgrey', linewidth=0.6)
ax = scatter3.to_crs(crs).plot(ax=ax, color='lightgrey', markersize=4)
ax = polygon1.difference(polygon2).plot(ax=ax, color='#00CED1', alpha=0.2)
polygon2.difference(polygon1).plot(ax=ax, color='lightgrey', alpha=0.6)
ax.axis('off'); # 关闭坐标轴fig.savefig('图13.png', dpi=500, inches_bbox='tight', inches_pad=0)
图13
2.2.4 补充文字、标注等元素
其实到这里,我们就已经完成了对原作品复刻的精髓部分了,剩下的无非是添加些文字、刻度之类的,其实这部分很多都可以在出图之后利用其他软件PS完成,比写代码轻松,所以这部分只对添加「城市+指标」的文字标签以及刻度值进行补充:
图14
再模仿原作品裁切一下图片,主要元素是不是非常一致了~,大家也可以根据自己的喜好来修改不同的颜色:
图15
本文完整代码已上传至Feffery的Github仓库:https://github.com/CNFeffery/FefferyViz
更多精彩推荐
这个开源的“抢茅台脚本”,火了
舌尖上的AI:人工智能技术正在被“端上”餐桌
腾讯AI足球队夺冠Kaggle竞赛,绝悟强化学习方案迁移至足球队
一男子蒙冤入狱10天,竟是 AI 认错了!
我酸了!又是别人家公司!百度新年发 U 奖金鼓励员工
相关文章:

Python 代码规范
前言 Python 学习之旅,先来看看 Python 的代码规范,让自己先有个意识,而且在往后的学习中慢慢养成习惯 目录 Python代码规范一、简明概述 1、编码 如无特殊情况, 文件一律使用 UTF-8 编码如无特殊情况, 文件头部必须加入#-*-coding:utf-8-*-标…

二级域名用asp.net 2.0的实现方案
本人所了解有两种方案,可能还有其的方式,希望大家多多讨论! 基本思路:1. 域名支持泛解析,即是指:把A记录 *.域名.com 解析到服务器IP,服务器IIS中做绑定,绑定时主机头为空;2. 为了…
又一例“监视员工?”百度回应:和 996 无关,目前没有任何应用
整理 | 王晓曼图源 | 视觉中国出品 | 程序人生 (ID:coder _life)1月13日晚间,针对百度公开“员工工作状态预测”专利惹争议一事,百度在官方微博火速回应称,这是一个管理上的“人岗匹配”衡量方法࿰…

僵死进程和僵尸进程
一个进程在调用exit命令结束自己的生命的时候,其实它并没有真正的被销毁,而是留下一个称为僵尸进程(Zombie)的数据结构(系统调用exit,它的作用是使进程退出,但也仅仅限于将一个正常的进程变成一…

AC日记——[HNOI2010]BOUNCE 弹飞绵羊 洛谷 P3203
[HNOI2010]BOUNCE 弹飞绵羊 思路: SBlct; 代码: #include <bits/stdc.h> using namespace std; #define maxn 200005 int n,m,f[maxn],ch[maxn][2],rev[maxn],ki[maxn],sta[maxn],top,lit,size[maxn]; inline void in(int &now) {c…

C#与RSS亲密接触
讲述动态生成RSS文件的方法。动态生成RSS文件也基本有两种方法,一种是用字符串累加的方法,另一种是使用xml文档生成的方法。字符串累加的方法也比较简单,我也就不多说了,这里着重说一下生成XmlDocument的方法,包括各种…
2020 ACM Fellows 名单出炉,13 名华人入选,7 名来自国内!
【编者按】一年一度的 ACM Fellow 名单现已新鲜出炉!向来以严格审查闻名的ACM Fellows,今年居然共选择了 95 名科学家,其中还有 13 位华人,来看看都是哪些大佬吧!整理 | 郑丽媛出品 | CSDN(ID:C…

Mybatis调用Oracle的存储过程
如何使用Mybaits调用数据库中的存储过程,下面以Oracle数据库的为例:1.在数据库中创建以下的存储过程:2.编写SQL映射文件WxclDAO.xml:<select id"selectWxcl2" parameterType"java.util.M…

JavaScript - 数据类型和变量
计算机顾名思义就是可以做数学计算的机器,因此,计算机程序理所当然地可以处理各种数值。但是,计算机能处理的远不止数值,还可以处理文本、图形、音频、视频、网页等各种各样的数据,不同的数据,需要定义不同…

用Socket发邮件的代码(可以群发)
qunFa.aspx文件的代码: <%... Page language"c#" Codebehind"qunFa.aspx.cs" AutoEventWireup"false" Inherits"liuwei.hanmail.qunFa" %><!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN&qu…

rcp(插件开发)插件B需要引用插件A中的jar包-如何处理依赖关系
如果插件B需要引用插件A中的jar 通常需要以下几步: 1.插件B要依赖插件A 2.在插件B的build path中添加插件A的jar包 3.插件A的runtime导出插件B中使用jar的package

微软Cortana全面升级神经网络语音,效果堪比真人发音
近日,微软在全球范围内对Cortana进行了神经网络语音全面升级,升级后的Cortana更加自然流畅,语音效果堪比真人发音。 以下是Cortana不同国家、不同语言升级前后语音效果对比: Cortana音频 此次升级利用了深度神经网络技术&#…

Spring《五》集合的注入方式
List、Set、Map、Properties 1、List <property name"msg"> <list> <value>gf</value> <value>gd</value> <value>HelloWorld</value> </list> </property> 2、Set <property name"msg"&g…

虚方法的调用是怎么实现的(单继承VS多继承)
我们知道通过一个指向之类的父类指针可以调用子类的虚方法,因为子类的方法会覆盖父类同样的方法,通过这个指针可以找到对象实例的地址,通过实例的地址可以找到指向对应方法表的指针,而通过这个方法的名字就可以确定这个方法在方法…

asp.net 2.0防止同一用户同时登陆
要防止同一用户同时登陆,首页应该记录在线用户的信息(这里与用户名为例),然后判断正在登陆的用户里面是否已存在.在这里使用一个cache存放已经登陆的用户名.但是还有一个问题就是要知道用户是什么时候离开系统的呢?这就要定期清除cache中的内…
Python+Dash快速web应用开发——基础概念篇
作者:费弗里来源:Python大数据分析❝本文示例代码与数据已上传至https://github.com/CNFeffery/DataScienceStudyNotes❞1 简介这是我的新系列教程「PythonDash快速web应用开发」的第一期,我们都清楚学习一个新工具需要一定的动力,…

POJ 1273 Drainage Ditches
网络流。题意非常easy。给出单向边,容量。找最大流。注意重边要加起来。g[u][v].cc; 第一次写网络流。也是第一个网络流的题。看了两天,理解了之后就唰唰唰的写出来了。 大概可能是EK吧。ORZ都不知道用的啥算法。仅仅是感觉要这样写。由于重边还WA了。改…

利用GridView显示主细表并一次编辑明细表所有数据的例子
全部代码如下: ASPX: <% Page Language"C#"ValidateRequest"false"AutoEventWireup"true"EnableViewState"false"CodeFile"Default2.aspx.cs"Inherits"Default2"%><!DOCTYPE ht…
TensorFlow搭建垃圾分类系统大师(免费领源码)
人工智能是一个多学科交叉融合的领域,其包含机器学习、计算机视觉、自然语言处理等多个子领域,其中计算机视觉是应用最广泛的领域之一。大多数人熟悉的手机和相机中的人脸识别功能,就是人工智能子领域——计算机视觉的体现。计算机视觉中的图…

for的循环遍体
以下讲解for的变体形式,对于一般的for语句常规这里不再赘述关于for变体 主要是用来实现一些特殊需求://注意不要使for成为死循环 for(int i0;i!5;1){//DOLOOP }1)假如,我们需要对循环变量i在循环外部使用,并调用循环变…

切版网上线,启用qieban.cn
2019独角兽企业重金招聘Python工程师标准>>> 近期,切版网收购并启用了qieban.cn域名,输入域名可以看到非常抢眼的黄底黑色的网站。复制国外psd2html模式,主要提供html5/css3前端外包。 可见切版网对域名的保护是非常的重视。据查询…

Microsoft .NET Pet Shop 4 架构与技术分析
1.项目概述与架构分析微软刚推出了基于ASP.NET 2.0下的Pet Shop 4, 该版本有了一个全新的用户界面。是研究ASP.NET 2.0的好范例啊,大家都知道,一直以来,在.NET和Java之间争论不休,到底使用哪个平台开发的企业级应用性能…
一学就会的 Python 时间转化总结(超全)
作者 | Peter来源 | Python编程时光在生活和工作中,我们每个人每天都在和时间打交道:早上什么时候起床?地铁几分钟来一趟?中午什么时候开始午休?明天是星期几?距离上次买衣服已经2个月呢?领导让…

ny20 吝啬的国度
吝啬的国度 时间限制:1000 ms | 内存限制:65535 KB难度:3描述在一个吝啬的国度里有N个城市,这N个城市间只有N-1条路把这个N个城市连接起来。现在,Tom在第S号城市,他有张该国地图,他想知道如果…

Linux常见命令(二)
随着Linux应用的扩展许多同学开始接触Linux,根据学习Windwos的经验往往有一些茫然的感觉:不知从何处开始学起。虽然Linux桌面应用发展很快,但是命令在Linux中依然有很强的生命力。Linux是一个命令行组成的操作系统,精髓在命令行,无…
谷歌编程语言年度榜NO.1:知识体系总结(2021版)
本文专注整理一些有关Python学习的知识体系。整理的Python知识体系主要包括基础知识,Python热门的应用方向,推荐书籍,FAQ以及一些常见面试题目,包含了作为一个Python全栈工程师以及数据分析工程师在开发工作和学习中需要用到或者可…

看看大网站到底是如何保障网络安全的
首先,服务器上用的是私有的操作系统和数据库,所谓私有,并不是完全自己写,而是说,全部都是进行私有化改造过的,一般使用开源的操作系统和数据库进行改造,比如说操作系统使用free bsd的改…

php 魔术方法 说明
1、__get、__set这两个方法是为在类和他们的父类中没有声明的属性而设计的。◆__get( $property ) 当调用一个未定义的属性时,此方法会被触发,传递的参数是被访问的属性名。◆__set( $property, $value ) 给一个未定义的属性赋值时,此方法会被…

小功能 - 收藏集 - 掘金
中国可以访问 Google Codelabs 网站啦! - 掘金今天,Google 官方又宣布了一条信息「全球皆可访问的 Google Codelabs 网站」,说是全球,其实我们大家心里都明白,这是针对中国开发者而专门发布的一个网站,最近…

ASP.NET设置数据格式与String.Format使用总结
{0:d} YY-MM-DD{0:p} 百分比00.00%{0:N2} 12.68{0:N0} 13{0:c2} $12.68{0:d} 3/23/2003{0:T} 12:00:00 AM{0:男;;女} DataGrid-数据格式设置表达式 数据格式设置表达式 .NET Framework 格式设置表达式,它在数据显示在列中之前先应用于数据。此表达式由可选静态文本…