硬核吃瓜!上万条数据撕开微博热搜真相
作者 | 徐麟
来源 | 转载自数据森麟(ID:shujusenlin)
吃瓜前言
关于新浪微博,向来都是各路吃瓜群众聚集之地,大家在微博中可以尽情吃瓜,各种类型的瓜应有尽有,只有你想不到的,没有你吃不到的。微博热搜榜更是各路明星的“必争之地”,能够上热搜也是代表了其知名度,“包月热搜套餐”,“买热搜”是否存在迄今也是一个未解之谜
除了吃瓜群众,新浪微博也聚集着一群被整个互联网圈所同情的一群苦逼程序员,每当有明星放出新闻,特别是结婚、离婚、分手、恋爱这类婚恋题材,新浪微博程序员都会严阵以待,此时的服务器会因为吃瓜群众的大量涌入而变得脆弱起来,随时有崩溃的风险,下图就是一张此前广为流传的程序员在自己婚礼处理服务器崩溃的经典图片:
我们此次通过爬取2019年2W+条热搜数据,包括内容以及搜索指数,为大家揭开微博热搜2019的诸多秘密,一起利用数据“硬核吃瓜”,包括:2019微博热搜最大的瓜,微博程序员集体加班的日子,微博热搜的常客,热搜里的2019互联网……
瓜源获取
我们此次并没有直接去爬取微博的原始数据,而是从一个专门记录微博热搜历史数据的网站获取,网站界面如下:
通过网站的数据接口,我们获取到了今天1月1日至今的2W多条数据,爬取代码如下:
resou = pd.DataFrame(columns=['date','title','searchCount','rank'])
resou_date = getBetweenDay('2019/01/01','2019/07/12')
for i in resou_date: print(i) url= 'https://www.enlightent.cn/research/top/getWeiboHotSearchDayAggs.do?date={}'.format(str(i)) html = requests.get(url=url, cookies=cookie, headers=header).content data = json.loads(html.decode('utf-8')) for j in range(100): resou = resou.append({'date':i,'title':data[j]['keyword'], 'searchCount':data[j]['searchCount'],'rank':j+1},ignore_index=True)
最终获取到的吃瓜数据如下:
硬核吃瓜
有了前面的瓜源获取过程,我们获取到了2W+吃瓜数据,下面就可以开始利用这些数据愉快地开始我们的吃瓜之旅
▌第一瓜:2019微博热搜最火事件
说到吃瓜,大家首先关注的一定是那些最大的瓜,要吃就吃最大的瓜也是广大吃瓜群众所遵从的基本原则,我们通过对比热搜数据的搜索指数,选取出了15个最大的瓜,数据如下:
看来最大的瓜都是婚恋题材,排名前四的瓜涵盖了结婚、离婚、分手这些广大吃瓜群众所最为关心的内容,并且有了明星加成,结出这些巨型瓜也就不足为奇,大家可以看到排名第14的热搜“今天到底是什么日子”可能会好奇,为何这种标题也会有那么高的搜索量,想要知道这个问题的答案,就请继续去品尝下面的瓜
▌第二瓜:2019最让微博程序员抓狂的日子
刚才的瓜中,我们留下了一个悬念,为何“今天到底是什么日子”这种看似没有任何营养的内容,都会有那么高的搜索指数。为了回答这个问题,我们统计了2019年每天的TOP100热搜话题平均指数,并绘制了日历热度图:
可以看到6月27日的指数远高于其他天数,而且基本上是其他时间的两到三倍,这一天就是“今天到底是什么日子”这个话题的诞生之日,并且这一天微博服务器毫无疑问地“应声倒地”,我想这一定是让微博程序员怀疑人生的日子
下面我们就来具体看看,这一天到底发生了些什么:
看到这份榜单,我们仿佛看到了程序员们6月27日的绝望。宋慧乔&宋仲基离婚这个巨型瓜的出现,程序员们还可以用自己的信念支撑着服务器不要崩溃,然而正当程序员们以为稳操胜券的时候,范冰冰&李晨分手这个更加巨大的瓜出现了,我想程序员们内心一定是这样的:
因为有了这两个巨型瓜的存在,使得“张若昀&唐艺昕”,“马思纯当司仪”,“杜江否认出轨”这种平时能够轻松hold住的瓜也产生了威力加成,进一步压垮程序员,就连平时低调的B站也请来了五月天,真可谓是“瓜团锦簇”的一天。我想“今天到底是什么日子”这条热搜的创造者很有可能就是新浪微博的程序员
▌第三瓜:2019最勤劳的瓜生产商
前面提到了6月27日是微博程序员最为抓狂的日子,那么又有那些生产商为广大吃瓜群众源源不断地创造吃瓜素材呢,我们也统计了相关数据,想必这些生产商也是广大程序员们最怕的人:
榜单中易烊千玺以80次的出现次数荣登榜首,也就是说平均每两天他就会为广大群众生产一次“吃瓜素材”,也是非常地勤劳,想到作者一个月一篇原创的节奏,默默留下了悔恨的泪水。周董也在榜单中以78次的数据位居次席,毕竟周董是一代人的青春记忆,大家也都在时刻关注着周董。
或许大家会认为榜单都被娱乐圈所霸占,没啥新意之时,东哥站了出来,成为荣登本榜单的唯一互联网人士,不过个人还是希望今后不要在榜单中再看到东哥的身影,毕竟老话说得好“no news is good news”。
▌第四瓜:那些专属热搜的词语
如同“****,是怎样的体验”这样的知乎体,“震惊!***”这样的uc体,热搜也有一些比较常出现,能代表热搜独特气质的词语,我们从中选取了一些比较有代表的词语并统计其出现次数。
华为在榜单中出现了86次,也印证了大家在上半年对于华为的关注度,未来也希望有更多类似于“华为**系统上线”这样振奋人心的消息出现在热搜中。
同时在小编看来否认,道歉,心疼这三个词是非常有特色的热搜词语,毕竟很难在其他的地方会时不时就看“心疼**”这种标题,我们针对于这三个词语制作了相应的词云:
否认版
208次否认相关话题出现在了热搜榜单,足以说明在这个信息爆炸的时代有太多的事情难以去分辨真假,其中一些内容确实是虚造的,当事人也及时站出来进行否认。不过对于其他的一些事情,想必是“真亦假来假亦真”,需要大家自己去判断
道歉版
强烈建议广大读者收藏上图,特别是在被老板骂或者因为生产BUG而被同事怼的时候拿出来看一下,调节一下自己的心情。想到连菲利普亲王都要道歉,及时认个怂好像也没啥,毕竟你的工资卡里也没剩几个钱
心疼版
最后这个可以说是极具微博特色了,广大吃瓜群众可谓忧国忧民,心疼的对象从韩庚到吴谨言,张雨绮,就连梅西都心疼名单中,这体现出了吃瓜群众乐于助人的正确价值观。
不过小编表示还是要先心疼一下自己,上面那些被心疼的人收入都是小编的上百倍甚至更多,还是先心疼一下自己的花呗比较现实
除此之外,微博热搜也十分热衷于关心明星是不是哭了以及是不是胖了这种话题,可谓“先天下之忧而忧,后天下之乐而乐”,满满的责任感:
▌第五瓜:明星婚恋话题到底有多火
此前提到,排名靠前的内容大多都是明星婚恋题材的内容,比如**和**离婚,**和**结婚又离婚,或者**和**结婚又离婚又复婚……,我们就来看一下这些话题出现的次数。
不出所料,广大吃瓜群众对于这类题材都有着非常高的好奇心,为别人的婚恋情况操碎了心,可以说是很努力了,想必未来的**婚恋上市公司的老总一定会在吃瓜群众中诞生,我们也来具体看看那些相关的话题。
结婚 VS 离婚
恋情VS分手
最后我们以一句话来结束这部分的吃瓜内容:“贵圈真乱”。
▌第六瓜:2019热搜中的互联网专属瓜
前面说的那些大多都是娱乐圈的内容,作为互联网从业(banzhuan)人员,对于互联网的专属瓜品也有着强烈兴趣,我们从中选取了互联网圈为2019热搜所生产的瓜品:
出人意料的是TOP2居然都和B站有关,经过查证,这两条都发生在最让微博程序员抓狂,瓜团锦簇的6月27日(比较奇怪的是B站十周年应该是6月26日,但上榜时间确是27日),平时八成熟的瓜立刻熟透。相信互联网人看到这份榜单,也会回忆起很多上半年发生的事情,2019上半年的互联网也是热闹非凡。
吃瓜结语
今天的吃瓜之旅就到这里结束了,看来吃瓜也是门学问,微博热搜数据也是一个大的分析宝库,里面还有很多可以继续分析的点,等待大家去挖掘
公众号后台回复“热搜”可以获取本文相关代码。
◆
精彩推荐
◆
“只讲技术,拒绝空谈!”2019 AI开发者大会将于9月6日-7日在北京举行,这一届AI开发者大会有哪些亮点?一线公司的大牛们都在关注什么?AI行业的风向是什么?2019 AI开发者大会,倾听大牛分享,聚焦技术实践,和万千开发者共成长。
目前,大会早鸟票限量发售中~扫码购票,领先一步!
推荐阅读
AI“配”5G,能“生”出怎样的未来?
什么限制了GNN的能力?首篇探究GNN普适性与局限性的论文出炉!
2019年最新华为、BAT、美团、头条、滴滴面试题目及答案汇总
10分钟学会用Pandas做多层级索引
中国第一程序员,微软得不到他就要毁了他!
透析《长安十二时辰》里的望楼,人类在唐朝就有 5G 愿望了?
首批 8 款 5G 手机获 3C 认证;iPhone6 系列停产;Android Q Beta 5 发布 | 极客头条
"别太乐观, 冲破黑暗还很远呀! "

相关文章:

python类的__slots__属性、__del__属性、上下文(__enter__和__exit__)、
常规情况下,类的属性字典是共享的,而实例的字典是独立的。如果一个类的属性较少,但是拥有很多的实例,这些实例的属性字典会占用较多的内存空间。对这样的类来说,为了节省内存空间,可以使用__slots__类变量代…

普通帧,关键帧,空白关键帧的区别
1. 特点 帧——是进行flash动画制作的最基本的单位,每一个精彩的flash动画都是由很多个精心雕琢的帧构成的,在时间轴上的每一帧都可以包含需要显示的所有内容,包括图形、声音、各种素材和其他多种对象。 关键帧——顾名思义,有关键…

Spark入门系列(二)| 1小时学会RDD编程
作者 | 梁云1991转载自Python与算法之美(ID:Python_Ai_Road)导读:本文为 Spark入门系列的第二篇文章,主要介绍 RDD 编程,实操性较强,感兴趣的同学可以动手实现一下。RDD 是弹性分布式数据集(Resilient Dist…

Office2010启动慢的解决方法
以word2010为例: 解决启动慢的问题: 转自:http://www.blue1000.com/bkhtml/2011-12/70698.htm 首先启动Word2010,-->单击进入“文件”选项卡-->选择左边的“选项”按钮-->弹出“word选项”对话框窗口,-->…

如何在 Vue 项目中使用 echarts
数据的重要性我们大家都知道,就算再小的项目中都可能使用几个图表展示,我最近在做项目的过程中也是需要用到图表,最后选择了echarts 图表库,为什么选择 echarts,第一:简单上手容易,第二…

OpenCV实现在图像中写入汉字
由于OpenCV自带的cvInitFont和cvPutText函数不支持向图像中写入中文,参考http://www.opencv.org.cn/forum/viewtopic.php?t2083 中的方法,在windows7 64位机上用vs2008OpenCV2.3.1实现具体步骤如下: 1、新建一个控制台工程Test,先…

Operations Manager 2012 SP1配置部署系列之(二) SCOM监控SCVMM
你可以使用Operations Mangager连接到VMM上去监控VMM管理的虚拟机和虚拟机的主机的健康和可用性.你还可以监视VMM管理服务器的健康和可用性,VMM数据库服务器、存储库服务器,和矢量调制法的自服务门户web服务器.当你把VMM与Operations Mangager集成、VMM的…
ROS中base_link, odom, fixed_frame, target_frame和虚拟大地图map的关系
前面已经介绍了如何使用URDF建造机器人小车并显示在Rviz的仿真环境里面,但是小车是静止的。下面介绍如何让它在Rviz里面动起来,并理清URDF,TF 和 odom 的关系。 1. ROS中base_link, odom, fixed_frame, target_frame和虚拟大地图map的关系 一般在urdf文件…

谷歌新研究:基于数据共享的神经网络快速训练方法
作者 | Google Brain译者 | 凯隐责编 | 夕颜出品 | AI科技大本营(ID:rgznai100)导读:神经网络技术的普及离不开硬件技术的发展,GPU 和 TPU 等硬件型训练加速器带来的高算力极大的缩短了训练模型需要的时间,使得研究者们…

制作一个简单的linux
我这里是借助宿主机做的一个简单的Linux,我们只要知道一个Linux启动过程需要什么,这里制作就简单的多了。不过没有基础的也没关系,我写的很详细,没有基础的看了我写的步骤只要细心也是会做出来的,我这里的小Linux是很简…

nginx是什么,如何使用
一:nginx是什么? 二:nginx作为网关,需要具备什么?(nginx可以作为web服务器,但更多的时候,我们把它作为网关,因为它具备网关必备的功能:) 反向代理…

OpenCV中Mat数据结构使用举例
#include "stdafx.h"#include <string>#include <iostream>#include <opencv2/opencv.hpp>using namespace std;using namespace cv;int _tmain(int argc, _TCHAR* argv[]){//创建一个用13j填充的 7 x 7 复矩阵-----1Mat M(7, 7, CV_32FC2, Scalar…

贾扬清加盟AI开发者大会!早鸟票抢购正式开启
整理 | 夕颜硬核 AI 技术大会,一年参加一次就够了。9 月 6日-7 日,2019 AI 开发者大会(AI ProCon)将在北京富力万丽酒店举行,人工领域技术领袖将再次齐聚一堂,探讨过去一年最新的 AI 技术趋势与变化&#x…

基本控件HyperlinkButton控件
HyperlinkButton控件可用来作为超链接按钮,支持页面导航。 若导航到MainPage.xaml,NavigateUri属性指定单击后导航页面的Uri 若导航到网页,必须同时指定TargetName,否则要报错。 <HyperlinkButton Width"200" Heigh…

江湖又现中科大少年班的传说
作者 | ——,夕颜出品 | AI科技大本营(ID:rgznai100)导读:近日,《日本经济新闻》的一则报道指出:在左右着企业、国家和地区发展的人工智能领域,中科大少年班的人才支撑着中国的发展。中国自动驾…

[JOISC2014]バス通学
[JOISC2014]バス通学 题目大意: 有\(n(n\le10^5)\)个点和\(m(m\le3\times10^5)\)条交通线路。第\(i\)条交通线路可以让你在时间\(x_i\)从\(a_i\)出发,并在\(y_i\)时到达\(b_i\)。\(q(q\le10^5)\)次询问,每次询问若要在时间\(l_i\)到达\(n\)点…

Windows7在Notepad++中配置Python+OpenCV
1、 从http://notepad-plus-plus.org/下载最新的Notepad6.2.1安装; 2、 从http://www.python.org/下载python-2.7.3.msi安装到D:\Python27目录下,并将D:\Python27添加到环境变量Path中; 3、 打开Notepad,按下F5或者运行(R…

virtualenv 在windows下的绿化方法
virtualenv 在windows下的绿化方法测试环境:windows 7 32 en Python 2.7.3setuptools-0.6c11.win32-py2.7virtualenv-1.9.1-with-pip-1.3.11. f:\> virtualenv my2. 编辑 my/Scripts/activate.bat 前几行中设置VIRTUAL_ENV的那条语句,改为set VIRTUA…

当谈论迭代器时,我谈些什么?
作者 | 樱雨楼编辑 | 豌豆花下猫转载自python猫(ID:python_cat)导语:之前说过,我对于编程语言跟其它学科的融合非常感兴趣,但我还说漏了一点,就是我对于 Python 跟其它编程语言的对比学习,也很感…

Windows7在Eclipse中配置Python+OpenCV
1. 从http://www.oracle.com/technetwork/java/javase/downloads/jdk-7u2-download-1377129.html下载jdk-7u2-windows-i586.exe,安装到D:\ProgramFiles\Java,并将D:\ProgramFiles\Java\jdk1.7.0_02\bin添加到环境变量中; 2. 从…

Pinterest基于AWS规模化使用Apache Kafka的实践经验
在Pinterest,Apache Kafka被用于为实时流应用程序传输数据、记录日志和可视化监控指标。Pinterest的Kafka托管在AWS上,为了实现复制和高可用性,其安装使用了MirrorMaker和DoctorKafka工具。 Pinterest的技术主管Yu Yang写道,Pinte…

Open×××以及其它IP层×××的完全链路层处理的实现
如果Open也能实现传输模式该有多好,如果基于Open实现的产品能仅仅作为一根昂贵的网线串接在用户网络环境,自动捕获感兴趣流量该有多好;如果它能做到只需要配置一个IP即可工作而无需配置任何路由该有多好。我们知道Open是一个用户态的程序&…

Windows 7 64位机上OpenCV2.4.3的编译、安装与配置
1. 从http://sourceforge.net/projects/opencvlibrary/files/opencv-win/2.4.3/下载OpenCV2.4.3; 2. 将OpenCV-2.4.3.exe放到D:\soft\OpenCV2.4.3文件夹下,解压到当前文件夹下,生成一个opencv文件夹; 3. 下载并安…

有望替代卷积神经网络?微软最新研究提基于关系网络的视觉建模
导语:最近两年,自注意力机制、图和关系网络等模型在NLP领域刮起了一阵旋风,基于这些模型的Transformer、BERT、MASS等框架已逐渐成为NLP的主流方法。这些模型在计算机视觉领域是否能同样有用呢?近日,微软亚洲研究院视觉…

Word 2013无法发布文章到博客园
2018年12月12日突然发现word2013无法发布文章到博客园了, 虽然不常发布博客, 但作为一个强迫症患者, 不折腾好了, 吃肉都不香呀! 删除之前的账户, 想重新注册, 居然遇到了灰色对话框!…

1 sec on Large Judge (java): https://github.com/l...
1 sec on Large Judge (java): https://github.com/leoyonn/leetcode/blob/master/src/q029_substring_of_all_words/Solution.java转载于:https://www.cnblogs.com/codingtmd/archive/2013/03/31/5079017.html

性能提升3倍的树莓派4,被爆设计缺陷!
整理 | 屠敏转载自CSDN(ID:CSDNnews)一直以来,素有世界最小电脑之称的 Raspberry Pi(树莓派)是一种独特的存在。它不仅只有一块信用卡般的体积,还具备主机电脑所具备的功能,如运行 L…

Windows7 64位机上Emgu CV2.4.2安装与配置
1. 从http://sourceforge.net/projects/emgucv/?sourcedirectory下载最新的Emgu CV2.4.2; 2. 将libemgucv-windows-x86-gpu-2.4.2.1777拷贝到D:\soft\Emgu2.4.2文件夹下,运行此.exe文件,将其安装到D:\soft\Emgu2.4.2\emgucv-wind…

2018年12月,华为HCNP大面积更新题目,军哥独家解题咯
2018年12月,华为HCNP大面积更新题目,乾颐堂军哥独家解题咯2018年是华为认证变动比较大的一年,华为认证走过这几年不得不说是有一定进步的,而且最近华为孟女侠确实让我也小小的骄傲了一把,所以当然希望华为认证能做的更…

关于ProGuard的学习了解(从别处转来)
from:http://www.cnitblog.com/zouzheng/archive/2011/01/12/72639.html在Android项目中用到JNI,当用了proguard后,发现native方法找不到很多变量,原来是被produard优化掉了。所以,在JNI应用中该慎用progurad啊。解决办…