深度分析蔡徐坤的百万流量数据,揭底哪些是假的!
参加 2019 Python开发者日,请扫码咨询 ↑↑↑
作者 | Alfred,毕业于暨南大学,数据挖掘算法工程师,主要研究领域为数据挖掘、机器学习
来源 | Alfred数据室(公众号id:Alfred_Lab)
责编 | Jane
前段时间央视新闻公开披露流量明星数据造假。作为一名数据猿,我们秉着好奇心点开了 NBA 新春贺岁形象大使蔡徐坤的微博,发现他的微博转发量除了最新一条之外,其它的基本每条都是转发 100 万+。
在我们的印象中,转发 100万+ 可是某些明星官宣结婚、或者某些明星吸毒出轨被爆等能让微博服务器奔溃的流量呀。蔡徐坤真的那么火吗?他的 100万+ 转发里到底是否存在假流量?假流量所占比重有多少呢?
为了解答这个问题,我们通过微博移动端随机抓取了蔡徐坤最新一条微博《再见,“任性的”千千…》的10万条转发数据(时间节点2019年3月11日10时)。这条讲诉蔡徐坤关爱小动物的短视频微博,于2019年3月9日01:23发布,到2019年3月10日18:00的时候已经被转发100万+。
数据的维度包括转发者的相关信息(昵称、性别、关注者数量和被关注者数量等)以及转发时的评论等。
一、蔡徐坤的微博转发是否存在假流量?
解答这个问题之前,我们其实对于蔡徐坤的粉丝性别比例更加感兴趣。按理来说应该他的女粉丝所占比例应该更大,但是我们统计了102313条转发数据中,有93618条是男粉丝转发的,只有8695条是女粉丝转发的。
这不对呀,难道更多的男生喜欢蔡徐坤吗?而且这比例也太悬殊了一点吧?于是我们随机抽取了男生转发的数据,发现这些转发的男粉丝基本上都是关注0,粉丝1的用户。
我们合理地推测:这些流量就是所谓的假流量。
那假流量所占的比例有多少呢?在这随机抓取的10万条转发数据中,有多少是假的流量呢?
二、真假流量所占的比例各有多少?
通过一番探索分析,我们把转发数据中转发者的关注或者粉丝数少于等于5、没有简介、转发之后被点赞数评论数再转发数都为0、微博会员等级为0级的数据,以及转发者的关注或者粉丝数大于等于5但昵称长“用户XXXXXXXX”这样的数据抽取了出来。
这部分数据,便是我们所说的假流量。
可见,102313条转发数据中,有95397条是由假粉丝转发的,占了总转发的93.24%,只有6916条是由真粉丝转发的,占6.76%。原来假流量占的比重那么高啊!
那么6919条真粉丝转发的数据中,除去重复转发刷榜的数量,里面一共有多少个真粉丝在转发呢?我们把这部分数据按照粉丝微博ID进行去重。发现这里面只有3926个真粉丝在转发,也就是说,真实转发的粉丝数量,占总转发量的3.84%。
按照这个比例,可以推算出100万的转发中,真实转发的粉丝数为3.84万,说明蔡徐坤的粉丝群和影响力还是很大的,但远没有微博显示的全是100万+转发量那么大。
你可能会说:我们自己的微博,平时也有一些假粉丝在转发呀。为了进行对比,我们还抓取了最近活跃在《歌手》舞台的吴青峰叔叔(粉丝数1377万)最新的一条微博转发数据10006条(时间节点2019年3月11日10时)。
我们把这些数据按照跟上面一样的步骤提取出真假粉丝转发量,发现只有很少比例的假粉丝量,绝大部分都是真粉丝转发的。
并且,在9658条真粉丝转发数据中,真粉丝量也高达9318,说明不存在粉丝打榜的情况。跟蔡徐坤的数据相比,可以发现有明显的不同。
三、假流量粉丝是如何生产出来的?
在高达93.24%的假转发量中,这些假粉丝都是如何生产出来的呢?有什么共同的行为特征呢?我们先给假粉丝进行了用户画像。
可见95397条假转发中,有40838个假粉丝。其中男性的比例高达95.42%!
我们把转发中所携带的评论进行计数,看看假粉丝在转发的时候都喜欢说什么,却发现了一些更有趣的事。
很多假粉丝去转发微博用户“蔡徐坤的南岸末阴大小姐”和“超超超超爱蔡蔡的思思”的微博(大家千万不要去攻击他们哈),我们搜索了一下这两个人,发现她们的粉丝量只有一两百人,转载的全是蔡徐坤的微博,并且很多微博再转发量为0,却有少数的微博再转发量高达好几千!
这,估计就是自己花钱为偶像买流量的粉丝。
另外,我们发现很多假流量粉在转发的时候喜欢携带英文评论。搜索了一下发现,这些英文评论,要么是英文歌词、要么是美剧台词、要么是泰戈尔或者聂鲁达的诗句。
在假粉丝使用的Top10转发设备中,Android高居榜首,这也再次证明了这些粉丝是假粉丝。
另外还有一些有趣的发现:假粉丝的平均关注是3.44,平均粉丝数是1.04,没有简介,昵称基本上都是“中文+英文和数字”这个格式,很多假粉丝的昵称都带有“坤”、“蔡”、“葵”、“kun”等字,头像都是蔡徐坤(说明很多都是定制粉啊)。
四、真假量粉的粉丝画像
先来看看真粉丝的性别比例。可见3926个真粉丝中,女生占了绝大部分,这才是符合逻辑的粉丝比例嘛。
在这些粉丝转发所携带的评论中可以看到,很多都是支持蔡徐坤拿下#明星势力榜#或者#东方风云榜#第一名而转发的。
真粉丝所使用的转发设备,各种设备分布都比较均匀,最受欢迎的是iPhone客户端。
真粉丝的平均关注量为222,平均粉丝数是179,同样,很多粉丝名字中喜欢带有“坤”、“蔡”、“葵”、“kun”等字。
我们把真粉丝的简介做成了词云图。
可见,真粉丝们的简介都喜欢带上蔡徐坤的名字,很喜欢蔡徐坤,想要一直陪着他走下去。看着里面的“少年”、“努力”、“自由”“追梦”等字眼,发现这就是我们以前的青春呀。
另外还把转发所带的评论做成了词云图。
可见,粉丝们都很在乎“风云榜”这件事,并且要帮助蔡徐坤拿第一名。里面有早安打卡的,有超级话题的,还有很多“开心”、“比心”、“温暖”等字眼。说明绝大部分真粉还是很温暖的。
五、总结
数据显示,蔡徐坤动辄100万+的微博转发中,确实存在绝大部分的假流量。这些假流量估计有两方面的来源:一是自身经纪公司购买的,二是忠实的粉丝自费购买的。
若是自身经纪公司购买的话,这确实扰乱了整个娱乐圈市场的运作,对于娱乐圈乃至整个社会风气都是不好的。若是忠实粉丝购买的,Alfred觉得,数据只是一个数据,这其中的资金,可以通过其它方面更好的方面去给自己的偶像添加影响力呀。我看最近蔡徐坤转发的#脱贫攻坚战星光行动# 这个话题就很好呀,通过自己的影响力,去做更多正能量的事情。
--【完】--
(*本文为AI科技大本营转载文章,转载请联系作者)
推荐阅读:
顶会论文9篇,又斩获百度奖学金!哈工大NLP“新生代”正崭露头角
Google用更少标签生成图像,还提出一个用于训练评估GAN的库
如何用TF Object Detection API训练交通信号灯检测神经网络?
Google首页玩起小游戏,AI作曲让你变身巴赫
特斯拉起诉小鹏汽车员工窃取商业机密,何小鹏回应
提升效率,这十个Pandas技巧必不可少!
超常用的Python代码片段 | 备忘单
工作量不断增加的微软Azure,正缩小与亚马逊AWS的差距
理工男的网红生意, 6000万月活50万条日更的背后, 内容链还能这样操作?
曝光!月薪 5 万的程序员面试题:73% 人都做错,你敢试吗?
❤点击“阅读原文”,查看历史精彩文章。
相关文章:

【Linux】延时函数sleep、usleep、nanosleep、select、pselect的比较
1、简介 sleep()-------以秒为单位 #include<unistd.h> unsigned int sleep(unsigned int seconds); return:若进程暂停到参数seconds 所指定的时间,成功则返回0,若有信号中断则返回剩余秒数。 在linux中,sleep是通过nanos…

特斯拉解锁对汽车电池容量的软件限制,以帮助用户逃离飓风危险
为了对抗飓风,为用户提高逃生的可能性,特斯拉公司在此特殊情况下免费释放了电池容量限制。 据悉,在伊斯玛飓风抵达佛罗里达州之前,特斯拉为佛罗里达特斯拉的电动汽车用户更新解锁了其60kwh型号下电动汽车被封住的电池容量&#x…

nginx安装 问题 1
./configure: error: the HTTP rewrite module requires the PCRE library 有时候,我们需要单独安装nginx,来处理大量的下载请求。单独在Centos5安装nginx遇到的rewrite和HTTP cache错误解决办法:wget http://nginx.org/download/nginx-0.8.3…

【Qt】使用QPalette设置按钮颜色时,不生效
1、问题描述 在练习QStylePlugin示例时,通过插件将按钮颜色设置为红色,但是没有效果,原因是: 使用QPalette设置按钮颜色时,不生效,代码如下 QPalette.setBrush(QPalette::Button, Qt::red)2、问题分析 Q…

Swagger 生成 PHP restful API 接口文档
需求和背景 需求: 为客户端同事写接口文档的各位后端同学,已经在各种场合回忆了使用自动化文档工具前手写文档的血泪史.我的故事却又不同,因为首先来说,我在公司是 Android 组负责人,属于上述血泪史中催死人不偿命的客户端阵营.但血泪史却是相通的,没有自动化文档的日子,对接口…

FPGA技术的未来发展:谁与AI平分秋色
参加 2019 Python开发者日,请扫码咨询 ↑↑↑作者 | 老石来源 | 老石谈芯(公众号id:gh_5ce1d0cb1568)责编 | Jane任何科学技术的发展和进步都离不开两个主要的推动力量,一个是相关领域各大公司的研发,另一个…

一体化设计让容灾变简单
容灾很难实现吗?容灾不仅包括技术方面的问题,而且涉及数据保护策略、投入产出比等方面的问题。从这个角度讲,对于大多数的中小型用户来说,容灾的实施确实比较困难。不过,爱数软件副总裁李基亮认为,容灾的实…

深度研究自然梯度优化,从入门到放弃 | Deep Reading
参加 2019 Python开发者日,请扫码咨询 ↑↑↑作者 | Cold Marie Wild译者 | 刘畅责编 | Jane出品 | AI科技大本营(公众号id:rgznai100)【导语】根据自然梯度的支持者提出一种建议:我们不应该根据参数空间中的距离来定义…

【Qt】QtCreator中关于Style Plugin Example没有效果的修改方法
1、问题描述 在QtCreator练习QStylePlugin的例子时,没有效果,原因是QPalette使用不当造成。 详见:https://blog.csdn.net/u010168781/article/details/88250451 2、解决方法 解决方法很简单,我们只是为了演示QStylePlugin的效果,然而QPushButton不能通过QPalette来改变…

最大公约数和最小公倍数的欧几里得算法
最大公约数的算法竟然如此简单,不说了,见代码 #include <stdio.h> int gcd(int a, int b) { if(b 0) return a; return gcd(b, a%b); } 简化后如下: int gcd(int a, int b) { return (b0 ? a: gcd(b, a%b)); } 而最小公倍数的也就为&a…

如何查看CISCO FWSM上ACL分区的空闲资源
在CISCO防火墙模块上有的时候在做策略NAT的时候会碰到如下的错误信息:输入:nat (inside) 1 access-list XYZ错误提示:ERROR: Unable to add Policy Rulesaccess-list XYZ 可以在配置的ACL中显示尤其在添加一些基于策略的NAT的时候,因为其可能会产生大量的…

强烈推荐一款Python可视化神器!
参加 2019 Python开发者日,请扫码咨询 ↑↑↑翻译 | Lemon来源 | Plotly出品 | Python数据之道 (ID:PyDataRoad)Plotly Express 入门之路Plotly Express 是一个新的高级 Python 可视化库:它是 Plotly.py 的高级封装&am…

【Qt】QIcon::fromTheme:从系统主题中获取图标
1、简介 函数原型 QIcon QIcon::fromTheme(const QString &name) QIcon QIcon::fromTheme(const QString &name, const QIcon &fallback)上述两个函数可以从系统主题中获取图标,后者可以在主题中找不到图标时,再使用自己定义的图标&#x…

检验EIGRP
路由器必须与其邻居建立邻接关系,EIGRP 才能发送或接收更新。EIGRP 路由器通过与相邻路由器交换 EIGRP Hello 数据包来建立邻接关系。 使用 show ip eigrp neighbors 命令来查看邻居表并检验 EIGRP 是否已与其邻居建立邻接关系。对于每台路由器,您应该能…

【Qt】通过QtCreator源码学习Qt(十):多国语言支持
1、获取系统支持的语言 QStringList uiLanguages;uiLanguages = QLocale::system().uiLanguages();2、从设置中获取想要显示的语言,尝试覆盖默认的 QString overrideLanguage = settings->value(QLatin1String("General/OverrideLanguage")).toString();if (!ove…

吴恩达最新斯坦福课程《深度学习》全部视频已送达,请签收!
参加 2019 Python开发者日,请扫码咨询 ↑↑↑责编 | Jane出品 | AI科技大本营(公众号id:rgznai100)【导语】2018 年秋季,吴恩达教授在斯坦福新开了一门 CS230《深度学习》课程,近期,该课程的视频…

mysql 5.7 修改root 密码
前言 MySQL5.7为了加强安全性,yum 安装后为root用户随机生成了一个密码,同时修改root密码上,也增加了一些校验,会报 Your password does not satisfy the current policy requirements 错误。 安装 rpm -ivh http://repo.mysql.co…

2-7-PatchesAdministration
/cdrom/sol_10_305_x86/s2/Solaris_10/Product 下是包含系统自带的补丁包 该目录下的包需要复制到/var/spool/pkg目录下再使用pkgadd才可以被安装cp -r SUNWi15cs /var/spool/pkgpkgadd SUNWi15cs2-7系统补丁管理补丁类型:standard patchesrecommended patchesfirmw…

【Qt】通过QtCreator源码学习Qt(十一):Utils::Icon,根据不同主题、不同状态变换图标
1、简介 在QtCreator中Utils::Icon封装的图标可以根据主题变换,还可以设置不同状态下的图标的颜色。不同状态下的颜色变换,由QIcon::addPixmap函数实现: void QIcon::addPixmap(const QPixmap &pixmap, Mode mode = Normal, State state = Off)2、源码分析 src/libs/…

Python_赋值和深浅copy
Python中赋值和深浅copy存储变化 在刚学python的过程中,新手会对python中赋值、深浅copy的结果感到丈二和尚。经过多次在网上查找这几个过程的解释说明以及实现操作观察,初步对这几个过程有了浅显的认识。以下内容仅是我在学习过程中遇到的问题&…

萌新养成 | AI科技大本营实习生招募计划
金三银四跳槽季这个时候需要做好准备的可不仅仅只有在职或者离职的萝卜尚未毕业的萌新也需要提早做准备了毕竟把自己修炼成一个优秀的萝卜也不是一件容易的事所以,放下你找对象、刷副本、世界游的想法加入我们为你量身定制的人才培养计划加入营长的团队,…

踏上云旅程 存储准备好了吗
在云计算的概念刚出现时,人们习惯将原始数据存在本地,而将备份数据放到云中。随着云计算技术和应用逐渐走向成熟,人们可能会把原始数据存在云中,而把备份数据放在本地。全球存储网络工业协会(SNIA)主席Wayn…

UCloud与NTT达成合作,提供可靠跨地域混合云服务
近日,UCloud宣布与NTT Communications东亚地区总部NTT Com Asia (以下简称“NTT Com Asia”) 达成合作伙伴协议。双方将发挥各自优势,通过UCloud云服务与NTT Communications企业级 Enterprise Cloud 服务互联互通,为国内企业以及进入中国的跨…

ICCV 2019论文投稿数破纪录,中科院、清华名列前茅,苹果垫底
参加 2019 Python开发者日,请扫码咨询 ↑↑↑整理 | 琥珀出品 | AI科技大本营(ID:rgznai100)昨日,作为计算机视觉领域里顶级会议这一的 International Conference on Computer Vision (ICCV)公布了 2019 年…

【linux】在CentOS7上更改端口号时报错:Job for sshd.service failed because the control process exited with error
1、问题描述 在在CentOS7上更改端口号时报错: Job for sshd.service failed because the control process exited with error code.See “systemctl status sshd.service” and “journalctl -xe” for details. 2、修改ssh端口号的方法 修改:$ sudo …

硅谷风投押注计算机网络安全市场
今天,新浪转载了一篇外媒报道,称随着一系列安全事件的集中爆发,风险投资家们业从计算机安全领域看到了机会,希望加大对这一市场的投资。 文章最后指未来几年可能上市的公司包括:梭子鱼、Proofpoint、Palo Alto Network…

Tensorflow框架是如何支持分布式训练的?
参加 2019 Python开发者日,请扫码咨询 ↑↑↑作者 | 杨旭东转载自知乎《算法工程师的自我修养》专栏Methods that scale with computation are the future of AI. —Rich Sutton, 强化学习之父大数据时代的互联网应用产生了大量的数据,这些数据就好比是石…

【linux】SELinux工具:semanage的安装和使用
1、安装 在ubuntu14.04上安装 sudo apt-get install policycoreutils在CentOS7上安装 sudo yum -y install policycoreutils-python2、semanage命令行参数 $ semanage --help semanage用于配置SELinux策略的某些元素,而不需要对策略源进行修改或重新编译。 位置…

在阿里云Kubernetes容器服务上打造TensorFlow实验室
简介 Jupyter notebook是强大的数据分析工具,它能够帮助快速开发并且实现机器学习代码的共享,是数据科学团队用来做数据实验和组内合作的利器,也是机器学习初学者入门这一个领域的好起点。 而TensorFLow是深度学习和机器学习最流行的开源框架…

PagedGeometry 笔记03
1. 创建草 PagedGeometry *grass new PagedGeometry(mCamera,50); grass->addDetailLevel<GrassPage>(100); // 在100单位内绘草。 GrassLoader *grassLoader new GrassLoader(grass); grass->setPageLoader(grassLoader); grassLoader->setH…