当前位置: 首页 > 编程日记 > 正文

Python爬取B站5000条视频,揭秘为何千万人为它流泪

640?wx_fmt=png

作者 | Yura编辑 | 胡巍巍来源 | CSDN(ID:CSDNnews)

导语:我们特邀作者Yura爬取B站5000条视频,为你揭秘电影《哪吒》的更多“优秀梗”,看完还能Get新技能,赶快往下滑吧。
这个夏天,《哪吒之魔童降世》碾压其他暑期档电影,成为最强黑马。我身边的朋友,不是已经N刷了这部电影,就是在赶去N刷的路上。从票房上也可窥见一斑:640?wx_fmt=png


  • 上映第 1 天:89分钟,中国动画最快破1亿纪录。

  • 上映第 2 天:中国影史首部单日票房破2亿的动画电影。

  • 上映第 4 天:中国影史第66部破10亿影片!

  • 上映第 8 天:正式登顶!破16亿,超过《疯狂动物城》,创中国影史动画电影票房新纪录!

  • 截止今日《哪吒之魔童降世》的票房已经突破了33亿啦!预测票房达44亿!


640?wx_fmt=png我和朋友在前几天也去电影院支持了一下,当初只觉得国漫不容易,支持一下吧。看完之后觉得,国漫做到这样的剧情、特效、音乐,是真的很不容易!这部影片制作过程历时5年,磨合了66个版本,共有1800多个镜头,还包含1400多个特效镜头。饺子导演,respect!同样值得Respect的还有B站UP主们,动漫属性极强的B站在电影上映之后涌现了大量的相关视频。640?wx_fmt=jpeg搜索“哪吒之魔童降世”可以看到视频信息,今天我就来爬一爬,看看B站UP主们是如何对这部优秀的作品进行再创新的。
数据爬取
在浏览器开发者模式CTRL+F很容易就能找到所需要的信息,就在页面源码中:
640?wx_fmt=png因此我们用beautifulsoup库就能快速方便地获取想要的信息啦。
因为B站视频数量有限定,每次搜索只能显示20条*50页=1000个视频信息。
640?wx_fmt=png为了尽可能多的获取视频信息,我另外还选了“最多点击”“最新发布”“最多弹幕”和“最多收藏”4个选项。640?wx_fmt=png


  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=totalrank&duration=0&tids_1=0&page={}

  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=click&duration=0&tids_1=0&page={}

  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=stow&duration=0&tids_1=0&page={}

  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=dm&duration=0&tids_1=0&page={}

  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=pubdate&duration=0&tids_1=0&page={}


5个URL,一共爬取5000条视频,去重之后还剩下2388条信息。
640?wx_fmt=png为了得到“转评赞”数据,我还以视频id里面的数字(去掉“av”)为索引,遍历访问了每个视频页面获取了更详细的数据,最终得到以下字段:640?wx_fmt=png在后续划词云的时候还爬取了部分视频的弹幕详情,具体爬取过程和思路可以在我的另一篇文章中看(https://mp.weixin.qq.com/s/6IQO5nVy22qg73kIzCmHvw),但是我最近发现firefox也不显示弹幕页面cookie信息了,于是我尝试使用了B站其他页面的cookie,居然成了~


数据分析
640?wx_fmt=png电影在7月18、19日就进行了全国范围的点映,正式上映时间为7月26日,在这之后相关视频数量有明显的上升。在这时间之前的,最早发布时间可以追溯到2018年11月份,大部分都是预告类视频:640?wx_fmt=png在8月7日之后视频数量猛增,单单8月7日一天就新上传了319个相关视频。从标题名字中我们可以大致了解视频的内容:640?wx_fmt=png640?wx_fmt=png毫无疑问,“哪吒”和“敖丙”作为影片两大主角是视频的主要人物;因为他们同生共患难的情谊,“藕饼”(“哪吒+敖丙”组合)也是视频的关键词;除此之外,“国漫”也是一大主题词,毕竟我们这次是真正地被我们的国产动漫震撼到了。640?wx_fmt=jpeg从视频分类来看,我们发现“影视剪辑”“国产原创相关”和“绘画”是三个主要类型,占据了总视频的40%以上。看了几个绘画类型的视频,我理解了什么叫做“高手在人间”。640?wx_fmt=png超过一半的视频时长都在3分钟之内,但是也有些视频长达2个小时多,长视频大部分都是一些教学类视频(绘画、建模等)。大家都说喜欢在B站上学习,免费还无广告,诚不欺我。
640?wx_fmt=png那这么多视频到底质量怎么样,不能仅凭我一人之言,看看有雪亮眼睛的观众是怎么反馈的?640?wx_fmt=png注:横坐标代表点赞数量,纵坐标代表收藏数量,气泡大小表示金币数量。
从明显的线性规律和从左到右逐渐变大的气泡可看出,大家深谙“一条龙”服务定理(点赞+收藏+投币),上道儿~右上角那个特别突出的视频是《戏腔燃炸了!哪吒原创曲《我命不由天》(古风MV付)哪吒之魔童降世》,是由一个三人团队创作的原创曲目,观看数159w+,点赞超过1我命w,收藏12w+,投币14w!表演者居然把尤克里里弹出琵琶的感觉,果然是才华限制了我的想象力。刚刚是全局观看,那么细分种类的话,大家都偏好哪种类型的视频呢?640?wx_fmt=png注:TGI:即Target Group Index(目标群体指数),可反映目标群体在特定研究范围内的强势或弱势,超过100即表示特征明显。本次计算公式(以金币数TGI为例)=某一类型视频金币总数占比/该类型视频数量占比按照金币数TGI排序,我们发现“原创音乐”以1551的超高指数占据榜首,“趣味科普人文”虽然视频数量占比不高,但是用户的投币数量还是很可观的。排名第三的“单机游戏”,我开始还一脸懵,这电影和游戏也能扯上关系?直到我打开视频之后,那些用“模拟人生”“我的世界”做出来的如同电影般的画面,我…膝盖不保。怎么着?神仙也上B站?640?wx_fmt=png图取自UP主:白小久丶传送门:https://www.bilibili.com/video/av61606846弹幕数量最多的视频是《【哔哔Q第3期】哪吒续作预定?打破成见,做自己的英雄!》,这是关于影片导演饺子的一段采访,从大家的弹幕里面可以看出大家对这部电影的看法:640?wx_fmt=png哪吒可爱敖丙(饼)帅不用多说,“加油”“期待”表达了观众对导演的鼓励。视频中导演饺子非常谦虚,说“觉得我们现在还不配得到那么多粉丝”,满屏“配”字表明了大家最硬核的支持。640?wx_fmt=png



最后的最后

看完了这部电影,大家都有一种“国漫崛起”的感慨。除了是观众的福利,我觉得这更是对中国千千万万艺术创作者的鼓励。打造中国自己的封神宇宙,我们已经迈出了第一步啦。源码:https://github.com/PengYura/Bilibli-作者:Yura,计算机科学与技术专业毕业生,因在澳洲交换学习接触了大数据,甚感兴趣。遂开公众号“Yura不说数据说”督促自己学习数据分析!欢迎大家关注我的个人公众号,一起(监督我)学习。
(*本文为 AI科技大本营转载文章,转载请联系作者)


精彩推荐



AI ProCon 2019 邀请到了亚马逊首席科学家@李沐,在大会的前一天(9.5)亲授「深度学习实训营」,通过动手实操,帮助开发者全面了解深度学习的基础知识和开发技巧。 640?wx_fmt=png
9大技术论坛、60+主题分享,百余家企业、千余名开发者共同相约 2019 AI ProCon!技术驱动产业,聚焦技术实践,倾听大牛分享,和万千开发者共成长。5折优惠票抢购中!     640?wx_fmt=png

社群福利

扫码添加小助手,回复:大会,加入2019 AI开发者大会福利群,每周一、三、五 更新学习资源、技术福利,还有抽奖活动~

640?wx_fmt=jpeg


推荐阅读

  • 最前沿:堪比E=mc2,Al-GA才是实现AGI的指标性方法论?

  • 开源之战

  • 别再造假数据了,来试试Faker这个库吧!

  • 国外大神制作的超棒NumPy可视化教程

  • 突发!Python再次第一,Java和C下降,凭什么?

  • 白话中台战略:中台是个什么鬼?

  • 伟创力回应扣押华为物资;谷歌更新图片界面;Python 3.8.0b3 发布 | 极客头条

  • 沃尔玛也要发币了,Libra忙活半天为他人做了嫁衣?

  • 知名饮料制造商股价暴涨500%惊动FBI,只因在名字中加入了"区块链" ?

640?wx_fmt=png你点的每个“在看”,我都认真当成了喜欢


相关文章:

父域与子域之的信任关系

搭了一个测试环境,做一个父、子域间信任关系的测试,过程如下:两台测试服务器,主域为primary.com,子域为child.primary.com客户机Clientpri加入父域,客户机Clientcli加入子域,父域中有一个用户为…

Ubantu安装maven

2019独角兽企业重金招聘Python工程师标准>>> 一、下载maven http://maven.apache.org/download.cgi 二、解压到指定目录 tar -xvf apache-maven-3.6.0-bin.tar.gz 三、添加环境变量 cd /etc vi profile 向其中添加 export M2_HOMEmaven所在目录 export M2$M2_HOME/b…

Leptonica在VS2010中的编译及简单使用举例

在tesseract-ocr中会用到leptonica库,这里对leptonica简单介绍下。Leptonica是一个开源的图像处理和图像分析库,它的license是BSD 2-clause。它主要包括的操作有:位图操作、仿射变换、形态学操作、连通区域填充、图像变换及像素掩模、融合、增…

IJCAI 2019精选论文一览,从底层到应用都有了

作者 | 神经小姐姐来源 | HyperAI超神经(ID: HyperAI)导语:为期一周的 IJCAI 第一天议程已经圆满结束。在前三天的工作坊上,全球各地人工智能行业人士,在此讨论 AI 在各个领域与方向的最新研究成果与未来动向。超神经特…

UITableView 添加长按手势UILongPressGestureRecognizer

2019独角兽企业重金招聘Python工程师标准>>> 给UITableView 添加长按手势,识别长按哪一行。 长按手势类UILongPressGestureRecognizer, 属性minimumPressDuration表示最短长按的时间 添加手势代码: UILongPressGestureRecogniz…

像我这种垃圾学校出来的人...【原话,不是我编的】

今天这标题,是咱们先行者课程的学生的原话,不是我编的,咱有截图为证,我这没别的意思,就是想说一下我自己的想法, 这种情况怎么办呢?也得生活啊,对吧,也不能人人都上清华北…

二维码Data Matrix简介及在VS2010中的编译

Data Matrix 二维条码原名Datacode,由美国国际资料公司(International Data Matrix, 简称ID Matrix)于1989年发明。Data-Matrix二维条码是一种矩阵式二维条码。Data Matrix符号由规则排列的深浅色正方形模块构成,每个正方形模块就是一个基本单元&#x…

一、数据库设计与性能优化--概述

前言我1998年第一次接触SQL Server 6.5 for Windows NT 4.0,当时的感觉就认为SQL Server只是一个功能强大的Excel文件。现在回想起来,当年抱着这样一种态度,我开发的那些应用程序应该是非常幼稚的,其性能可想而知。记得那时候随便…

第四范式戴文渊:AI落地,为什么不能照搬教科书?

“年少成名”、“天才”,在中国 AI 行业里用这两个词同时形容一个人的牛人不多,第四范式创始人戴文渊位列其中。在上海交通大学就读本科期间,戴文渊就带领三人团队夺得了 2005 年 ACM 的世界冠军和三个亚洲冠军,并担任ACM竞赛教练…

Kong Api 网关使用 docker 部署

Kong 镜像: https://hub.docker.com/_/kong 官网给定的用户安装手册上并没有设置 PG 的密码,导致如下问题无法启动 nginx: [error] init_by_lua error: /usr/local/share/lua/5.1/kong/init.lua:277: [PostgreSQL error] failed to >retrieve server_version_num…

Windows7中搭建Android x86_64及armv8-a操作步骤

1. 从https://developer.android.com/tools/sdk/ndk/index.html 下载android-ndk-r10d-windows-x86_64.exe 和 android-ndk-r10d-linux-x86_64.bin; 2. 在Ubuntu1404 64位中通过终端安装ndkr10d:./android-ndk-r10d-linux-x86_64.bin ; 3.…

ContentResolver.query()—buildQueryString()

Cursor cursor context.getContentResolver().query(Sms.CONTENT_URI, new String[]{"thread_id from sms where type 3 group by thread_id—"}, // 可以这样使用。 null, null, null); 07-17 10:55:17.084: E/AndroidRuntime(30157): FATAL EX…

Room Database完全使用手册

前言 Android数据持久层直接使用SQLite很麻烦,Google官方推出了Room, Google对Room的定义: The Room persistence library provides an abstraction layer over SQLite to allow fluent database access while harnessing the full power of …

wiki的使用

Wiki一词来源于夏威夷语的”weekee wee kee”,被译为”维基”或”维客”。Wiki是一种多人协作的写作编辑平台。在Wiki网站上,访问者可以修改、完善已经存在的页面,或者创建新内容。 可以利用”维基百科:沙盒”来练习如何编辑&…

GAMIT安装备忘

2019独角兽企业重金招聘Python工程师标准>>> 系统环境: VMware Workstation9 ubuntu 10.04 操作 1.安装VMware Workstation 参考: VMware Workstation下载:http://pan.baidu.com/share/link?shareid407480&uk258569718…

FreeType简介及在vs2010的编译使用

FreeType库是一个开源、高质量、可扩展、可定制、可移植的字体引擎,它提供统一的接口来访问多种字体格式文件,包括点阵字、TrueType、OpenType、Type1、CID、CFF、Windows FON/FNT、X11 PCF等。 FreeType有两个License,一个是BSD-stype&…

firefox下的调试工具

2019独角兽企业重金招聘Python工程师标准>>> vue-devtools https://addons.mozilla.org/en-US/firefox/user/13100848/ 转载于:https://my.oschina.net/u/3371661/blog/3003299

NLP为RPA带来了什么价值?

什么是 RPA(Robotic Process Automation)?机器人流程自动化(RPA)是一种自动化工具,用于创建软件机器人的虚拟劳动力,从而优化和降低企业中端到端业务流程的成本。RPA 可以翻译成机器人流程自动化…

从原理到代码,轻松深入逻辑回归模型!

整理 | Jane出品 | AI科技大本营(ID:rgznai100)【导语】学习逻辑回归模型,今天的内容轻松带你从0到100!阿里巴巴达摩院算法专家、阿里巴巴技术发展专家、阿里巴巴数据架构师联合撰写,从技术原理、算法和工程…

JVM内存管理学习总结(一)

I.JVM进程的生命周期 JVM实例的生命周期和java程序的生命周期保持一致,即一个新的程序启动则产生一个新的JVM进程实例,程序结束则JVM进程实例伴随着消失。那么程序启动和程序终止就是JVM实例生命周期的两个边界,两个边界点可以这么理解&#…

开源库Simd在vs2010中的编译及简单使用

Simd是开源的图像处理库,它提供了很多高性能的算法,这些优化算法主要由SIMD指令来实现,包括SSE、SSE2、SSSE3、SSE4.1、SSE4.2、AVX等,此库可以应用在windows/linux 32bit/64bit等系统中。此库更新较频繁。此库的license是MIT。下…

Dubbo2.6.5+Nacos注册中心(代替Zookeeper)

在上一节的小栗子的基础上&#xff0c;只需要更改两个地方 第一个&#xff1a;父工程的pom依赖增加 <!-- Dubbo Nacos registry dependency --><dependency><groupId>com.alibaba</groupId><artifactId>dubbo-registry-nacos</artifactId>…

Nginx(二) 配置与调试

nginx 主配置文件在安装目录下的conf中&#xff0c;名字为nginx.conf&#xff1a;主配置文件主要分为4部分&#xff1a;main&#xff08;全局设置&#xff09;、server&#xff08;主机设置&#xff09;、upstream&#xff08;负载均衡服务器设置&#xff09;和location&#x…

AI编程语言图鉴

作者 | 元宵大师责编 | 胡巍巍来源 | CSDN&#xff08;CSDNnews&#xff09;当前最炙手可热的领域非“人工智能”&#xff08;Artificial Intelligence&#xff09;莫属。其实&#xff0c;“人工智能”的火热并非一蹴而就&#xff0c;早在1956年“人工智能”概念就已经被提出了…

C++动态二维数组演示的代码

将代码过程中经常用到的代码珍藏起来&#xff0c;下边资料是关于C动态二维数组演示的代码。 #include <iostream> #include <string>using namespace std;{for( int i 0; i < x; i ){List[i] new int[y];for( int j 0; j < y; j ){List[i][j] 0;}}for( i…

linux发送email错误 501 Syntax: HELO hostname

2019独角兽企业重金招聘Python工程师标准>>> 查看你的hostname hostnamecentos58 然后vi /etc/hosts 添加hostname对应的ip 103.24.3.171 centos58 参考http://blog.csdn.net/tammy_zhu/article/details/5563383 转载于:https://my.oschina.net/u/257088/bl…

redux-thunk使用教程

从无到有一步一步创建一个react-redux、redux-thunk使用教程&#xff1a;本教程GitHub地址&#xff1a;https://github.com/chunhuigao/react-redux-thunk创建react工程在电脑上找一个文件夹&#xff0c;在命令窗使用create-react-app 创建我的react工程&#xff1b;这一步应该…

VLC SDK在VS2010中的配置及简单使用举例

1. 从http://www.videolan.org/vlc/download-windows.html下载vlc-2.2.0-win32.7z&#xff0c;解压缩&#xff1b;2. 新建一个VLCtest控制台工程&#xff1b;3. 将/vlc-2.2.0-win32/vlc-2.2.0/sdk/include添加到工程属性中&#xff0c;C/C -->General …

百万奖金悬赏AI垃圾分类,就问你来不来?

也许我们从来没有想过&#xff0c;看似简单的垃圾分类居然给“聪明”的人类带来如此大的困扰2019年7月1日&#xff0c;史称“最严格的垃圾分类法”《上海市生活垃圾管理条例》正式开始施行一夜之间上海人最常用的见面语从“侬好”变成了“侬是什么垃圾&#xff1f;”虽然只有可…

资质申报 - 系统集成企业资质等级评定条件(2012年修定版)

关于发布《计算机信息系统集成企业资质等级评定条件&#xff08;2012年修定版&#xff09;》的通知工信计资&#xff3b;2012&#xff3d;6号各省、自治区、直辖市、计划单列市工业和信息化主管部门、新疆生产建设兵团工业和信息化委员会、各级资质评审机构&#xff0c;各有关单…