京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | 俊欣
来源 | AI篮球与生活
年末尾上映的古装剧《庆余年》可谓是赚足了眼球,号称投资了7个亿,集齐陈道明吴刚袁泉等一票老戏骨,实力演员张若昀李沁主演,又有新顶流肖战做配,在播出后没多久便圈粉无数
在微博上对该话题的讨论和阅读数量已经达到了几十亿(当然会存在水军的成分),播一集就能上微博热搜。在打分苛刻的豆瓣上面,截至目前为止,共有15万人参与了打分,评分也维持在了7.9分左右摇摆,各大视频网站也想趁这波热潮想要从观众手中赚上一笔,特地推出了一个“超前点播“,惹得网友和众多媒体吐槽声不断,
而前几天的整部剧全集被泄露又是掀起了一波高潮,一些主流的视频网站和版权方也因此损失惨重。当然我们整个社会需要加强打击盗版这种违法行为,不过“超前点播”这种吃相并不好看的行为倒并不值得提倡!!
Anyway,今天小编呢从豆瓣上面爬取了关于庆余年的相关信息,通过“大数据”(其实并不大,或者还有点小)来帮大家分析一下,为什么观众喜欢看这部剧,喜欢看这部剧的观众又是谁以及看了之后又是怎么评价的。
01
数据的获取
首先是关于数据的获取,要想获取豆瓣上面的数据,首先需要登录自己的豆瓣账户和密码,并且获取cookie,然后跳转到《庆余年》相关的页面,就是这个样子,
然后我们利用request库发送请求,便能够获得我们想要的数据,相当简单。小编此次爬取了观看过、正在观看的观众的相关信息以及评论的具体内容。
登录豆瓣页面并获取cookie
爬取评论内容
02
数据的分析和挖掘
爬完数据之后,接下来便是简单的数据清理和分析,以及数据可视化。用Python做数据可视化的工具有很多,目前比较轻量级好用的库是pyecharts,在这里,小编就不做赘述。我们看一下pyecharts来对已经获取的数据做的可视化结果。
1、总体评分
《庆余年》在豆瓣当中的总体评分维持在7.9分左后,并不算低,并且有15万人参与了评分。从评分的分布来看,大多数评分给了4星,占总数的48.7%,其次是5星,占总数的36.5%,剩下便是3星及以下的评分,一共占到了总数的14.8%,已经是一个相当低的比例了。
2、城市以及省份的差异
首先是直方图来粗略的展示前十大追剧热度最高的城市,如下图所示
但是直方图的呈现并不总是那么的直观和易于理解,所以小编也采用地图的形式向大家展示主要看剧的观众分布在哪几个区域,
可以看得出来,在长三角和珠三角这两片区域聚集了大量热爱该部剧的粉丝。
3、评论分析
在整理和分析了评论内容之后,小编首先是对包含剧中人物的评论做了归类,并通过直方图来呈现,

从直方图中我们可以看到,范闲和庆帝是被提到的次数最多的两位人物,接下去便是林婉儿和长公主(毕竟人家皮肤这么好,看着一点都像40多岁的女性?)。既然张若昀在剧中的人气这么高,小编便对针对范闲的评论做了进一步的探索,并用wordcloud库绘制词云图。从词云的分析情况来看,“剧情”,“搞笑”,“演技”,“原著”等字眼格外的醒目。
的确,这部剧不仅仅是剧情有趣,每一个演员演技还相当在线,该部剧不仅有张若昀、李沁、肖战等青年演员,还有一大批演技精湛的老戏骨参演,其中7名是国家一级演员,(“一级演员”是文艺界设立的专业技术职称,是国家对演员的最高职称享受国务院特殊津贴。能获得国家一级演员的称号是莫大的荣誉)。
剧情精彩不拖沓,主演专业不尴尬,人物设定完美,剧中台词又不时会诞生各种金句和表情包,于情于理《庆余年》确实很难不火。
而《庆余年》的第二季也很快会开始拍摄,这下喜欢该剧的观众和粉丝可以期待一下了!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10