京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者:闲欢
来源:Python 技术
2021年已经过去了,但是这一年发生了很多令人难忘的事情,相信每个人心目中都有很多感慨。
为了回顾2021年都发生了哪些大事,我打算从热搜下手,看看2021年都有哪些热搜事件。
大家都知道,微博热搜是实时更新的,并且没有历史记录,所以从微博的网站上找不到历史的热搜数据。我们只能另想它法了。经过我不懈的摸索,终于找到了一个网站,它记录了每日的微博实时热搜,并且是一分钟一次。也可以在网站上通过日期查询当天的数据。
有了目标网站就好说,我们想办法从目标网站下载数据就好。这个网站提供了付费下载数据的方式。我这里为了给大家演示使用 Python 爬虫爬取数据,就不付费下载了。
网站的请求也比较简单,大家打开网页的开发工具,可以很快定位到获取请求的 URL 。这里就不赘述了,直接上代码:
headers = { "Host": "google-api.zhaoyizhe.com", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36" } def scrapy(date): print('开始爬取%s' % date)
url = 'https://google-api.zhaoyizhe.com/google-api/index/mon/sec?date=%s' % date try:
time.sleep(random.randint(1, 3))
res = requests.get(url, headers=headers).json()
result = res['data'] return result except Exception as err:
print(err) return None
我们定义一个爬取的函数,通过传入日期来爬取一天的热搜数据。整个2021年的数据我们只需要循环请求每一天即可。
整个数据下载下来一共12万多条:
分析热点事件,最好的方法就是把这些事件描述制作成词云,突出显示的就是最热门的,一目了然。
def gen_wc_split_text(data_list=[], max_words=None, background_color=None, # font_path='/System/Library/Fonts/PingFang.ttc', font_path=r'C:WindowsFontssimhei.ttf',
output_path='', output_name='',
mask_path=None, mask_name=None,
width=400, height=200, max_font_size=100, axis='off'): stopwords = open(r'c:pworkspacemypypythontechweibohotstopwords.txt', 'r', encoding='utf-8').read().split('n')[:-1]
words_dict = {} for data in data_list:
text = data['topic']
hotNumber = data['hotNumber'] if hotNumber is None:
hotNumber = 1 all_seg = jieba.cut(text, cut_all=False) for seg in all_seg: if seg in stopwords or seg == 'unknow': continue if seg in words_dict.keys():
words_dict[seg] += hotNumber else:
words_dict[seg] = hotNumber # 设置一个底图 mask = None if mask_path is not None:
mask = np.array(Image.open(path.join(mask_path, mask_name)))
wordcloud = WordCloud(background_color=background_color,
mask=mask,
max_words=max_words,
min_font_size=15,
max_font_size=80,
width=300,
height=400, # 如果不设置中文字体,可能会出现乱码 font_path=font_path)
myword = wordcloud.generate_from_frequencies(words_dict) # 展示词云图 # plt.imshow(myword) # plt.axis(axis) # plt.show() # 保存词云图 wordcloud.to_file(path.join(output_path, output_name))
制作词云我们选择试用 jieba 分词,使用我们熟悉的 wordcloud 来制作词云。
我们先来看看2021年全年的词云图片:
看着这张词云图片,是不是有好多熟悉的词汇?
接下来,我们按月份来统计热门事件,具体需要做的就是将每个月的热搜事件归集起来,然后根据热度以及出现频率叠加,来输出词云。
代码还是跟上面类似,只不过是将事件按月分类而已。
我们直接来看每个月的图片吧。
2021年在疫情中开启,在大家喊着“告别2020,开启2021”时,石家庄疫情爆发,进入战时状态。
薇娅也在这个月开始直播年货。
最后以陈翔出轨关晓彤导致工作室互怼结束。
这个月最热门的事件肯定是我们的传统春节了。
贾玲的导演处女作《你好,李焕英》,一上映就口碑炸裂。
这个月我们失去了两位明星,分别是赵英俊和吴孟达,一个时代的记忆就此落幕。
这个月明星白敬亭出尽风头。
HM、耐克等众多我们熟知的国外品牌抵制新疆棉花,遭到央视点评,全民愤怒。
这个月中美高层对话,71岁的杨洁篪老爷子怒怼东道主美国。
4月,各地大规模全员动员打疫苗。
也是这个月,日本宣布把福岛核废水排进太平洋。
这个月赵丽颖和冯绍峰宣布离婚,明星事件真是层出不穷。
最令人痛心的事件是杂交水稻之父袁老爷子走了,举国哀悼。
而就在同一天,“中国肝胆外科之父”吴孟超院士也去世了。
5月20日,全网盼离的佟丫丫,终于宣布和陈思诚离婚。
6月的大事件当属高考。
这个月,汪小菲和大S频上热搜。
这个月,神舟十二号飞船成功发射,3名航天员飞到了“天宫”。
这个月,河南郑州暴雨成灾,举国瞩目。
这个月,东京奥运会开幕,林丹和李宗伟一起看奥运。
这个月,吴亦凡翻车,都美竹爆料,网友又多了一个“吴签”的梗。
这个月,奥运会捷报频传,全红婵、苏炳添进入大众视野。
吴亦凡事件继续发酵,都美竹对吴亦凡的指控成真让他成为内娱被刑拘爱豆第一人。
演员张哲瀚被爆出进入靖国神社内部,拍摄多张开心比“耶”的照片,刚翻红就掉下去了。
孟晚舟在被困加拿大近三年后,终于回国。
体育盛事全运会刷屏。
全国人民中秋节一起吃月饼赏月。
国庆档大片《长津湖》打破8项影史记录。
知名钢琴家李云迪嫖娼被抓。朝阳群众又立一功。
上海一个独居女孩,被装进行李箱抛尸。
电竞战队EDG再夺冠,轰动全球。
上海迪士尼几万人封园做核酸。
双十一,董明珠隆重推出22岁的女助理孟羽童,“明珠羽童精选”直播间开播。
娱乐圈优质偶像王力宏被曝渣男,彻底崩塌。
直播女王薇娅因偷漏税被罚了13.4亿。吃瓜群众惊呼,原来直播这么暴力。
西安出现“多源头不明的点状社区传播”,紧急“封城”。
2021年是不平凡的一年,这一年,我们见证了太多。新冠疫情始终是笼罩我们上空的一团乌云。在这个特别的年份里,娱乐圈也是精彩不断,各种离婚事件层出不穷,几大优质形象瞬间成渣。
2022年也将是不平凡的一年,愿疫情早点过去,世界和我们都能更好!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在神经网络模型搭建中,“最后一层是否添加激活函数”是新手常困惑的关键问题——有人照搬中间层的ReLU激活,导致回归任务输出异 ...
2025-12-05在机器学习落地过程中,“模型准确率高但不可解释”“面对数据噪声就失效”是两大核心痛点——金融风控模型若无法解释决策依据, ...
2025-12-05在CDA(Certified Data Analyst)数据分析师的能力模型中,“指标计算”是基础技能,而“指标体系搭建”则是区分新手与资深分析 ...
2025-12-05在回归分析的结果解读中,R方(决定系数)是衡量模型拟合效果的核心指标——它代表因变量的变异中能被自变量解释的比例,取值通 ...
2025-12-04在城市规划、物流配送、文旅分析等场景中,经纬度热力图是解读空间数据的核心工具——它能将零散的GPS坐标(如外卖订单地址、景 ...
2025-12-04在CDA(Certified Data Analyst)数据分析师的指标体系中,“通用指标”与“场景指标”并非相互割裂的两个部分,而是支撑业务分 ...
2025-12-04每到“双十一”,电商平台的销售额会迎来爆发式增长;每逢冬季,北方的天然气消耗量会显著上升;每月的10号左右,工资发放会带动 ...
2025-12-03随着数字化转型的深入,企业面临的数据量呈指数级增长——电商的用户行为日志、物联网的传感器数据、社交平台的图文视频等,这些 ...
2025-12-03在CDA(Certified Data Analyst)数据分析师的工作体系中,“指标”是贯穿始终的核心载体——从“销售额环比增长15%”的业务结论 ...
2025-12-03在神经网络训练中,损失函数的数值变化常被视为模型训练效果的“核心仪表盘”——初学者盯着屏幕上不断下降的损失值满心欢喜,却 ...
2025-12-02在CDA(Certified Data Analyst)数据分析师的日常工作中,“用部分数据推断整体情况”是高频需求——从10万条订单样本中判断全 ...
2025-12-02在数据预处理的纲量统一环节,标准化是消除量纲影响的核心手段——它将不同量级的特征(如“用户年龄”“消费金额”)转化为同一 ...
2025-12-02在数据驱动决策成为企业核心竞争力的今天,A/B测试已从“可选优化工具”升级为“必选验证体系”。它通过控制变量法构建“平行实 ...
2025-12-01在时间序列预测任务中,LSTM(长短期记忆网络)凭借对时序依赖关系的捕捉能力成为主流模型。但很多开发者在实操中会遇到困惑:用 ...
2025-12-01引言:数据时代的“透视镜”与“掘金者” 在数字经济浪潮下,数据已成为企业决策的核心资产,而CDA数据分析师正是挖掘数据价值的 ...
2025-12-01数据分析师的日常,常始于一堆“毫无章法”的数据点:电商后台导出的零散订单记录、APP埋点收集的无序用户行为日志、传感器实时 ...
2025-11-28在MySQL数据库运维中,“query end”是查询执行生命周期的收尾阶段,理论上耗时极短——主要完成结果集封装、资源释放、事务状态 ...
2025-11-28在CDA(Certified Data Analyst)数据分析师的工具包中,透视分析方法是处理表结构数据的“瑞士军刀”——无需复杂代码,仅通过 ...
2025-11-28在统计分析中,数据的分布形态是决定“用什么方法分析、信什么结果”的底层逻辑——它如同数据的“性格”,直接影响着描述统计的 ...
2025-11-27在电商订单查询、用户信息导出等业务场景中,技术人员常面临一个选择:是一次性查询500条数据,还是分5次每次查询100条?这个问 ...
2025-11-27