如何用 Python 爬取自己的微信朋友 -CDA数据分析师官网

热线电话：13121318867

如何用 Python 爬取自己的微信朋友

2018-01-10

如何用 Python 爬取自己的微信朋友

微信作为一款拥有将近9亿用户的超级APP，已经成为很多人生活中不可或缺的一部分，聊天、分享动态、阅读资讯、购物支付……微信就像一张移动互联网的身份证，拥有它就能在移动互联的世界行止由心。本文作者利用 Python 爬取了自己微信好友的信息后，像打开了一扇新世界的大门。一起来围观他的爬取过程吧。

昨晚偶然了解到 Python 里的 itchat 包，它已经完成了 wechat 的个人账号 API 接口，使爬取个人微信信息更加方便。鉴于自己很早之前就想知道诸如自己微信好友性别比例都来自哪个城市之类的问题，于是乎玩心一起，打算爬一下自己的微信。

首先，在终端安装一下 itchat 包。

安装完成后导入包，再登陆自己的微信。过程中会生产一个登陆二维码，扫码之后即可登陆。登陆成功后，把自己好友的相关信息爬下来。

有了上面的 friends 数据，我们就可以来做分析啦。

自己微信好友的男女比例

仔细观察了一下返回的数据结构，发现”性别“是存放在一个字典里面的，key 是”Sex“，男性值为 1，女性为 2，其他是不明性别的(就是没有填的)。可以写个循环获取想要的性别数据，得到自己微信好友的性别比例。

打印的结果为：

男性好友：37.65%

女性好友：59.23%

不明性别好友：3.12%

啊，一不小心就暴露了自己女性朋友比较多的事实。然而为什么我现在还是一只汪?!好了，再把这个数据用R画成图看看(Python 作图真的是忍不了，代码就不放了)：

自己微信好友的城市分布

再仔细观察 friends 列表，发现里面还包含了好友昵称、省份、城市、个人简介等等的数据，刚好可以用来分析好友城市分布，最好的方式是定义一个函数把数据都爬下来，存到数据框里，再进行分析。

以上便得到一个叫 data 的 csv 桌面文件，用 R 打开并简单做一下数据预处理，得到如下(涉及隐私的已被预处理)：

接着先根据省份、城市进行数据的分组和聚合，选择排名前二十的，利用 ggplot2 包画出如下的城市分布图(代码太长，不放了，就是这么任性，有需要参考的直接向我拿)：

看来我大部分的朋友都是在广东的(不是废话吗)，其中广东的朋友大部分集中在广、深、珠，第二名是在奥克兰，接着是四川、澳门等。灰色的 NA 值是指没有设置自己所在地的朋友，一共有 70 多人。

另外，在国外的朋友由于微信的设置问题(很多是直接跳过省份，只有城市可以选择的)，很多国外的城市被误当成了省份。

再来一张图看看自己微信朋友在广东的具体分布(取前八)：

自己微信好友个性签名的自定义词云图

好玩的来了。之前已经爬下了每个好友的个性签名，刚好可以分析一下大伙儿个性签名时使用的高频词语是什么，顺便可以做个词云图。

先把原先爬下来的个性签名(Signature)打印出来，发现有很多本来是表情的，变成了 emoji、span、class 等等这些无关紧要的词，需要先替换掉，另外，还有类似<>/= 之类的符号，也需要写个简单的正则替换掉，再把所有拼起来，得到 text 字串。

接着就可以把 JB，啊不，把结巴分词这个包搞进来分词。

终于可以进入画图阶段了。可以根据自己想要的图片、形状、颜色画出相似的图形(在这里，我使用的是我的头像，当然，为了颜色可以更加鲜艳使最后画出的词云图更加好看易辨，我先对自己的头像用 PS 做了一点小处理)。为此，我们需要把 matplotlib、wordcloud、numpy、PIL 等包搞进来。

运行上面的代码，得到下面的图：

看来，在我的微信好友的个人签名里，有人善于聆听，有人强调善良，有人重视灵魂，有人凝视人生。一直在等待，不放弃寻找。历尽曲折，不畏虚伪。真心如一，不能辜负。一步一生多努力，一起一切 one more dream(真编不下去了)。

最后

以上是不是很有趣呢?是不是又打开了一扇新世界的大门呢?

我微信好友也不是太多，如果微信好友有几千个，可以得到几千条数据，分析一下还是很有价值的。

当然，itchat 包还有很多其他的功能还有待发掘，包括自动回复微信信息、自动添加好友、管理微信群等，有时间再慢慢摸索吧。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

numpy matplotlib

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇到2020年，智能手机将拥有的十项AI功能

下一篇数据如何为新零售赋能

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

如何用 Python 爬取自己的微信朋友

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

CDA 持证人专访：刘燕谈数据分析师业务落地与项目实 ...

【CDA干货】数据清洗核心技术体系：缺失值填充、去 ...

从“数据”到“洞察”：CDA数据分析师视角下的统计 ...

【CDA干货】指标生命周期全链路管理：从规划设计到 ...

【CDA干货】留存运营指标体系：计算口径、分析方法 ...

从“工具操作”到“方法驾驭”：CDA数据分析师视角 ...

CDA 持证人专访：杨迅谈保险行业数据产品与数据中台 ...

【CDA干货】MySQL分表数据读取：核心方案、查询优化 ...

从“凭感觉”到“有章法”：CDA数据分析师视角下的 ...

【CDA干货】面板数据聚类分析：方法原理、实操流程 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

CDA “暑期学生报名送教材” 活动已开启！ ...

【CDA干货】金融行业运营风险监测：核心统计分析方 ...

【CDA干货】基于数据分析的财险潜在客户挖掘与精准 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：何显臻谈餐饮行业数据分析与生产管 ...

【CDA干货】如何利用统计学方法开展数据分析：流程 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】箱线图上下限计算原理、标准流程与异常 ...

【CDA干货】MySQL固定时间间隔数据查询：语法原理、 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载