文章详情页

基于Python采集爬取微信公众号历史数据

浏览：15日期：2022-07-04 10:10:04

鲲之鹏的技术人员将在本文介绍一种通过模拟操作微信App的方式采集指定公众号的所有历史数据的方法。

通过我们抓包分析发现，微信公众号的历史数据是通过HTTP协议加载的，对应的API接口如下图所示，其中有四个关键参数（__biz、appmsg_token、pass_ticket以及Cookie）。

为了能够拿到这四个参数，我们需要模拟操作App，让其产生这些参数，然后我们再抓包获取。对于模拟App操作，前面我们曾介绍过通过Python模拟安卓App的方法(详见http://www.site-digger.com/html/articles/20180912/664.html)。对于HTTP集成抓包，前面我们曾介绍过Mitmproxy（详见http://www.site-digger.com/html/articles/20181109/682.html）。

我们需要模拟操作微信完成如下步骤：

1. 启动微信App

2. 点击'通讯录'

3. 点击'公众号'

4. 点击要采集的公众号

5. 点击右上角的用户图像图标

6. 点击'全部消息'

基于Python采集爬取微信公众号历史数据

此时，我们可以从https://mp.weixin.qq.com/mp/profile_ext?action=home的应答数据中捕获__biz、appmsg_token以及pass_ticket三个关键参数，以及请求头中的Cookie值。如下图所示。

基于Python采集爬取微信公众号历史数据

有了上述四个参数，我们就可以构造出获取历史文章列表的API请求，通过调用API接口直接获取数据（不需要再模拟App操作）。核心参数如下所示，通过改变offset参数，可以拿到所有历史数据。

# Cookie headers = {’Cookie’: ’rewardsn=; wxtokenkey=777; wxuin=584068438; devicetype=android-19; version=26060736; lang=zh_CN; pass_ticket=Rr8cO5c2******3tKGqe7aVZzV9TupvrK+1uHHmHYQGL2WFdKIE; wap_sid2=COKhxu4KElxckFZQ3QzTHU4WThEUk0zcWdrZjhGcUdYdEVSV3Y1X2NPWHNUakRrd1ZzMnpLTERpdE5rbmxjSTg******dlRBcUNRazZpOGxTZUVEQUTgNQJVO’} url = ’https://mp.weixin.qq.com/mp/profile_ext?’ data = {} data[’is_ok’] = ’1’ data[’count’] = ’10’ data[’wxtoken’] = ’’ data[’f’] = ’json’ data[’scene’] = ’124’ data[’uin’] = ’777’ data[’key’] = ’777’ data[’offset’] = ’0’ data[’action’] = ’getmsg’ data[’x5’] = ’0’ # 下面三个参数需要替换 # https://mp.weixin.qq.com/mp/profile_ext?action=home应答数据里会暴漏这三个参数 data[’__biz’] = ’MjM5MzQyOTM1OQ==’ data[’appmsg_token’] = ’993_V8%2BEmfVD7g%2FvMZ****4DNUJNFkg~~’ data[’pass_ticket’] = ’Rr8cO5c23ZngeQHRGy8E7gv*****pvrK+1uHHmHYQGL2WFdKIE’ url = url + urllib.urlencode(data)

以'数字工厂'这个微信公众号为例，采集过程运行截图如下所示：

基于Python采集爬取微信公众号历史数据

输出结果截图如下所示：

基于Python采集爬取微信公众号历史数据

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持好吧啦网。

微信 Python

上一条：Python环境配置实现pip加速过程解析下一条：Python基于execjs运行js过程解析

相关文章：

1. 得到XML文档大小的方法2. 低版本IE正常运行HTML5+CSS3网站的3种解决方案3. xml中的空格之完全解说4. asp中response.write("中文")或者js中文乱码问题5. 将properties文件的配置设置为整个Web应用的全局变量实现方法6. css进阶学习选择符7. Jsp中request的3个基础实践8. PHP字符串前后字符或空格删除方法介绍9. ASP中解决“对象关闭时,不允许操作。”的诡异问题……10. 利用CSS制作3D动画

排行榜

					
					IntelliJ IDEA删除类的方法步骤
源码解读Spring-Integration执行过程
Docker部署ELK7.3.0日志收集服务最佳实践
vue路由切换时取消之前的所有请求操作
利用CSS制作3D动画
Java Idea高效率配置技巧实例解析
低版本IE正常运行HTML5+CSS3网站的3种解决方案
asp中response.write("中文")或者js中文乱码问题
得到XML文档大小的方法
快速解决ajax返回值给外部函数的问题
Jsp中request的3个基础实践
				

热门标签