文章详情页

Python通过正则库爬取淘宝商品信息代码实例

【字号：大中小】日期：2022-08-04 18:12:50浏览：4作者：猪猪

使用正则库爬取淘宝商品的商品信息，首先我们需要确定想要爬取的对象

我们在淘宝里搜索“python”,出来的结果

从url连接中可以得到搜索商品的关键字是“q=”，所以我们要用的起始url为：https://s.taobao.com/search?q=python

然后翻页，经过对比发现，翻页后，变化的关键字是s，每次翻页，s便以44的倍数增长（可以数一下每页显示的商品数量，刚好是44）所以可以根据关键字“s=”，来设置爬取的深度（爬取多少页）

右键查看源码，商品名称可能的关键字是“title”和“raw_title”，进一步多看几个商品的名称，发现选取“raw_title”比较合适；商品价格自然就是“view_price”(通过比对淘宝商品展示页面)；所以商品名称和商品价格分别是以'raw_title':'名称'和'view_price':'价格'，这样的键/值对的形式展示的。

# coding:utf-8import requestsimport regoods = ’水杯’url = ’https://s.taobao.com/search?q=’ + goodsr = requests.get(url=url, timeout=10)html = r.texttlist = re.findall(r’'raw_title':'.*?'’, html) # 正则提取商品名称plist = re.findall(r’'view_price':'[d.]*'’, html) # 正则提示商品价格print(tlist)print(plist)print(type(plist)) # 正则表达式提取出的商品名称和商品价格都是以列表形式存储数据的

利用for循环，把每个商品的名称和价格组成一个列表，然后把这写列表再追加到一个大列表中：

goodlist = []for i in range(len(tlist)): title = eval(tlist[i].split(’:’)[1]) # eval()函数简单说就是用于去掉字符串的引号 price = eval(plist[i].split(’:’)[1]) goodlist.append([title, price]) # 把每个商品的名称和价格组成一个小列表，然后把所有商品组成的列表追加到一个大列表中 print(goodlist)

大概的思路就是这样的。

def get_html(url): '''获取源码html''' try: r = requests.get(url=url, timeout=10) r.encoding = r.apparent_encoding return r.text except: print('获取失败')def get_data(html, goodlist): '''使用re库解析商品名称和价格 tlist:商品名称列表 plist:商品价格列表''' tlist = re.findall(r’'raw_title':'.*?'’, html) plist = re.findall(r’'view_price':'[d.]*'’, html) for i in range(len(tlist)): title = eval(tlist[i].split(’:’)[1]) # eval()函数简单说就是用于去掉字符串的引号 price = eval(plist[i].split(’:’)[1]) goodlist.append([title, price])def write_data(list, num): # with open(’E:/Crawler/case/taob2.txt’, ’a’) as data: # print(list, file=data) for i in range(num): # num控制把爬取到的商品写进多少到文本中 u = list[i] with open(’E:/Crawler/case/taob.txt’, ’a’) as data: print(u, file=data)def main(): goods = ’水杯’ depth = 3 # 定义爬取深度，即翻页处理 start_url = ’https://s.taobao.com/search?q=’ + goods infoList = [] for i in range(depth): try: url = start_url + ’&s=’ + str(44 * i) # 因为淘宝显示每页44个商品，第一页i=0,一次递增 html = get_html(url) get_data(html, infoList) except: continue write_data(infoList, len(infoList))if __name__ == ’__main__’: main()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持好吧啦网。

淘宝 Python

上一条：python实现字符串和数字拼接下一条：基于Python爬取爱奇艺资源过程解析

相关文章：

1. CSS hack用法案例详解2. CSS可以做的几个令你叹为观止的实例分享3. xpath简介_动力节点Java学院整理4. UDDI FAQs5. 使用Spry轻松将XML数据显示到HTML页的方法6. 低版本IE正常运行HTML5+CSS3网站的3种解决方案7. 三个不常见的 HTML5 实用新特性简介8. CSS 使用Sprites技术实现圆角效果9. XML入门精解之结构与语法10. HTML <!DOCTYPE> 标签

排行榜

					
					将properties文件的配置设置为整个Web应用的全局变量实现方法
VMware中如何安装Ubuntu
IntelliJ IDEA导入jar包的方法
idea打开多个窗口的操作方法
Django中如何使用Channels功能
PHP的FTP学习（一）
el-table表格动态合并相同数据单元格(可指定列+自定义合并)
PHP字符串前后字符或空格删除方法介绍
ASP基础知识Command对象讲解
UDDI FAQs
jsp EL表达式详解
				

热门标签