文章详情页

python获取百度热榜链接的实例方法

浏览：2日期：2022-07-13 10:27:02

目标网址：

https://www.baidu.com/

要获取的内容：

python获取百度热榜链接的实例方法

链接分析：

从下图可以看出只需要获取关键字，再构建就可以了。

python获取百度热榜链接的实例方法

完整代码：

import requestsimport pprintimport reimport urllib.parseurl = ’https://www.baidu.com/’headers = { ’Host’: ’www.baidu.com’, ’Referer’: ’https://www.baidu.com/’, ’User-Agent’: 你的User-Agent, ’Cookie’: 你的Cookie}response = requests.get(url, headers=headers).content.decode(’utf-8’)# 获取关键字pat = ’'pure_title': '(.*?)'’keyword = re.findall(pat, response, re.S)print(len(keyword))for hot_word in keyword: # 汉字不符合url标准，所以这里需要进行url编码 i = urllib.parse.quote(hot_word, encoding=’utf-8’, errors=’replace’) # url构建 link = f’https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1’ print(link)

你会发现结果很长：

python获取百度热榜链接的实例方法

但其实关键字后面的几个参数是可以去掉的，这样url就没有那么长了。

python获取百度热榜链接的实例方法

内容扩展：

python 爬取简单的百度搜索结果

爬取百度搜索结果

主要还要借助xpath helper谷歌浏览器的插件来操作更容易找到需要查找信息的xpath位置

还要首先了解一下百度搜索请求的参数 lm默认为0，天数限制，但是好像只有1有用。

默认每页10条信息，rn

pn是页码

from lxml import etreeimport reimport requestsimport stringimport jsonheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'}response = requests.get(’https://www.baidu.com/s?wd=腾讯视频优惠&lm=1’,headers=headers)r = response.texthtml = etree.HTML(r,etree.HTMLParser())r1 = html.xpath(’//h3’)r2 = html.xpath(’//*[@class='c-abstract']’)r3 = html.xpath(’//a[@class='c-showurl']’)for i in range(10) : r11 = r1[i].xpath(’string(.)’) r22 = r2[i].xpath(’string(.)’) r33 = r3[i].xpath(’string(.)’) # with open(’test.txt’, ’a’, encoding=’utf-8’) as f: # f.write(json.dumps(r11,ensure_ascii=False) + ’n’) # f.write(json.dumps(r22, ensure_ascii=False) + ’n’) # f.write(json.dumps(r33, ensure_ascii=False) + ’n’) print(r11,end=’n’) print(r22,end=’n’) print(r33) print()

到此这篇关于python获取百度热榜链接的实例方法的文章就介绍到这了,更多相关教你用python获取百度热榜链接内容请搜索好吧啦网以前的文章或继续浏览下面的相关文章希望大家以后多多支持好吧啦网！

百度 Python

上一条：详解python变量与数据类型下一条：python实现自动清理重复文件

相关文章：

1. ASP中if语句、select 、while循环的使用方法2. asp下利用xml打包网站文件3. ASP实现加法验证码4. XML入门的常见问题(二)5. 解析原生JS getComputedStyle6. css进阶学习选择符7. XML相关技术资料8. ASP基础入门第八篇（ASP内建对象Application和Session）9. CSS hack用法案例详解10. 小技巧处理div内容溢出

排行榜

					
					XML入门的常见问题(二)
asp下利用xml打包网站文件
Javascript实现关闭广告效果
从Java开发者的视角解释JavaScript
JS算法题解旋转数组方法示例
Python实现拼音转换
springboot实现异步任务
vuejs element table 表格添加行,修改,单独删除行,批量删除行操作
Python绘制雷达图时遇到的坑的解决
用JAVA实现单链表，检测字符串是否是回文串
java中i=i++和j=i++的区别小结
				

热门标签