文章详情页

面向新手解析python Beautiful Soup基本用法

浏览：5日期：2022-07-17 18:38:20

Beautiful Soup就是Python的一个HTML或XML的解析库，可以用它来方便地从网页中提取数据。它有如下三个特点：

Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为UTF-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时你仅仅需要说明一下原始编码方式就可以了。 Beautiful Soup已成为和lxml、html6lib一样出色的Python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

首先，我们要安装它：pip install bs4,然后安装 pip install beautifulsoup4.

Beautiful Soup支持的解析器

面向新手解析python Beautiful Soup基本用法

下面我们以lxml解析器为例：

from bs4 import BeautifulSoupsoup = BeautifulSoup(’<p>Hello</p>’, ’lxml’)print(soup.p.string)

结果：

Hello

beautiful soup美化的效果实例：

结果：

<html> <head> <title> The Dormouse’s story </title> </head> <body> <p name='dromouse'> <b> The Dormouse’s story </b> </p> <p class='story'> Once upon a time there were three little sisters; and their names were <a href='http://example.com/elsie' rel='external nofollow' rel='external nofollow' rel='external nofollow' id='link1'>  </a> , <a href='http://example.com/lacie' rel='external nofollow' rel='external nofollow' rel='external nofollow' id='link2'> Lacie </a> and <a href='http://example.com/tillie' rel='external nofollow' rel='external nofollow' rel='external nofollow' id='link3'> Tillie </a> ;and they lived at the bottom of a well. </p> <p class='story'> ... </p> </body></html>The Dormouse’s story

下面举例说明选择元素、属性、名称的方法

html = '''<html><head><title>The Dormouse’s story</title></head><body><p name='dromouse'><b>The Dormouse’s story</b></p><p class='story'>Once upon a time there were three little sisters; and their names were<a href='http://example.com/elsie' rel='external nofollow' rel='external nofollow' rel='external nofollow' id='link1'></a>,<a href='http://example.com/lacie' rel='external nofollow' rel='external nofollow' rel='external nofollow' id='link2'>Lacie</a> and<a href='http://example.com/tillie' rel='external nofollow' rel='external nofollow' rel='external nofollow' id='link3'>Tillie</a>;and they lived at the bottom of a well.</p><p class='story'>...</p>'''from bs4 import BeautifulSoupsoup = BeautifulSoup(html, ’lxml’)print(’输出结果为title节点加里面的文字内容:n’,soup.title)print(’输出它的类型:n’,type(soup.title))print(’输出节点的文本内容:n’,soup.title.string)print(’结果是节点加其内部的所有内容:n’,soup.head)print(’结果是第一个p节点的内容:n’,soup.p)print(’利用name属性获取节点的名称:n’,soup.title.name)#这里需要注意的是，有的返回结果是字符串，有的返回结果是字符串组成的列表。# 比如，name属性的值是唯一的，返回的结果就是单个字符串。# 而对于class，一个节点元素可能有多个class，所以返回的是列表。print(’每个节点可能有多个属性，比如id和class等:n’,soup.p.attrs)print(’选择这个节点元素后，可以调用attrs获取所有属性：n’,soup.p.attrs[’name’])print(’获取p标签的name属性值：n’,soup.p[’name’])print(’获取p标签的class属性值：n’,soup.p[’class’])print(’获取第一个p节点的文本:n’,soup.p.string)

结果：

输出结果为title节点加里面的文字内容:<title>The Dormouse’s story</title>输出它的类型:<class ’bs4.element.Tag’>输出节点的文本内容:The Dormouse’s story结果是节点加其内部的所有内容:<head><title>The Dormouse’s story</title></head>结果是第一个p节点的内容:<p name='dromouse'><b>The Dormouse’s story</b></p>利用name属性获取节点的名称:title每个节点可能有多个属性，比如id和class等:{’class’: [’title’], ’name’: ’dromouse’}选择这个节点元素后，可以调用attrs获取所有属性：dromouse获取p标签的name属性值：dromouse获取p标签的class属性值：[’title’]获取第一个p节点的文本:The Dormouse’s story

在上面的例子中，我们知道每一个返回结果都是bs4.element.Tag类型，它同样可以继续调用节点进行下一步的选择。

html = '''<html><head><title>The Dormouse’s story</title></head><body>'''from bs4 import BeautifulSoupsoup = BeautifulSoup(html, ’lxml’)print(’获取了head节点元素，继续调用head来选取其内部的head节点元素:n’,soup.head.title)print(’继续调用输出类型：n’,type(soup.head.title))print(’继续调用输出内容：n’,soup.head.title.string)

结果：

获取了head节点元素，继续调用head来选取其内部的head节点元素: <title>The Dormouse’s story</title>继续调用输出类型： <class ’bs4.element.Tag’>继续调用输出内容： The Dormouse’s story

（1）find_all()

find_all，顾名思义，就是查询所有符合条件的元素。给它传入一些属性或文本，就可以得到符合条件的元素，它的功能十分强大。

find_all(name , attrs , recursive , text , **kwargs)

他的用法：

html=’’’<div class='panel'> <div class='panel-heading'> <h4>Hello</h4> </div> <div class='panel-body'> <ul id='list-1'> <li class='element'>Foo</li> <li class='element'>Bar</li> <li class='element'>Jay</li> </ul> <ul id='list-2'> <li class='element'>Foo</li> <li class='element'>Bar</li> </ul> </div></div>’’’from bs4 import BeautifulSoupsoup = BeautifulSoup(html, ’lxml’)print(’查询所有ul节点，返回结果是列表类型，长度为2:n’,soup.find_all(name=’ul’))print(’每个元素依然都是bs4.element.Tag类型:n’,type(soup.find_all(name=’ul’)[0]))#将以上步骤换一种方式，遍历出来for ul in soup.find_all(name=’ul’): print(’输出每个u1:’,ul.find_all(name=’li’))#遍历两层for ul in soup.find_all(name=’ul’): print(’输出每个u1:’,ul.find_all(name=’li’)) for li in ul.find_all(name=’li’): print(’输出每个元素：’,li.string)

结果：

查询所有ul节点，返回结果是列表类型，长度为2: [<ul id='list-1'><li class='element'>Foo</li><li class='element'>Bar</li><li class='element'>Jay</li></ul>, <ul id='list-2'><li class='element'>Foo</li><li class='element'>Bar</li></ul>]每个元素依然都是bs4.element.Tag类型: <class ’bs4.element.Tag’>输出每个u1: [<li class='element'>Foo</li>, <li class='element'>Bar</li>, <li class='element'>Jay</li>]输出每个u1: [<li class='element'>Foo</li>, <li class='element'>Bar</li>]输出每个u1: [<li class='element'>Foo</li>, <li class='element'>Bar</li>, <li class='element'>Jay</li>]输出每个元素： Foo输出每个元素： Bar输出每个元素： Jay输出每个u1: [<li class='element'>Foo</li>, <li class='element'>Bar</li>]输出每个元素： Foo输出每个元素： Bar

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持好吧啦网。

Python 编程

上一条：Python QTimer实现多线程及QSS应用过程解析下一条：基于python实现判断字符串是否数字算法

相关文章：

1. Python使用oslo.vmware管理ESXI虚拟机的示例参考2. Express 框架中使用 EJS 模板引擎并结合 silly-datetime 库进行日期格式化的实现方法3. 一篇文章带你了解JavaScript-对象4. javascript设计模式 ? 建造者模式原理与应用实例分析5. IntelliJ IDEA设置条件断点的方法步骤6. Java构建JDBC应用程序的实例操作7. ThinkPHP5 通过ajax插入图片并实时显示(完整代码)8. python flask框架快速入门9. Spring应用抛出NoUniqueBeanDefinitionException异常的解决方案10. 浅谈SpringMVC jsp前台获取参数的方式 EL表达式

排行榜

					
					Java构建JDBC应用程序的实例操作
ThinkPHP5 通过ajax插入图片并实时显示(完整代码)
Python使用oslo.vmware管理ESXI虚拟机的示例参考
一篇文章带你了解JavaScript-对象
Express 框架中使用 EJS 模板引擎并结合 silly-datetime 库进行日期格式化的实现方法
javascript设计模式 ? 建造者模式原理与应用实例分析
IntelliJ IDEA设置条件断点的方法步骤
Spring应用抛出NoUniqueBeanDefinitionException异常的解决方案
idea设置自动导入依赖的方法步骤
IDEA EasyCode 一键帮你生成所需代码
python flask框架快速入门
				

热门标签