HTML常用标签
简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:
Tag
NavigableString
BeautifulSoup
Comment
创建Beautiful Soup对象
from bs4 import BeautifulSoup
from urllib import requesthtml = request.urlopen("/")
bs=BeautifulSoup(html,"lxml") #将html对象转化为BeautifulSoup对象
Tag通俗点讲就是HTML中的一个个标签,下面我们来感受一下怎样用 Beautiful Soup 来方便地获取 Tags。
我们可以利用 soup加标签名轻松地获取这些标签的内容,是不是感觉比正则表达式方便多了?不过有一点是,它查找的是在所有内容中的第一个符合要求的标签
print(bs.title)
<title>豆瓣电影
</title>
print(bs.head)
只写一部分返回
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="webkit" name="renderer"/>
<meta content="always" name="referrer"/>
<title>豆瓣电影
</title>
<meta content="cZdR4xxR7RxmM4zE" name="baidu-site-verification"/>
<
本文发布于:2024-02-04 14:24:37,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170709276956349.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |