python3爬虫（二）

阅读：评论：0

python3爬虫（二）

HTML常用标签

Beautiful Soup简介

简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器，为用户灵活地提供不同的解析策略或强劲的速度。

Beautiful Soup四大对象

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

Tag
NavigableString
BeautifulSoup
Comment

创建Beautiful Soup对象

from bs4 import BeautifulSoup
from urllib import requesthtml = request.urlopen("/")  
bs=BeautifulSoup(html,"lxml")    #将html对象转化为BeautifulSoup对象

Tag

Tag通俗点讲就是HTML中的一个个标签，下面我们来感受一下怎样用 Beautiful Soup 来方便地获取 Tags。
我们可以利用 soup加标签名轻松地获取这些标签的内容，是不是感觉比正则表达式方便多了？不过有一点是，它查找的是在所有内容中的第一个符合要求的标签

print(bs.title)

<title>豆瓣电影
</title>

print(bs.head)

只写一部分返回

<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="webkit" name="renderer"/>
<meta content="always" name="referrer"/>
<title>豆瓣电影
</title>
<meta content="cZdR4xxR7RxmM4zE" name="baidu-site-verification"/>
<

本文发布于:2024-02-04 14:24:37，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170709276956349.html

上一篇：python爬虫之beautiful soup的使用

下一篇：Python+Flask+Mysql基于python环境下智能物业管理系统29696

标签：爬虫

留言与评论（共有 0 条评论）