BeautifulSoup实例

阅读: 评论:0

BeautifulSoup实例

BeautifulSoup实例

Beautiful Soup 4.4.0 中文文档:/

#coding:utf-8
from bs4 import BeautifulSoup
import requests, os
import urllib3
#禁用安全请求警告
urllib3.disable_warnings()

#===============以下是爬取博客园首页摘要====================
r&#("/")
#请求首页后获取整个html界面
blog&#t
#print(blog)
#用html.parser解析html
soup=BeautifulSoup(blog,"html.parser")

#获取所有标题日期,class属性为dayTitle,返回列表
times=soup.find_all(class_='dayTitle')

#获取所有摘要标题,class属性为postTitle
titles=soup.find_all(class_="postTitle")

#获取所有摘要内容,class属性为postCon
descs = soup.find_all(class_="postCon")
 
for i,j,k in zip(times,titles,descs):
    print(i.a.string)  #打印a标签的文本信息
    print(j.a.string)  
    print(ts[0])  #标签div的contents属性可以将标签的子节点以列表的方式输出,这里选取第一个

 

#===============以下是爬取糗事百科段子====================

r = ("/", verify=False)
qiubai = r.content
soup = BeautifulSoup(qiubai, "html.parser")
duanzi = soup.find_all(class_="content")
 
for i in duanzi:
    # 标签span的 contents 属性可以将标签的子节点以列表的方式输出
    duan = ts[0]  # 取第一个
    print(duan)

#==============以下是爬取网页图片,并保存到本地==============

r = (".html")
fengjing = r.content
soup = BeautifulSoup(fengjing, "html.parser")
# 找出所有的标签
images = soup.find_all(class_="lazy")
# print images  # 返回list对象
 
for i in images:
    try:
        jpg_rl = i["data-original"]   # 获取url 地址
        title = i["title"]           # 返回title名称

  #保存图片&#wd()这个方法可以获取当前脚本的路径&#打开图片的 url地址,content 方法返回的是二进制流文件,可以直接写到本地
        with wd()+"\jpg\"+title+'.jpg',"wb") as f:
            f.(jpg_rl).content)
    except:
        pass

转载于:.html

本文发布于:2024-02-06 16:27:14,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/1713179716208658.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:实例   BeautifulSoup
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23