
利用Beautiful Soup模块,
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。
Beautiful Soup 的中文文档:
.zh.html#Printing%20a%20Document
程序:
#!/usr/bin/env python
#coding=utf-8
import re
import urllib2
from BeautifulSoup import BeautifulSoup
website = raw_input("请输入网址: ")
page = urllib2.urlopen(website).read()
html = BeautifulSoup(page,fromEncoding="gbk")
h = html.body.findAll(repile('h4|h5'))
for i in h:if re.search('h4',str(i)):print '--大类--:',i.stringelif re.search('h5',str(i)):tag = i.contents[0].contents[0]print tag 运行结果:
请输入网址: .htm --大类--: 女装男装 女式上装 女式裤子 女式裙子 其他女装 当季男装 男式裤子 男式上装 其他男装 --大类--: 鞋类箱包 春秋女鞋 夏季女鞋 春秋男鞋 夏季男鞋 特色市场 精品女包 精品男包 功能箱包 --大类--: 内衣配饰 内衣分类 内衣品牌 服装配饰 热门搜索 --大类--: 运动户外 运动鞋 运动服 运动包 户外运动用品 运动/瑜伽/健身/球迷用品 --大类--: 珠宝手表 珠宝钻石 品牌手表 流行饰品 其他配饰 --大类--: 数码 手机 相机/DV 笔记本 平板电脑 电脑周边 办公设备 网络存储 数码配件 --大类--: 家电办公 大家电 厨房电器 生活电器 影音电器 护理按摩 家电配件 --大类--: 护肤彩妆 美容护肤 彩妆香水 美发护发 热门品牌 --大类--: 母婴用品 童装 孕妇用品 新生儿 宝宝食品 宝宝用品 儿童玩具 --大类--: 家居建材 家装主材 住宅家具 家居饰品 家纺布艺 五金电工 装修设计 --大类--: 美食特产 休闲零食 营养品 有机食品 粮油米面 茶/饮料 水果蔬菜 --大类--: 日用百货 收纳整理 居家日用 餐饮用具 洗护清洁 成人用品 --大类--: 汽车摩托 汽车用品 摩托车 --大类--: 文化玩乐 书籍杂志 音像影视 乐器 古董收藏 鲜花园艺 宠物水族 个性定制 成人用品 --大类--: 本地生活 生活超市 生活服务 订餐服务 餐饮美食 卡券消费 电影演出 面包蛋糕 休闲娱乐 --大类--: 虚拟 淘宝网厅 淘宝游戏 淘宝旅行 淘宝保险
转载于:.html
本文发布于:2024-03-10 05:08:11,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/1710347341137894.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
| 留言与评论(共有 0 条评论) |