
数据解析的三种方式
re:regular expression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则。抓取的页面源代码本质是一个很长的字符串,因此可以用正则表达式。
元字符:具有固定含义的特殊字符,默认只匹配一个字符串。
常见的元字符:
| 元字符 | 含义 |
|---|---|
| . | 匹配除换行符以外的任意字符 |
| w | 匹配字母或数字或下划线 |
| s | 匹配任意的空白符 |
| d | 匹配数字 |
| t | 匹配一个制表符 |
| ^ | 匹配字符串的开始 |
| $ | 匹配字符串的结尾 |
| W | 匹配非字母或数字或下划线 |
| D | 匹配非数字 |
| S | 匹配非空白符 |
| ab | 匹配字符a或字符b |
| () | 匹配括号内的表达式,也表示一个组 |
| […] | 匹配字符组中的字符 |
| [^…] | 匹配除了字符组中的所有字符 |
量词:用来控制元字符出现的次数
| 量词 | 含义 |
|---|---|
| * | 重复零次或更多次 |
| + | 重复一次或更多次 |
| ? | 重复零次或一次 |
| {n} | 重复n次 |
| {n,} | 重复n次或更多次 |
| {n,m} | 重复n次到m次 |
贪婪匹配和惰性匹配
| 字符 | 类型 | 含义 |
|---|---|---|
| .* | 贪婪匹配 | 尽可能多得匹配 |
| .*? | 惰性匹配 | 尽可能少得匹配 |
1.findall用于匹配字符串中所有的符合正则的内容
import re
lst = re.findall(r"d+","我的电话是:10086,你的电话是:10088")
print(lst)
结果:
['10086', '10088']
2.finditer匹配字符串中所有的内容,返回的是迭代器,从迭代器中拿到内容需要.group()
import re
it = re.finditer(r"d+","我的电话是:10086,你的电话是:10088")
for i in it :up())
结果:
10086
10010
3.search返回的是match对象,找到一个结果就返回,拿数据需要.group()
import re
s = re.search(r"d+","我的电话是:10086,你的电话是:10088")
up())
结果:
10086
4.match是从头开始匹配
import re
s = re.match(r"d+","我的电话是:10086,你的电话是:10088")
up())s = re.match(r"d+","10086,你的电话是:10088")
up())
结果:
第一个报错:nonetype第二个:10086
5.预加载正则表达式
import re
obj = repile(r"d+")it = obj.finditer("我的电话是:10086,你的电话是:10088")
for i in it :up())
结果:
10086
10088
6.单独获取正则中的内容
(?P<分组名字>正则)进一步提取正则中的内容
import re
s = """
<div class='jay'><span id='1'>周杰伦</span></div>
<div class='jj'><span id='2'>林俊杰</span></div>
<div class='jolin'><span id='3'>蔡依林</span></div>
"""
#re.S:让.能匹配换行符
obj = repile(r"<div class='.*?'><span id='(?P<id>d)+'>(?P<singer>.*?)</span></div>",re.S)result = obj.finditer(s)
for it in result:up("singer"))up("id"))
结果:
周杰伦
1
林俊杰
2
蔡依林
3
本文发布于:2024-01-29 05:37:55,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170647788013076.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
| 留言与评论(共有 0 条评论) |