爬虫（06）正则表达式下+csv入门 2020

阅读：评论：0

文章目录

第六章正则表达式下与csv入门
- 1. re常用方法
- - 1.1 compile()
  - 1.2 search()
  - 1.3 findall()
  - 1.4 split()
  - 1.5 sub()
- 2. re模块分组
- 3. 案例：百度图片爬取
- - 3.1 案例思路分析
  - 3.2 案例代码
- 4. csv快速入门
- - 4.1 csv文件写入
  - 4.2 csv文件的读取

第六章正则表达式下与csv入门

1. re常用方法

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达式，我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。

1.1 compile()

compile(pattern, flags=0)
这个⽅法是re模块的工厂法，⽤于将字符串形式的正则表达式编译为Pattern模式对象，可以实现更加效率的匹配。第二个参数flag是匹配模式使用compile()完成一次转换后，再次使用该匹配模式的时候就不能进行转换了。经过compile()转换的正则表达式对象也能使用普通的re⽅法。
例子：

import re
pat = repile(r'abc')
print(pat,type(pat))

结果

repile('abc') <class 're.Pattern'>

它是一个re.Pattern类，下面我们可以这样操作：

import re
pat = repile(r'abc')print(pat.match('abc12345').group())

结果

abc

加入这里是大写的ABC就不能匹配成功了。我们需要用re.I使得大小写匹配不敏感。

import re
pat = repile(r'abc',re.I)
print(pat.match('ABC123').group())

ABC

本文发布于:2024-01-31 17:34:27，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170669367030221.html

上一篇：Thread.sleep/wait

下一篇：函数中（参数类型+返回值+递归函数）2020

标签：爬虫入门正则表达式 csv

留言与评论（共有 0 条评论）

爬虫（06）正则表达式下+csv入门 2020