爬虫(06)正则表达式下+csv入门 2020

阅读: 评论:0

爬虫(06)正则表达式下+csv入门 2020

爬虫(06)正则表达式下+csv入门 2020

文章目录

  • 第六章 正则表达式下与csv入门
    • 1. re常用方法
      • 1.1 compile()
      • 1.2 search()
      • 1.3 findall()
      • 1.4 split()
      • 1.5 sub()
    • 2. re模块分组
    • 3. 案例:百度图片爬取
      • 3.1 案例思路分析
      • 3.2 案例代码
    • 4. csv快速入门
      • 4.1 csv文件写入
      • 4.2 csv文件的读取

第六章 正则表达式下与csv入门

1. re常用方法

正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Python同样不例外,利用了正则表达式,我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。

1.1 compile()

compile(pattern, flags=0)
这个⽅法是re模块的工厂法,⽤于将字符串形式的正则表达式编译为Pattern模式对象,可以实现更加效率的匹配。第二个参数flag是匹配模式 使用compile()完成一次转换后,再次使用该匹配模式的时候就不能进行转换了。经过compile()转换的正则表达式对象也能使用普通的re⽅法。
例子:

import re
pat = repile(r'abc')
print(pat,type(pat))

结果

repile('abc') <class 're.Pattern'>

它是一个re.Pattern类,下面我们可以这样操作:

import re
pat = repile(r'abc')print(pat.match('abc12345').group())

结果

abc

加入这里是大写的ABC就不能匹配成功了。我们需要用re.I使得大小写匹配不敏感。

import re
pat = repile(r'abc',re.I)
print(pat.match('ABC123').group())

ABC

本文发布于:2024-01-31 17:34:27,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170669367030221.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:爬虫   入门   正则表达式   csv
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23