题目网址.html
从网页源代码的指定的大段注释中找“rare character“。
import sys, urllib
import reurl = ".html"
wp = urllib.urlopen(url) #打开
content = wp.read() #读入p = repile(r'<!--([sS]*?)-->') #正则
out = p.findall(content)[1]
res = [c for c in out if c.isalpha()]
print ''.join(res)
正则表达式不能用'<!--(.*)-->'。
1. '.'不能匹配空格,换行符等。
2. '.*'是贪婪匹配,会匹配尽量多的字符。比如content='<body>...</body>','<(.*)>'匹配的结果是'body>...</body'。*号后面加?号,则是以最少的内容匹配。
本文发布于:2024-02-02 08:03:55,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170683223642463.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |