浅谈Python网络爬虫

阅读：评论：0

浅谈Python网络爬虫

一相关背景

网络爬虫(Web Spider)又称网络蜘蛛、网络机器人，是一段用来自动化采集网站数据的程序。如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络爬虫不仅能够为搜索引擎采集网络信息，而且还可以作为定向信息采集器，定向采集某些网站下的特定信息，如：汽车票价，招聘信息，租房信息，微博评论等。

二应用场景

图1 应用场景

爬虫技术在科学研究、Web安全、产品研发、舆情监控等领域可以做很多事情。如：在数据挖掘、机器学习、图像处理等科学研究领域，如果没有数据，则可以通过爬虫从网上抓取；在Web安全方面，使用爬虫可以对网站是否存在某一漏洞进行批量验证、利用；在产品研发方面，可以采集各个商城物品价格，为用户提供市场最低价；在舆情监控方面，可以抓取、分析新浪微博的数据，从而识别出某用户是否为水军。

三本文目的

本文简要介绍对于定向信息采集所需了解基本知识和相关技术，以及python中与此相关的库。同时提供对与数据抓取有关库的封装实现，目的是减少不必要的配置，便于使用，目前仅包含对urllib2, requests, mechanize的封装。地址：

四运行流程

对于定向信息的爬取，爬虫主要包括数据抓取、数据解析、数据入库等操作流程。其中:

（1）数据抓取：发送构造的HTTP请求，获得包含所需数据的HTTP响应；

（2）数据解析：对HTTP响应的原始数据进行分析、清洗以提取出需要的数据；

（3）数据入库：将数据进一步保存到数据库（或文本文件），构建知识库。

图2.1 基本运行流程

图2.2 详细运行流程

五相关技术

爬虫的相关技术包括：

（1）数据抓取：了解HTTP请求和响应中各字段的含义；了解相关的网络分析工具，主要用于分析网络流量，如：burpsuit等。一般情况，使用浏览器的开发者模式即可；

（2）数据解析：了解HTML结构、JSON和XML数据格式，CSS选择器、Xpath路径表达式、正则表达式等，目的是从响应中提取出所需的数据；

（3）数据入库：MySQL，SQLite、Redis等数据库，便于数据的存储

本文发布于:2024-02-01 03:49:32，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170673057433641.html

上一篇：linux yundun进程,GitHub

下一篇：Anti

标签：爬虫浅谈网络 Python

留言与评论（共有 0 条评论）

浅谈Python网络爬虫