中国的大学排名数据比较分散,一些权威机构会发布综合排名,如教育部的“双一流”、“985”、“211”计划,还有一些机构会发布专业排名等。因此,具体爬取哪些排名数据可能需要根据实际需要来进行筛选。
import requests
和from bs4 import BeautifulSoup
。requests库用于发送HTTP请求、获取响应数据,BeautifulSoup库则用于解析HTML数据,提供了方便的HTML DOM结构遍历和搜索的方法。import requests
from bs4 import BeautifulSoup
定义get_rank_data()
函数,用于爬取排名数据:函数内部首先定义了目标URL:url = ''
,用于访问全国高校排名主页面。然后定义了请求头信息:headers = {'User-Agent': '...'}
,该信息包含了当前访问者的浏览器、操作系统等信息,有助于模拟浏览器对目标站点进行访问。
使用requests库发送HTTP请求:response = (url, headers=headers)
()方法向目标URL发送了一条GET请求,同时传入了请求头信息,返回的响应数据保存在response对象中。
# 发送HTTP请求并获取响应数据
def get_rank_data():url = ''headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}response = (url, headers=headers)
soup = , 'html.parser')
,response对象的text属性包含了获取到的HTML文本数据,将其传入BeautifulSoup()构造函数中,返回一个BeautifulSoup对象。接着,使用该对象的find()和find_all()方法轻松定位和提取目标元素。 # 解析HTML数据soup = , 'html.parser')tbody = soup.find('tbody')trs = tbody.find_all('tr')
tbody = soup.find('tbody')
和trs = tbody.find_all('tr')
,分别使用find()和find_all()方法定位到排名数据所在的HTML元素,在这里是table的tbody和tr元素。然后遍历所有的tr元素,使用find_all()方法提取每个tr元素下的td元素,并使用get_text()方法获取元素中的文本内容。将排名数据存入一个列表中,使用字典的形式保存:rank_data.append({'rank': rank, 'name': name, 'location': location, 'category': category})
。 # 提取排名数据rank_data = []for tr in trs:tds = tr.find_all('td')if tds:rank = tds[0].get_text()name = tds[1].get_text()location = tds[2].get_text()category = tds[3].get_text()rank_data.append({'rank': rank, 'name': name, 'location': location, 'category': category})return rank_dataif __name__ == '__main__':rank_data = get_rank_data()for data in rank_data:print(f'{data["rank"]}: {data["name"]} ({data["location"]}) - {data["category"]}')
上述代码使用了第三方库requests和BeautifulSoup,首先访问了教育部网站中“双一流”高校名单所在的页面,然后使用BeautifulSoup解析HTML页面中的表格数据(表格的HTML结构可能会随着页面结构的变化而变化),最后将数据以元组的形式存入了results列表中。
哈哈哈哈哈哈哈,人工智能果然牛批
可以将代码中的url修改为别的具有相关数据的地址,如各大高校的官网、排名网站等,然后对爬取到的数据进行处理和清洗,以适应你的可视化需求。
本文发布于:2024-02-04 23:11:50,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170718555160638.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |