目录
一、导入数据
二、数据预处理 探索性数据分析
三、特征工程
四、模型训练,参数调优
五、模型评价
# 导入数据集
import pandas as pd
data = pd.read_csv(r"C:UsersTerryDesktopheart.csv")
data
数据集有1025行,14列。每行表示一个病人。13列表示特征,1列表示标签(是否患心脏病)
%%html
<style>table {display: inline-block}
</style>
看一下字段名的含义:
查看缺失值:没有缺失值
# 缺失值的检查
data.isna().sum()
import missingno as msno
import matplotlib.pyplot as plt
Params['font.sans-serif']=['Roboto']
msno.matrix(data, labels=True)
# 热力图绘制
def enhanced_corr_heatmap(data):"""绘制数据皮尔逊相关性系数的热力图(下三角显示)"""# 导包import numpy as npimport matplotlib.pyplot as pltimport seaborn as sns# matplotlib的图像大小和字体显示设置plt.figure(figsize=(10, 8)) # 可同比例放大Params['font.sans-serif'] = ['Roboto'] # 美化字体Params['axes.unicode_minus'] = False # 显示负数#保留下三角:data_corr = ()mask = np.zeros_like(data_corr)for i in range(1,len(mask)):for j in range(0,i):mask[j][i] = True # 上三角就mask[i][j] = True# 绘图sns.heatmap(data_corr,annot=True, f
本文发布于:2024-01-28 23:55:32,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170645733711221.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |