机器学习之k近邻算法和朴素贝叶斯

阅读：评论：0

机器学习之k近邻算法和朴素贝叶斯

相似的样本，特征之间的值相近
！欧式距离，需要进行标准化处理
实例：预测入住位置

ighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler
from sklearn. import TfidfVectorizer

特征值：row_id, x_y坐标，准确性，时间，
目标值：place_id
分类问题

xy缩小

我们用到dataframe.query

data = pd.read_csv("./data/FBlocation/train.csv")# print(data.head(10))# 处理数据# 缩小数据,查询数据晒讯data = data.query("x > 1.0 &  x < 1.25 & y > 2.5 & y < 2.75")

时间戳处理格式变化

# 处理时间的数据time_value = pd.to_datetime(data['time'], unit='s')print(time_value)# 把日期格式转换成 字典格式time_value = pd.DatetimeIndex(time_value)# 构造一些特征data['day'] = time_value.daydata['hour'] = time_value.hourdata['weekday'] = time_value.weekday# 把时间戳特征删除data = data.drop(['time'], axis=1)print(data)

少于指定人数的目标位置删除

place_count = upby('place_id').count()
tf = place_count[w_id > 3].reset_index()
data = data[data['place_id'].isin(tf.place_id)]# 取出数据当中的特征值和目标值y = data['place_id']x = data.drop(['place_id'], axis=1)

数据分割

x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.25)

特征工程

  特征工程（标准化）std = StandardScaler()# 对测试集和训练集的特征值进行标准化x_train = std.fit_transform(x_train)x_test = ansform(x_test)

算法流程和预测结果，准确率

发现准确率不高，可以修正特征工程，或者drop row-id

    # 进行算法流程 # 超参数knn = KNeighborsClassifier()# # fit， predict,scoreknn.fit(x_train, y_train)# # 得出预测结果y_predict = knn.predict(x_test) # # 得出准确率print("预测的准确率:", knn.score(x_test, y_test))

k值的影响

k值取得小：受异常点影响
k值取得大：容易受数量波动

调参

knn = KNeighborsClassifier(n_neighbors=5) 超参数

朴素贝叶斯算法

概率
训练集误差大的话，结果肯定不好，不需要调参
假设了词语之间的独立关系，会对结果造成干扰

拉普拉斯平滑

指定系数一般为1，分子分母同时加一

精确率precision和召回率recall

estimator
混淆矩阵真正例伪反例
F1score 反映模型稳健性
ics.classification_report()

##模型选择与调优
1.交叉验证
训练集分为两部分，训练集和验证集

2.网格搜索

手动指定——超参数
每组超参数都用交叉验证来评估
del_selection.GridSearchCV
estimator估计器
param_grid 估计器参数
cv交叉验证

best_score_
best_estinator_
cv_results_

本文发布于:2024-01-29 13:58:51，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170650793415774.html

上一篇：小米低调上线的良心APP，永久免费真心好用！

下一篇：【实用教程】VSPD虚拟串口工具——从此告别硬件串口调试

标签：近邻朴素算法机器贝叶斯

留言与评论（共有 0 条评论）