《机器学习工具与方法》

阅读: 评论:0

《机器学习工具与方法》

《机器学习工具与方法》

《机器学习工具与方法》— WEKA实战二


第一题

题目:Glass.arff-Classify-Ibk-10折交叉验证选择元学习器FilteredClassifier-IBk分类器,并选择AddNoise无监督属性过滤进行数据分析,同时可以根据数据画图进行结果分析。

解答:

  1. 导入玻璃数据集,分类器中选中a.FilteredClassifier,选择元学习器weka.classifiers.lazy.IBk,即k邻近算法进行分类,同时选中过滤器weka.filters.unsupervised.attribute.AddNoise以增加数据噪声。操作截图如下:

    [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  2. 设置K邻近算法的K分别等于1,2,3 ,设置噪声百分比从0%增加到100%,进行分类正确率的汇总:

噪声百分比K = 1K = 2K = 3
0%70.5667.7571.96
10%61.2166.8270.56
20%52.8060.7465.88
30%45.7955.1461.24
40%36.9247.2050.00
50%33.1841.1243.46
60%27.5736.9238.79
70%20.5628.9729.91
80%16.8222.9023.83
90%12.6217.2919.63
100%6.077.947.01

表格单位填写的是在叠加噪声后数据在K邻近算法下的十折交叉验证分类正确率。

  1. 绘图分析:横坐标代表噪声百分比,纵坐标代表分类正确率。

    结合上图我们发现:

    • 当噪声增大时,分类准确率随之降低

    • k值对分类正确率的影响需要分情况考量,增大k值会抑制噪声,增加分类准确率;k值过大且噪声百分比较小时,会降低分类准确率。

    • 数据集会受到噪声的干扰,k邻近学习需要找到合适的k值,既能抑制噪声,又不会显著降低分类准确率。

第二题

题目:选择两个分类器进行实验,比较Glass-Ibk-J48、FilteredClassifier-Resample,进行不同采样百分比,进行分类实验。

解答:

  1. 导入glass数据集,分类器选中FilteredClassifier,其中classifier选中Ibk(K邻近 K=1)或J48(决策树),Filter选中resemple(重采样大小设置为10%~100%)操作如下图所示:

  2. 不断修改重采样比率填写下表:

训练集百分比IBK(K邻近算法)J48(决策树算法)
10%54.2145.33
20%56.0747.66
30%57.4857.01
40%62.6257.94
50%63.5561.22
60%64.4963.08
70%63.5564.49
80%66.8263.55
90%68.2263.55
100%66.8264.95

填入数据为算法在对应重采样下的分类准确率,单位为%。

  1. 绘图分析:

    从上图中我们可以发现:

    • 当增大训练数据量时,分类准确率会随之增加
    • 相对于Ibk,增大训练数据量对J48的影响更显著

本文发布于:2024-02-01 21:39:24,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170679476539580.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:weka 最近邻
下一篇:weka机器学习
标签:机器   工具   方法
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23