weka机器学习

阅读：评论：0

weka机器学习

文章目录

- weka 界面功能
- - 分类和回归
  - 神经网络调参
  - J48调参界面
  - IBK调参界面
  - IBK主要的不足

weka 界面功能

分类和回归

IBk()：k最近邻分类
LBR()：naive Bayes法分类
J48()：C4.5决策树算法（决策树在分析各个属性时，是完全独立的）。
LMT()：组合树结构和Logistic回归模型，每个叶子节点是一个Logistic回归模型，准确性比单独的决策树和Logistic回归方法要好。
M5P()：M5 模型数算法，组合了树结构和线性回归模型，每个叶子节点是一个线性回归模型，因而可用于连续数据的回归。
DecisionStump()：单层决策树算法，常被作为boosting的基本学习器。
SMO()：支持向量机分类
AdaBoostM1()：Adaboost M1方法。-W参数指定弱学习器的算法。
Bagging()：通过从原始数据取样(用替换方法)，创建多个模型。
LogitBoost()：弱学习器采用了对数回归方法,学习到的是实数值
MultiBoostAB()：AdaBoost 方法的改进，可看作AdaBoost 和 “wagging”的组合。
Stacking()：用于不同的基本分类器集成的算法。
LinearRegression()：建立合适的线性回归模型。
Logistic()：建立logistic回归模型。
JRip()：一种规则学习方法。
M5Rules()：用M5方法产生回归问题的决策规则。
OneR()：简单的1-R分类法。
PART()：产生PART决策规则。

神经网络调参

亲爱的室偶整理的

GUI
弹出一个GUI界面。其允许我们在神经网络训练的过程中暂停和做一些修改（altering）

按左键添加一个节点（node）（节点将被自动选择以保证没有其他的节点被选择）
选中一个节点：左键单击
连接一个节点：首先选中一个起始节点，然后点击一个结束节点或者空白区域（这将创建一个新节点并与起始节点连接）。在连接后节点的状态将保持不变。
删除连接：选择一个连接的节点并且右键单击另一个节点
删除节点：右键单击一个节点
取消选择：左键单击节点或者在空白区域右键单击
标签（label）提供的原始输入（raw input）在左边
红色的节点是隐层（hidden layers）
橙色的节点是输出节点（output nodes）
在右边的标签展示的是输出节点表示的类别。要注意的是对于一个数值属性的类别来说，输出节点将自动的做成一个unthresholded的线性单元

更改神经网络只能在网络没有启动（running）的时候做，这条规则也适用于学习速率（learning rate）和其他在控制面板上的区域。

您可以在任何时候结束网络
网络在一开始是自动暂停的
有一个关于网络up了和error的运行时提示。注意的是这个错误值（error value或者误差值吧）是基于网络的计算值的变化的
一旦网络训练完毕它会再次停止并且等待结果是否被接受还是继续训练

注意的是如果没有设置GUI，这个网络将不需要任何的交互（interaction）

autoBuild
添加网络中的连接和隐层

debug
设置为True分类器将输出额外的信息到控制台（console）

decay
这将导致学习的速率的降低。其将初始的学习速率除以迭代次数（epoch number）去决定当前的学习速率。这对于停止神经网络背离目标输出有帮助，也提高了general performance。要注意的是衰退的学习速率不会显示在GUI中。如果学习速率在GUI中被改变，这将被视为初始的学习速率。

hiddenLayers
定义神经网络的隐层。这是一个正整数的列表。1 for each hidden layer.用逗号分隔。如果没有隐层就在这里输入0。这只被用于自动构建是设置了的。也有通用符 ‘a’ = (attribs + classes) / 2, ‘i’ = attribs, ‘o’ = classes , ‘t’ = attribs + classes

learningRate
Weights被更新的数量

momentum
当更新weights时设置的动量

normalizeAttributes
将正则化（normalize）属性。这个能提高网络的performance。其并不依赖于class是不是数值属性的。其也会正则化名词性（nominal）的属性（当他们被nominal to binary filter run过后），这样名词性属性是在-1和1之间

normalizeNumericClass
将会正则化class如果其实数值属性的。这也可以提高网络的performance，其将class正则化到-1和1之间。注意的是这仅仅是内部的，输出会被转换回原始的范围。

reset
这将允许网络用一个更低的学习速率复位。如果网络偏离了答案其将会自动的用更低的学习速率复位并且重新训练。只有当GUI没有被set的时候这个选项才是available的。
注意的是如果这个网络偏离了并且没有被允许去reset其将在训练的步骤失败并且返回一个错误信息

seed
Seed用于初始化随机数的生成。随机数被用于设定节点之间连接的初始weights，并且用于shuffling训练集

trainingTime
训练的迭代次数。如果设置的是非0那么这个网络能够终止的比较早

validationSetSize
Validation set的百分比，训练将持续直到其观测到在validation set上的误差已经一直在变差，或者训练的时间已经到了
如果validation set设置的是0那么网络将一直训练直到达到迭代的次数

validationThreshold
用于终止validation testing。这个值用于决定在训练终止前在一行内的validation set error可以变差多少次

以上解释参考下面的文章
weka里面神经网络算法实践

J48调参界面

IBK调参界面

IBK主要的不足

当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。因此可以采用权值的方法（和该样本距离小的邻居权值大）来改进。该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分

本文发布于:2024-02-01 21:39:34，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170679477539581.html

上一篇：《机器学习工具与方法》

下一篇：距离保护的影响因素

标签：机器 weka

留言与评论（共有 0 条评论）