数据挖掘中最典型的四种方法是:
分类与预测、聚类分析、关联规则、时序模式,我试试能不能用大白话讲清楚 概念、常用算法、分类、原理及评价标准。
第一部分是分类与预测
分类与预测指的都是根据一些特征来预测问题,是机器学习中最常见的的监督学习算法。即从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。
要点一:分类和预测的区别在于,分类对应的是离散型结果,预测通常对应连续型结果。
要点二:监督学习的训练集要求包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注的。即,学习函数时要给出特征和目标。
举个简单的例子
小明的妈妈想预测小明高考时考的怎么样:
如果小明妈妈想预测的是小明的分数,分数是数值型变量,这属于预测;如果小明妈妈想预测的是小明能考入名校/非名校,是否考入名校是离散型变量,这属于分类。
无论是要预测分数还是是否考入名校,小明的妈妈都需要先给一堆已知考的怎么样的历史样本,这些样本的属性是跟考试相关的指标:学生智商,平时成绩,学校排名,学习时长,是否容易紧张等。把这些样本交给机器,让机器学习出一个函数,去预测小明考的怎么样。
本文发布于:2024-01-31 00:34:25,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170663247323967.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |