数据挖掘

阅读: 评论:0

数据挖掘

数据挖掘

  • 分类与聚类 定义及区别
  • 分类方法
  • 聚类方法

分类与聚类 定义及区别

  • 分类:是一种有指导(有监督)的学习(Supervised Learning),即每个训练样本的数据对象已经有类标识,通过学习可以形成表达数据对象与类标识间对应的知识。即根据样本数据形成的类知识对源数据进行分类,进而预测未来数据的归类…2分
  • 聚类:属于无指导学习,聚类是把一组个体按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的差别尽可能的小,而不同类别上的个体间的差别尽可能的大。2分
  • 综上所述,聚类是通过对数据的分析比较形成新的类标识,分类是在特定的类标识下寻求新元素属于哪个类。………………………………1分

分类方法

分类的基本概念与步骤

1.数据分类分为两个步骤 --建模和使用
建立模型,描述预定的数据类集或概念集
使用模型进行分类

基于距离的分类算法

距离越近,相似性越大,距离越远,相似性越小

  1. 基本思想:通过计算每个元祖得到各类的中心距离就可以找出相应的类,从而实现简单的分类技术。
  2. K-最临近分类算法
    使用下表给出的样本数据,采用KNN算法对元组<范大可,男,1.8>进行分类,只用高度参与距离计算,K=3。
    2.1 基本思想:计算每个训练数据到待分类元组的距离,取和待分类元祖距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪类

决策树分类方法

贝叶斯算法

  1. 朴素贝叶斯法概述
    朴素贝叶斯法是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练集,首先基于特征条件独立假设学习输入输出的联合概率分布(朴素贝叶斯法这种通过学习得到模型的机制,显然属于生成模型);然后基于此模型,对给定的输入 x,利用贝叶斯定理求出后验概率最大的输出 y。

学习朴素贝叶斯算法之前,我们先搞定下面这些基本概念和数学公式 👇
条件概率公式:

P(Y∣X)= P(X∣Y)P(Y) / P(X)

这里的每个概率都有其特定的名称:
P ( Y ) :先验概率。先验概率(prior probability)是指事情还没有发生,求这件事情发生的可能性的大小,是先验概率。它往往作为"由因求果"问题中的"因"出现。

P ( Y ∣ X ):后验概率。后验概率是指事情已经发生,求这件事情发生的原因是由某个因素引起的可能性的大小。后验概率的计算要以先验概率为基础

P ( X ∣ Y ) :条件概率,又叫似然概率,一般是通过历史数据统计得到。一般不把它叫做先验概率,但从定义上也符合先验定义。

  1. 案例:给定如下所示的训练数据,请使用朴素贝叶斯算法对待分类样本X=(高度=“矮”,头发=“红”,眼睛=“兰”)进行分类,判断其属于类别“+”还是“-”。(要求先写出详细公式,然后再将数值带入计算)(15分)


解 设类别为C,则P(C/X)=P(X/C)P©………………2分
记类别“+”为C1,类别“-”为C2,则根据训练数据集,
得出P(C1)=3/8, P(C2)=5/8………………4分
P(C1/X)=P(X/C1)*P(C1)=P(高度=“矮”/C1)*P(头发=“红”/C1)*P(眼睛=“兰”/C1)P(C1)=(1/3)(1/3)1(3/8)=1/24………………4分
P(C2/X)=P(X/C2)*P(C2)=P(高度=“矮”/C2)*P(头发=“红”/C2)P(眼睛=“兰”/C2)P(C2)=(2/5)(1/5)(2/5)(5/8)=1/50……………………4分
1/24>1/50,所以样本X属于类别“+”……………………1分

聚类方法

划分聚类的方法

k-平均算法

  1. 基本思想:算法首先先随机选择k个对象,每个对象初始地代表了一个簇的平均值或中心,对剩余的每个对象根据其与各个簇的中心距离,将它赋给最近的簇,然后重新计算每个簇的平均值

  2. 案例:给出下表所示的事务数据库,用k-means算法进行聚类(写出具体过程,用欧氏距离公式),其中K=3,初始簇中心为1,4,7。(20分)

本文发布于:2024-01-29 08:25:37,感谢您对本站的认可!

本文链接:https://www.4u4v.net/it/170648794113972.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据挖掘
留言与评论(共有 0 条评论)
   
验证码:

Copyright ©2019-2022 Comsenz Inc.Powered by ©

网站地图1 网站地图2 网站地图3 网站地图4 网站地图5 网站地图6 网站地图7 网站地图8 网站地图9 网站地图10 网站地图11 网站地图12 网站地图13 网站地图14 网站地图15 网站地图16 网站地图17 网站地图18 网站地图19 网站地图20 网站地图21 网站地图22/a> 网站地图23