昨天做完了牛客网上的机器学习试题,下面是对一些错题的分析,并简要总结了一些机器学习中应该注意的知识点,过段时间会对其中的一些方法进行更加详细的分析介绍。题中打问号?代表该题答案存在争议,不一定准确。
解析:
造成过拟合的原因主要有:
- 选项A增加训练集可以解决训练数据不足的问题,防止过拟合
- 选项B对应使得模型的复杂度降低,防止过拟合
- 选项C类似主成分分析,降低数据的特征维度,使得模型复杂度降低,防止过拟合
- 选项D使得模型更加复杂化,会充分训练数据导致过拟合
解析:
由条件概率公式可知:
解析:
NB的核心在于它假设向量的所有分量之间是独立的。
在贝叶斯理论系统中,都有一个重要的条件独立性假设:假设所有特征之间相互独立,这样才能将联合概率拆分。
解析:
解析:
解析:
Lasso regularization
)。它可以实现稀疏,通过将无用特征对应的参数W置为零实现。Ridge regression
)。L2避免过拟合的原理是:让L2范数的规则项||W||2
尽可能小,可以使得W每个元素都很小,接近于零,但是与L1不同的是,不会等于0;这样得到的模型抗干扰能力强,参数很小时,即使样本数据x发生很大的变化,模型预测值y的变化也会很有限。
解析:
精准度和召回率是一对矛盾的度量,一般来说,精准度越高,召回率越低;召回率越高,精准度越低。
**生成式模型(Generative Model)与判别式模型(Discrimitive Model)**是分类器常遇到的概念,它们的区别在于:
对于输入x,类别标签y:
生成式模型估计它们的联合概率分布P(x,y)
判别式模型估计条件概率分布P(y|x)
生成式模型可以根据贝叶斯公式得到判别式模型,但反过来不行。
公式上看
生成模型: 学习时先得到 P(x,y),继而得到 P(y|x)。预测时应用最大后验概率法(MAP)得到预测类别 y。
判别模型: 直接学习得到P(y|x),利用MAP得到 y。或者直接学得一个映射函数 y=f(x)。
直观上看
生成模型: 关注数据是如何生成的
判别模型: 关注类别之间的差别
例子:
假如你的任务是识别一个语音属于哪种语言。例如对面一个人走过来,和你说了一句话,你需要识别出她说的到底是汉语、英语还是法语等。那么你可以有两种方法达到这个目的:
- 学习每一种语言,你花了大量精力把汉语、英语和法语等都学会了,我指的学会是你知道什么样的语音对应什么样的语言。然后再有人过来对你说,你就可以知道他说的是什么语音.
- 不去学习每一种语言,你只学习这些语言之间的差别,然后再判断(分类)。意思是指我学会了汉语和英语等语言的发音是有差别的,我学会这种差别就好了。
那么第一种方法就是生成方法,第二种方法是判别方法。
常见的判别式模型:
- 逻辑回归 Logistic Regression
- 支持向量机 SVM
- 神经网络 NN
- 传统神经网络 Traditional Neural Networks
- 邻近取样 Nearest Neighbor
- 条件随机场 CRF
- 线性判别分析 Linear Discriminant Analysis
- 提升算法 Boosting
- 线性回归 Linear Regression
- 高斯过程 Gaussian Process
- 分类回归树 Classification and Regression Tree (CART)
- 区分度训练
常见的生成式模型:
- 高斯 Gaussians
- 朴素贝叶斯 Naive Bayes
- 混合多项式 Mixtures of Multinomials
- 混合高斯模型 Mixtures of Gaussians
- 多专家模型 Mixtures of Experts
- 隐马尔科夫模型 HMM
- S型信念网络 Sigmoidal Belief Networks
- 贝叶斯网络 Bayesian Networks
- 马尔科夫随机场 Markov Random Fields
- 潜在狄利克雷分配 Latent Dirichlet Allocation(LDA)
- 判别式分析
- K近邻 KNN
- 深度信念网络 DBN
解析:
聚类的目标是使同一类对象的相似度尽可能地大,不同类对象之间的相似度尽可能的小。
聚类分析算法主要可以分为:
- 划分法(Partitioning Methods)
- 层次法(Hierarchical Me thods)
- 基于密度的方法(Density-Based Methods)
- 基于网格的方法(Grid-Based M ethods)
- 基于模型的方法(Model-Based Methods)
- 谱聚类(Spectral Clustering)
C大约说的是度量方式,例如KMeans 可以用欧式距离啊,也可用其他的距离,这也是分类准则。(C正确)** 不过个人觉得C有歧义**;
特征选取的差异会影响聚类效果(A正 确)。
聚类的目标是使同一类对象的相似度尽可能地大,因此不同的相似度测度方法对聚类结 果有着重要影响(B正确)。
由于聚类算法是无监督方法,不存在带类别标签的样本,因此, D选项不是聚类算法的输入数据。
解析:
解析:
解析:
解析:
解析:
由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。常用的处理方法有:估算,整例删除,变量删除和成对删除。
解析:
本题主要考察信息增益的计算方式,具体可参考我之前博客决策树:
G a i n ( A ) = I n f o ( D ) − I n f o A ( D ) Gain(A) = Info(D) - InfoA(D) Gain(A)=Info(D)−InfoA(D)
其中Info表示信息熵,计算公式如下:
所以可以计算出各特征的信息增益如下所示:
解析:
置信度计算规则为: 同时购买商品A和商品B的交易次数**/购买了商品A的次数
支持度计算规则为: 同时购买了商品A和商品B的交易次数/**总的交易次数
解析:
伪逆法: 径向基(RBF)神经网络的训练算法,径向基解决的就是线性不可分的情况。
感知器算法: 线性分类模型。
H-K算法: 在最小均方误差准则下求得权矢量,二次准则解决非线性问题。
势函数法: 势函数非线性。
解析:
**AR模型:**自回归模型,是一种线性模型
**MA模型:**移动平均法模型,其中使用趋势移动平均法建立直线趋势的预测模型
**ARMA模型:**自回归滑动平均模型,拟合较高阶模型
**GARCH模型:**广义回归模型,对误差的方差建模,适用于波动性的分析和预测
解析:
解析:
- 后一个隐藏状态只依赖于前一个隐藏状态。
- 观测值之间相互独立,观测值只依赖于该时刻的马尔科夫链的隐状态。
缺点:1. HMM只依赖于每一个状态和它对应的观察对象:2、目标函数和预测目标函数不匹配:
Maximum Entropy模型
的优点集合成一种生成模型(Generative Model)。克服了观察值之间严格独立产生的问题,但仍存在标注偏置问题(Label bias problem)。
解析:
解析:
K-L变换与PCA变换是不同的概念,PCA的变换矩阵是协方差矩阵,K-L变换的变换矩阵可以有很多种(二阶矩阵、协方差矩阵、总类内离散度矩阵等等)。当K-L变换矩阵为协方差矩阵时,等同于PCA。
解析:
解析:
解析:
常见的时间序列算法模型有
解析:
SVM核函数包括:
线性核函数、多项式核函数、径向基核函数(RBF)、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数。
解析:
A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。A错误
B. Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确
C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化,正确。
D. SVM可以通过正则化系数控制模型的复杂度,避免过拟合。(个人觉得但最好是加上正则项吧)
**LDA(线性判别分析)用于降维,和PCA(主成分分析)**有很多相同,也有很多不同的地方,因此值得好好的比较一下两者的降维异同点。
相同点:
- 两者均可以对数据进行降维。
- 两者在降维时均使用了矩阵特征分解的思想。
- 两者都假设数据符合高斯分布。
不同点:
- LDA是有监督的降维方法,而PCA是无监督的降维方法
- LDA降维最多降到类别数k-1的维数,而PCA没有这个限制。
- LDA除了可以用于降维,还可以用于分类。
- LDA选择分类性能最好的投影方向,而PCA选择样本点投影具有最大方差的方向
线性
- LDA(线性判别分析)
- PCA(主成分分析)
非线性
- 核方法(KPCA、KFDA等)
- 二维化
- 流行学习(LLE、LPP、ISOMap等)
其他方法:
- 神经网络(自编码)
- 聚类
3.小波分析- LASSO(参数压缩)
- SVD奇异值分解
解析:
线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。
- 感知器准则函数:代价函数
J=-(W*X+w0)
,分类的准则是最小化代价函数。感知器是神经网络(NN)的基础。- SVM:支持向量机也是很经典的算法,优化目标是最大化间隔(margin),又称最大间隔分类器,是一种典型的线性分类器。(使用核函数可解决非线性问题)
- Fisher准则:更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小,不同类样本距离尽可能大,具体为最大化“广义瑞利商”。
贝叶斯分类器:一种基于统计方法的分类器,要求先了解样本的分布特点(高斯、指数等),所以使用起来限制很多。在满足一些特定条件下,其优化目标与线性分类器有相同结构(同方差高斯分布等),其余条件下不是线性分类。
本文发布于:2024-02-01 07:49:21,感谢您对本站的认可!
本文链接:https://www.4u4v.net/it/170674496134994.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |