当前位置：首页 > 数码 > 正文内容

你应该知道的十种机器学习算法 (你应该知道的英文)

admin2年前 (2024-04-30)数码233

机器学习算法基础知识机器学习算法简介机器学习算法是计算机程序，它们能够从数据中学习，并在新数据上做出预测。随着大数据成为科技行业的主要趋势，机器学习变得越来越重要，因为它们可以利用大量数据做出预测或生成建议。机器学习算法分类机器学习算法可以分为三大类：监督学习：当某个属性（标签）可用于某个数据集（训练集），但属性（标签）缺失且需要针对其他实例进行预测时，监督学习非常有用。无监督学习：当挑战是发现给定未标记数据集中的隐式关系（项目未预先分配）时，无监督学习非常有用。强化学习：介于监督学习和无监督学习这两个极端之间，每个预测步骤或动作都有某种形式的反馈，但没有精确的标签或错误消息。常见机器学习算法 1. 主成分分析 (PCA) / 奇异值分解 PCA (SVD) 主成分分析 (PCA)是一种无监督方法，用于了解由向量组成的数据集的全局属性。它分析数据点的协方差矩阵，以了解哪些维度（大多数）/数据点（有时）更重要。奇异值分解 (SVD)本质上也是一种计算有序分量的方法，但不需要获取点的协方差矩阵即可获得它。 2. 最小二乘法和多项式拟合最小二乘法是一种用于拟合曲线到数据点的算法。多项式拟合是一种使用最小二乘法的特定类型，用于拟合多项式曲线。约束线性回归和正则化技术（例如 LASSO 和岭回归）可用于减少过度拟合并提高模型鲁棒性。 3. K 均值聚类 K 均值聚类是一种无监督聚类算法，用于将数据点聚合成 K 个簇。它迭代地移动聚类中心，并将点与每个聚类中心结合在一起。该算法的输入是要生成的簇的数量和它将尝试收敛簇的迭代次数。 4. 逻辑回归逻辑回归是一种用于分类的监督学习算法。它使用线性模型并应用非线性函数（通常是 sigmoid 函数）将输出限制为接近+/-类。逻辑回归可用于创建简单但强大的分类器，并且是单层神经网络。 5. 支持向量机 (SVM) SVM 是一种用于分类的监督学习算法。它将数据映射到高维特征空间，并在其中寻找一个最优的超平面来进行分类。 SVM适用于二分类和多分类问题，并且在处理非线性问题方面具有很强的能力。 6. 前馈神经网络前馈神经网络是多层逻辑回归分类器的堆叠。它们由非线性（例如 sigmoid、tanh、ReLU 和 SELU）分隔的许多权重层组成。前馈神经网络可用于创建复杂且强大的机器学习模型。结论机器学习算法是人工智能领域的重要组成部分，它们能够从数据中学习并做出预测。了解不同类型的机器学习算法以及它们的应用对于构建有效的机器学习模型至关重要。随着大数据继续蓬勃发展，机器学习算法在未来几年将继续发挥越来越重要的作用。

数据挖掘十大经典算法及各自优势

不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。1. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足；2) 在树构造过程中进行剪枝；3) 能够完成对连续属性的离散化处理；4) 能够对不完整数据进行处理。C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。2. The k-means algorithm 即K-Means算法k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。3. Support vector machines支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种监督式学习的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和 Barnard 将支持向量机和其他分类器进行了比较。4. The Apriori algorithmApriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。5. 最大期望(EM)算法在统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。6. PageRankPageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里·佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个等级方法是以佩奇来命名的。PageRank根据网站的外部链接和内部链接的数量和质量俩衡量网站的价值。PageRank背后的概念是，每个到页面的链接都是对该页面的一次投票，被链接的越多，就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。PageRank这个概念引自学术中一篇论文的被引述的频度——即被别人引述的次数越多，一般判断这篇论文的权威性就越高。7. AdaBoostAdaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器 (强分类器)。其算法本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器最后融合起来，作为最后的决策分类器。8. kNN: k-nearest neighbor classificationK最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。9. Naive Bayes在众多的分类模型中，应用最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBC）。朴素贝叶斯模型发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时，NBC模型的分类效率比不上决策树模型。而在属性相关性较小时，NBC模型的性能最为良好。10. CART: 分类与回归树CART, Classification and Regression Trees。在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法；第二个想法是用验证数据进行剪枝。

人工智能十大算法

人工智能十大算法如下

线性回归（Linear Regression）可能是最流行的机器学习算法。线性回归就是要找一条直线，并且让这条直线尽可能地拟合散点图中的数据点。它试图通过将直线方程与该数据拟合来表示自变量（x值）和数值结果（y值）。然后就可以用这条线来预测未来的值！

逻辑回归（Logistic regression）与线性回归类似，但它是用于输出为二进制的情况（即，当结果只能有两个可能的值）。对最终输出的预测是一个非线性的S型函数，称为logistic function, g()。

决策树（Decision Trees）可用于回归和分类任务。

朴素贝叶斯（Naive Bayes）是基于贝叶斯定理。它测量每个类的概率，每个类的条件概率给出x的值。这个算法用于分类问题，得到一个二进制“是/非”的结果。看看下面的方程式。

支持向量机（Support Vector Machine，SVM）是一种用于分类问题的监督算法。支持向量机试图在数据点之间绘制两条线，它们之间的边距最大。为此，我们将数据项绘制为n维空间中的点，其中，n是输入特征的数量。在此基础上，支持向量机找到一个最优边界，称为超平面（Hyperplane），它通过类标签将可能的输出进行最佳分离。

K-最近邻算法（K-Nearest Neighbors，KNN）非常简单。KNN通过在整个训练集中搜索K个最相似的实例，即K个邻居，并为所有这些K个实例分配一个公共输出变量，来对对象进行分类。

K-均值（K-means）是通过对数据集进行分类来聚类的。例如，这个算法可用于根据购买历史将用户分组。它在数据集中找到K个聚类。K-均值用于无监督学习，因此，我们只需使用训练数据X，以及我们想要识别的聚类数量K。

随机森林（Random Forest）是一种非常流行的集成机器学习算法。这个算法的基本思想是，许多人的意见要比个人的意见更准确。在随机森林中，我们使用决策树集成（参见决策树）。

由于我们今天能够捕获的数据量之大，机器学习问题变得更加复杂。这就意味着训练极其缓慢，而且很难找到一个好的解决方案。这一问题，通常被称为“维数灾难”（Curse of dimensionality）。

人工神经网络（Artificial Neural Networks，ANN）可以处理大型复杂的机器学习任务。神经网络本质上是一组带有权值的边和节点组成的相互连接的层，称为神经元。在输入层和输出层之间，我们可以插入多个隐藏层。人工神经网络使用了两个隐藏层。除此之外，还需要处理深度学习。

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: 机器学习算法