1. 线性回归
在计算学和机器学习范畴,线性回归可能是*广为人知也*易理解的算法之一。
猜测建模主要关注的是在牺牲可解释性的情况下,尽可能*小化模型误差或做出***的猜测。咱们将学习、重用来自许多其它范畴的算法(包括计算学)来完成这些方针。
线性回归模型被表明为一个方程式,它为输入变量找到特定的权重(即系数 B),进而描述一条*佳拟合了输入变量(x)和输出变量(y)之间关系的直线。
线性回归
例如:y = B0 + B1 * x
咱们将在给定输入值 x 的条件下猜测 y,线性回归学习算法的意图是找到系数 B0 和 B1 的值。
咱们能够运用不同的技能来从数据中学习线性回归模型,例如普通*小二乘法的线性代数解和梯度下降优化。
线性回归大约有 200 多年的历史,并已被广泛地研讨。在运用此类技能时,有一些很好的经历规矩:咱们能够删去十分类似(相关)的变量,并尽可能移除数据中的噪声。线性回归是一种运算速度很快的简略技能,也是一种适合初学者测验的经典算法。
2. Logistic 回归
Logitic 回归是机器学习从计算学范畴学习过来的另一种技能。它是二分类问题的首选办法。
像线性回归相同,Logistic 回归的意图也是找到每个输入变量的权重系数值。但不同的是,Logistic 回归的输出猜测结果是通过一个叫作「logistic 函数」的非线性函数变换而来的。
logistic 函数的形状看起来像一个大的「S」,它会把任何值转换至 0-1 的区间内。这十分有用,因为咱们能够把一个规矩应用于 logistic 函数的输出,然后得到 0-1 区间内的捕捉值(例如,将阈值设置为 0.5,则如果函数值小于 0.5,则输出值为 1),并猜测类别的值。
由于模型的学习方式,Logistic 回归的猜测结果也能够用作给定数据实例归于类 0 或类 1 的概率。这关于需要为猜测结果供给更多理论依据的问题十分有用。
与线性回归类似,当删去与输出变量无关以及彼此之间十分类似(相关)的特点后,Logistic 回归的作用更好。该模型学习速度快,对二分类问题十分有用。
3. 线性判别分析
Logistic 回归是一种传统的分类算法,它的运用场景仅限于二分类问题。如果你有两个以上的类,那么线性判别分析算法(LDA)是首选的线性分类技能。
LDA 的表明办法十分直接。它包括为每个类核算的数据计算特点。关于单个输入变量而言,这些特点包括:
每个类的均值。
所有的方差。
猜测结果是通过核算每个类的判别值、并将类别猜测为判别值*大的类而得出的。该技能假定数据符合高斯分布(钟形曲线),因此*好预先从数据中删去异常值。LDA 是一种简略而有用的分类猜测建模办法。
4. 分类和回归树
决策树是一类重要的机器学习猜测建模算法。
决策树能够被表明为一棵二叉树。这种二叉树与算法设计和数据结构中的二叉树是相同的,没有什么特别。每个节点都代表一个输入变量(x)和一个基于该变量的分叉点(假定该变量是数值型的)。
决策树的叶子结点包括一个用于做出猜测的输出变量(y)。猜测结果是通过在树的各个分叉途径上游走,直到到达一个叶子结点并输出该叶子结点的类别值而得出。
决策树的学习速度很快,做出猜测的速度也很快。它们在大量问题中往往都很**,而且不需要为数据做任何特殊的预处理预备。
5. 朴素贝叶斯
朴素贝叶斯是一种简略而强大的猜测建模算法。
该模型由两类可直接从练习数据中核算出来的概率组成:1)数据归于每一类的概率;2)给定每个 x 值,数据从归于每个类的条件概率。一旦这两个概率被核算出来,就能够运用贝叶斯定理,用概率模型对新数据进行猜测。当你的数据是实值的时分,通常假定数据符合高斯分布(钟形曲线),这样你就能够很容易地估计这些概率。