1.机器学习与微积分-白红宇

1.机器学习与微积分

阅读量：2239 次

发布时间：2019-05-09

本文共 2877 字，大约阅读时间需要 9 分钟。

注：以下内容整理于七月算法2016年4月班培训讲义，详见： http://www.julyedu.com/

重点摘要：

机器学习简介

高等数学

概率论

一、机器学习简介

1.机器学习是什么？

计算机从已有数据中学习出规律和模式，在新数据上做出预测。

2.学习 = 在某项任务上总结与积攒经验，即积累知识

a) 在任务T上提升

b) 用P作为评估标准

c) 基于经验E

例如：中国象棋

a) 任务T：下中国象棋

b) 性能目标P：比赛中击败对手的百分比

c) 训练经验E：与自己对弈，或者参考棋谱自学习

3.机器学习分类：

a) 监督学习：输入数据有标签，即针对给定的特征，必须有标准答案。

*分类：标准答案是离散的，比如电影类型

*回归：标准答案是连续的，比如数据库表空间使用率预测、房价预测

b) 无监督学习：聚类，输入数据没有标签。例如：新闻分类

c) 强化学习：动态系统或机器人控制，行为认知启发

二、高等数学：

1.极限存在准则Ⅰ：夹逼定理

a) 当x∈U(x0,r)时，g(x)<=f(x)<=h(x)，

b) 当x→x0时，limg(x)=A，limh(x)=A，

那么，当x→x0时，limf(x)存在且等于A

应用：当x趋近于0时，sinx/x的极限为1

2.极限存在准则Ⅱ：单调有界数列必有极限

3.导数：通过极限进行定义，换言之，导数也是极限

a) 定义

设函数y=f(x)在点x0的某邻域内有定义，当自变量x取得增量Δx(x0+Δx仍在邻域内)，相应地函数取得增量Δy=f(x0+Δx)-f(x0)，

如果当Δx→0时，Δy/Δx的极限存在，则称函数y=f(x)在x0处可导。

b) 一阶导数：斜率，反应曲线变化的快慢

应用：求函数的极值

驻点：一阶导数为0的点，驻点是极值点的必要而非充分条件。

极值点：若某点的两侧一阶导数变号，则该点为极值点

c) 二阶导数：反应斜率变化快慢，表征曲线的凸凹性

凸凹性：若二阶导数大于0，则曲线是凸的，否则是凹的。（注意：该定义与高等数学教材上的定义相反）

拐点：若某点的两个二阶导数变号，则该点为拐点。二阶导数等于0是判断某点是否是拐点的必要非充分条件。

d) 常用函数的导数(略)

4.泰勒公式：将复杂函数用一个关于(x-x0)的n次多项式函数近似化

即对于一个复杂的函数f(x)，我们要找到一个多项式函数g(x)，该多项式函数是一个关于(x-x0)的n次多项式函数，使得f(x)≈g(x)，该怎么做？

我们设 g(x) = a0 + a1(x-x0) + a2(x-x0)^2 + ... + an(x-x0)^n

然后，怎样求系数a0、a1...an呢？

答案是，分别求f(x)和g(x)的零阶导数(没错，就是让f(x)=g(x)的意思)、一阶导数、二阶导数、三阶导数直到n阶导数，分别让它们相等即可。

泰勒公式中值定理：若f(x)在含有x0的某开区间（a，b）内具有直到n+1阶的导数，则当x∈（a，b）时，有

麦克劳林公式：当x0等于0时，上述公式即为麦克劳林公式

应用：

数值计算：sin(x)

考察基尼系数的图像、熵、分类误差率三者之间的关系

5.方向导数：偏导数反应的函数沿坐标轴方向的变化率。方向导数反应的是函数f(x,y)在沿方向l的变化率。

在点(x0,y0)处的方向导数=fx(x0,y0)*cosα+fy(x0,y0)*cosβ (其中，cosα和cosβ为方向l的方向余弦，fx(x0,y0)和fy(x0,y0)分别为f(x,y)对x和y的偏导数)

6.梯度

设z=F(x,y)，则在点P(x0,y0)的向量(Fx(x0,y0),Fy(x0,y0))为该点的梯度。

记作：gradF(x0,y0)=Fx(x0,y0)*i+Fy(x0,y0)*j (i、j为沿坐标轴方向的单位向量)

7.沿梯度的方向是函数在该点的方向导数取得最大值的方向，梯度的模等于方向导数的最大值。

8.凸函数：二阶导数大于0

若f是凸函数，则f(θx1+(1-θ)x2) <= θf(x1)+(1-θ)f(x2)

三、概率论：

1.随机试验

a) 相同条件下可重复进行

b) 试验前可明确试验的所有可能

c) 试验前不能确定哪一个结果会出现

2.随机变量

设随机试验的样本空间为S={e}，X=X(e)是定义在样本空间S上的实值单值函数，称X=X(e)为随机变量

3.分布函数

设X是一个随机变量，x是任意实数，函数 F(x)=P{X<=x}，-∞<x<+∞，称F(x)为X的分布函数

a) F(x)为单增函数

b) 0<=F(x)<=1

c) 若F(x)可导，其导函数称为概率密度函数

4.古典概型

a) 样本有限：样本空间中只包含有限个元素

b) 等可能：每个基本事件发生的可能性相同

5.概率公式

加法公式：p(A+B)=p(A)+p(B)-p(AB)

减法公式：p(A-B)=p(A)-p(AB)

乘法公式：P(AB)=p(A)*p(B|A)

全概率公式：p(A)=sum(p(A|Bi)*p(Bi))

贝叶斯公式：p(Bi|A)=p(Bi)*p(A|Bi)/sum(p(A|Bj)*p(Bj)) (Bj为样本空间的一个划分，j=1,2,3...n)

6.频率学派与贝叶斯学派

7.先验概率和后验概率

贝叶斯公式

给定某系统的若干样本X，计算该系统的参数θ，即P(θ|X)=P(θ)*P(X|θ)/P(X)

* P(θ):在没有数据支持下，θ发生的概率：先验概率

* P(θ|X):在给定数据X的情况下，θ发生的概率：后验概率

* P(X|θ):给定某参数θ的概率分布：似然函数

可参考：http://ask.julyedu.com/question/150

8.概率分布

a) 0-1分布

随机变量X只取0和1两个值，P(X=1)=p

E(X)=p

D(X)=p(1-p)

b)二项分布

设试验E值可能取两种结果，P(A)=p(0<p<1)，将E独立重复进行n次，称为n重伯努利试验

X~b(n,p)

E(X)=np

D(X)=np(1-p)

c)泊松分布

设随机变量X所有可能的取值为0,1,2....取各个值得概率为P(X=k)=λ^k*e^(-λ)/(k!)，记作 X~π(λ)

E(X)=λ

D(X)=λ

d)均匀分布

若连续性随机变量X具有概率密度

f(x)=1/(b-a) (a<x<b，x取其他值时f(x)为0)

则称X在区间(a,b)上服从均匀分布，记为X~U(a,b)

E(X)=(a+b)/2

D(X)=(b-a)^2/12

e)指数分布：具有无记忆性

若连续性随机变量X的概率密度为

f(x)=λe^(-λx) (x>0,x取其他值时f(x)为0)

其中λ>0为常数，则称X服从参数λ的指数分布，记作X~E(λ)

E(X)=1/λ

D(X)=1/λ^2

f) 正态分布

E(X)=μ

D(X)=σ^2

9.Sigmoid函数

f(x)=1/(1+e^(-x))

你可能感兴趣的文章

Bagging 简述

查看>>

详解 Stacking 的 python 实现

用 Doc2Vec 得到文档／段落／句子的向量表达

手把手用 IntelliJ IDEA 和 SBT 创建 scala 项目

Logistic regression 为什么用 sigmoid ？

查看>>

Logistic Regression 为什么用极大似然函数

用 TensorFlow.js 在浏览器中训练神经网络

查看>>

cs230 深度学习 Lecture 2 编程作业： Logistic Regression with a Neural Network mindset

查看>>

梯度消失问题与如何选择激活函数

查看>>

为什么需要 Mini-batch 梯度下降，及 TensorFlow 应用举例

查看>>