吴恩达公开课-01

1. Introduction¶

一部分数据给出正确结果

预测结果类型

不给出正确结果

e.g.

Octave

(Input) Training Set -> Learning Algorithm -> Hypothesis (Output)

如何选择 $h_\theta(x)$ 中的 $\theta$ 参数，让函数尽量好地和数据点拟合

即最小化 $\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$

定义代价函数 $J(\theta_0, \theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$

Squared error function, 这里的½项是为了方便梯度计算

将函数简化为 $h(x)=\theta_1x$ , 则问题变成了

$\min \limits_{\theta_1}\frac{1}{2m}\sum_{i=1}^{m}(\theta_1x^{(i)}-y^{(i)})^2$

根据 $h_\theta(x)$ 可以画出 $J(\theta_1)$ 函数的图像，是一个关于 $x=1$ 对称的函数

回到原来的 $J(\theta_0, \theta_1)$ 函数

函数三维图像，也是一个弓形曲面

算法自动找到合适的参数 $\theta$

用梯度下降最小化 $J$

for j=0 to j=1

$\theta_j:=\theta_j-\alpha\frac{\partial}{\partial \theta_j}J(\theta_0, \theta_1, ..., \theta_n)$

注意是同时更新，即上式右边的 $\theta$ 都是旧的值，计算后对结果进行暂存，之后统一更新

即使 $\alpha$ 不变，梯度下降的步长也会逐渐减小，因为每个 $\theta$ 的偏导逐渐减小

对 $J(\theta_0, \theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x_{(i)})-y_{(i)})^2$ 中的 $\theta_0$ 和 $\theta_1$ 分别求偏导，就是Linear Regression

Batch Gradient Descent: 每一步都使用所有的训练样例来完成梯度下降

线性回归的代价函数 $J$ 是凸函数，没有局部最优解

Normal Equation方法不用多次迭代，可以直接进行最小化计算，不过梯度下降scale better to larger data sets than normal equation method