2. 神经网络基础：数学模型及原理

本文转载自查看原文 2020-08-15 12:53 539 吴恩达课程/ 旧笔记归档

假如我们接到了一个项目：

要让计算机能够认知图片中的动物是不是猫。

该怎么做？

// 如果看不懂就去补概率论、数理统计、离散数学、线性代数啊啊啊啊

graph TD 问题本质:二分分类问题-->解决方法:线性回归和逻辑回归解决方法:线性回归和逻辑回归-->评价误差:损失函数和成本函数评价误差:损失函数和成本函数-->如何优化:梯度下降法

显然我们不能直接拿着一张图问计算机，这个是不是猫。但是无数巨牛们把它变成了计算机可以理解的问题。

首先从这个问题的问法开始：

【是】或者【不是】猫图。

这个问题只有两个回答：【是】以及【不是】，那么这是一个只有两种结果的问题。

即：

1、二分分类（Binary Classification）

++二分分类问题，即只输出真（True）假（False）两种结果的分类问题++。

我们以一张图片作为输入，想要输出识别此图片的标签，如果是猫则输出1，否则输出0，并用y来表示输出的结果。

即输出只有两种结果：[y = 0]或者[y = 1]。

这就是一个典型的二分分类问题。

但是作为一个抽象图片，是无法被计算机认知的，计算机认知的是图像对应的数据。

来看看一张图片在计算机中是如何表示的：

rgb

它由三个独立矩阵，分别对应红（R）、绿（G）、蓝（B）三个颜色通道。如果输入的是一个64x64的图片，就会有三个64x64的矩阵。上图中，为了方便，使用了5x4的尺寸。

为了用数学的方式表示这张图片，我们需要有一个特征向量（feature vector）x，来把这些像素值都提出来，放入其中。

为了能把这些值放入其中，我们像下面这样定义一个特征向量x：

\[x = \begin{bmatrix} 255\\ 231\\ ...\\ 255\\ 134\\ ...\\ 255\\ 134\\ ...\\ 142 \end{bmatrix} (dimension = n_x) \]

我们把所有的值提出，如红色通道中的255、231等，直到列完所有红色像素，接着是绿色的255、134、220等，把图片中所有的RGB像素强度值都列出来。

如果图片是64x64的，那么向量x的总维度（dimension） 就是64x64x3=12288。我们用n_x来表示输入的特征向量x的维度，有时为了简洁也会用小写的n来表示。

特征向量x包含了原图片的所有RGB通道信息，这样我们就可以用这个特征向量x来代表原图片。

我们的问题就变成了这样：

graph LR 输入:图片的特征向量x-->计算机计算机-->y=1?还是y=0?

++输入特征向量x，让计算机告诉我结果y应该是什么。++

我们现在知道了，“猫图”问题实际上就是一个二分分类问题。

在该二分分类问题中，我们的目标是训练出一个分类器，它以图片的特征向量x作为输入，预测输出的结果标签y是1还是0，也就是预测图片是不是猫。

那么我们应该用什么样的方法来实现分类呢？

让我们先来了解一种方法：

2、线性回归（Linear Regression）

我们已知输入特征向量x是一张图片，我们希望识别出这是（True），或者不是（False） 一张“猫图”，这是一个二分分类问题。

对于这个“猫图识别”问题，我们将对输出结果y的预测值写作y_帽，这个y_帽是一个概率值，即当输入特征x满足条件时，对输出结果y的预测值：

\[\hat{y} = P( y=1 | x ) \]

这是一个条件概率，也就是说，当输入特征向量x（给出图片）时，我们需要y_帽能告诉我们y = 1（这个图是“猫图”）的概率。

那么如何来计算输出预测值y_帽呢？我们可不可以先从一些图片中学习，到底什么样的图是“猫图”，从而掌握“识别猫图”的能力呢？

在这个猫图例子中，我们有一些已经被标记好是否是猫图的图片（即结果y的值已知），我们要通过这些图来总结“猫图”的规律。这些图片的集合，我们称之为“训练集(train set)”，因为我们要用这些图片来训练算法识别“猫图”。

训练集里每一个输入的图片特征向量x以及对应的输出y所组成的(x,y)都可以看做一点，无数训练集的图片及其标签就可以看做是许多(x,y)点的集合。

离散点

而我们要做的就是建立一个模型，将点的分布用一条函数线来表示出来。

连续点

这样就可以预测其趋势，进而对未知结果的测试集(test set) 进行预测，得出预测结果y_帽，也就是得出计算机没见过的图片，是“猫图”的概率。

这就是“线性回归（Linear Regression）”的思想，线性回归用途最多的地方就是做预测。它可以将离散的点集，拟合成一条最符合趋势的连续函数线，从而将看似无规律的点，总结成有明确规律的函数公式（当然总结出的公式不一定完美，不过我们还有其他的办法来评判拟合出的函数的“完美”程度）

【基础】机器学习与深度学习的起点——线性回归

【进阶】线性归回原理和实现基本认识

总结一下就是：

1、我们已知训练集图片的特征向量x，并且已经知道了每个图片的标签y。

2、我们需要用这些已知的(x,y)来学习，得出是猫的图的规律（建立模型，将离散的点拟合成连续的线）。

3、进而就能知道测试集里的图是不是猫图（对于一个连续的函数曲线，给出其x值就可得到对应的y值）。

那么我们可以这样尝试一下：

\[\hat{y} = w^Tx + b \]

这就是一个线性回归(Linear Regression) 的模型。其中的w^T是一个与输入图片x的特征向量维数同为n_x的向量，b是一个常数值。

实际上这个模型和这个直线方程本质上是相同的，只不过其中变量x的值不是一个实数，而是向量而已：

\[y = ax + b \]

我们想要得出x和y的函数关系，就需要知道参数a和b的具体值。对应我们的例子来说，就是需要知道向量w^T和常数b。

所以我们要做的，就是通过大量的训练集数据，来得出最合适的w^T和b来描述训练集中x和y的函数关系。

但是这个模型并不好用，因为对于一个图片，它要么是猫（即y为真，y = 1），要么不是猫（即y为假，y = 0），所以对于y的预测值y_帽（图片是猫图的概率），它的取值只能在[0,1]区间内。

但是对于这个线性回归而言，是没有这个限制的，它可以取非常大的值，甚至可以取负值。

所以简单的线性回归方法，不能解决我们这个二分分类问题，它的值域不受限制。

我们希望有一个方法，它能在我们输入x后，让输出的y的取值范围只在[0,1]区间之内。

那么应该如何做呢？这里我们就需要逻辑回归(Logistic Regression)。

3、逻辑回归（Logistic Regression）

逻辑回归（Logistic Regression）和线性回归（Linear Regression）有什么不同之处？

前面提到了，线性回归对于输出的结果y没有限制，因此无法用在我们这个问题上。而逻辑回归是一个二元分类器，所谓二元分类器，即只有真(1)或者假(0)的分类器，其取值区间是[0,1]，因此我们要用逻辑回归的方法，才能得出我们需要的结果。

通过它可以将我们输入的图片（向量x），进行二元的分类。

逻辑回归从入门到深入

逻辑回归的理解

因此有了以下的新方法：

\[\hat{y} = σ(w^Tx + b) \]

y_帽等于sigmoid函数作用于(w^T + b)上，其中sigmoid函数等于：

\[σ(z) = \frac{1}{1+e^{-z}} \]

这就像给线性回归函数套了一层sigmoid函数的“壳”，sigmoid函数是一个单调函数，其图像是这样的：

sigmoid函数

可以看出当x趋于无限大时，函数的值趋近于1，而x趋近于负无穷时，函数的值趋近于0。

这样我们任意给出输入x，其输出y_帽要么是[0,1]区间内的某个值，符合我们对y_帽是一个概率值的定义，要么极端情况下，y_帽趋近于1（几乎可以肯定是“猫图”）或者趋近于0（几乎不可能是“猫图”），由此我们将y_帽的取值很好地限制在了[0,1]区间内，得到了我们想要的数学模型。

这样我们只需要用训练集的数据，来得出合适的参数w^T和b即可。即通过训练集，“训练”计算机识别猫图。

// 果然核心内容就TM是数学-_-|||

那么这下子问题的本质我们知道了，解决问题的工具我们也有了，可是我们不知道这个逻辑回归的方法，是不是真的很好解决了问题。

之前也说过，不论线性回归还是逻辑回归，都是通过训练集（已知点集），来拟合出函数线，进而对其趋势进行预测。既然是拟合曲线，既然是预测，那么很可能是不“完美”的，预测结果甚至可能和实际结果南辕北辙。

我们需要知道通过这个函数线，我们得出的预测值y_帽到底和真实的y相差多少，从而能够判断出这个办法的“完美”程度。

4、逻辑回归的损失函数（Loss Function）、成本函数（Cost Function）

让我们再来回顾一下逻辑回归的公式：

\[\hat{y} = σ(w^Tx + b) \quad where \quad σ(z) = \frac{1}{1+e^{-z}} \]

为了“训练”出合适的参数w^T和b，我们需要给函数一个含有m个样本的训练集，来使我们的每一个（任意第i个）样本的预测值y_帽⁽ⁱ⁾都尽量与其对应的真实值y⁽ⁱ⁾相等：

\[We want \hat{y}^{(i)} ≈ {y}^{(i)} where \hat{y}^{(i)} = σ(w^Tx^{(i)} + b) σ(z^{(i)}) = \frac{1}{1+e^{{-z}^{(i)}}} \]

可是我们如何才能知道预测值具体和真实值相差多少呢？

损失函数（loss function），或者说误差函数（error function），就是用于衡量我们的预测值y_帽和实际值y有多接近的函数。

我们经常使用方差的方法来评价误差，比如这样定义损失函数，对于m个样本中的任意第i个样本，都有：

\[L(\hat{y},y) = {(\hat{y}^{(i)} - y^{(i)})^2} \]

这是正常情况下我们求方差的方法，但是通常在逻辑回归中，大家不会这么做。

因为后面我们需要讨论优化问题，这样定义的损失函数是非凸的，它可能同时拥有多个峰（谷），计算机无法像我们人一样从图像上一眼看出在某区间内的最值，它需要沿着曲线寻找，这样就容易在某一个小的峰（谷）处停下，误以为已经到达了最值点。

因此这样我们很难找到函数的最值从而得到全局最优解，也就找不到让我们的逻辑回归线最合适的参数w^T和b。

我们需要定义一个不同的损失函数，它有着与误差平方相似的作用，但是它会是一个凸函数（convex function）。它只有一个峰（谷），只要达到它在区间内的峰（谷）处，就一定是它的最值点。

在凸函数里我们很容易找到区间内的最值，这样有利于我们后续进行优化，因此我们像下面这样定义损失函数，对于训练集的某一个样本：

\[L(\hat{y}^{(i)},y^{(i)}) = -(y^{(i)}log\hat{y}^{(i)} + (1 - y^{(i)})log(1 - \hat{y}^{(i)})) \]

我们先验证一下这个函数是不是真的能反映y_帽与y的差距大小。

当y = 1时：

\[L(\hat{y}^{(i)},y^{(i)}) = - log\hat{y}^{(i)} \]

作为一个衡量y_帽与y的差距大小的函数，如果我们希望它尽可能的小，也就是说我们希望：

\[log\hat{y}^{(i)} \]

尽可能大，这个对数函数是一个单调递增函数，想让它尽可能大，就意味着我们需要y_帽尽可能大，而y_帽的取值区间在[0,1]之间，因此y_帽越接近于1，这个函数越小。

也就是说，当y_帽 = y = 1时，这个衡量y_帽与y的差距大小的函数等于零，对于y = 0时也同理。

而相反的，y_帽与y的差距越大时，这个函数的值越大。实际上不仅对于0,1这样的特殊点，对于所有的点，这个函数都有这样的性质。

于是我们发现这个函数能够很好的衡量y_帽与y的差距，并且最重要的，它是一个凸函数，非常有利于我们后续的优化，因此我们将选用它作为我们的损失函数，这个函数在统计学上有一个名字，叫做：

对数损失函数（logarithmicloss function），或者数似然损失函数（log-likelihood loss function）。

对数损失函数是对似然函数取对数得到的一种函数，似然函数是一种关于统计模型参数的函数。给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X的概率：L(θ|x)=P(X=x|θ)。而取对数变成对数损失函数，是为了让其变成凸函数，方便后续优化时寻找全局最优解。

科普：几种常见的损失函数 —— 损失函数有几种？他们都有什么特点？

扩展：逻辑回归为什么使用对数损失函数 —— 为什么对于伯努利分布的逻辑回归模型，对数损失函数和似然函数是等价的？

但是这仅仅衡量了某一对预测值y_帽⁽ⁱ⁾和其对应的真实值y⁽ⁱ⁾ 的差距，训练集中有很多对y_帽⁽ⁱ⁾、y⁽ⁱ⁾，损失函数并不能表现出样本总体的情况。

我们需要知道样本的全局损失，因此我们需要成本函数（cost function）：

\[J(w^T,b) = \frac{1}{m}{\sum_{i=1}^{m}}L(\hat{y}^{(i)},y^{(i)}) = -\frac{1}{m}{\sum_{i=1}^{m}}[y^{(i)}log\hat{y}^{(i)} + (1 - y^{(i)})log(1 - \hat{y}^{(i)})] \]

其中m是用于训练的样本的个数，可以看出，成本函数是对损失函数的累加平均，用于反映样本的总体误差，衡量了样本总体的表现。

这是一个w^T和b的二元函数，因为对于任意给定的输入x，我们得到的预测值，y_帽，只取决于我们训练出的w^T和b这两个参数。

因此实际上评价y_帽⁽ⁱ⁾的表现，就是评价我们训练出的w^T和b这两个参数的表现，所以它是关于w^T和b的函数。

经过我们训练的逻辑回归模型，其w^T和b参数应满足在一定条件下，令成本函数尽可能的小，这样我们得到的模型，才能更准确的进行预测。

我们现在知道了评价每个预测值y_帽⁽ⁱ⁾的损失函数，以及评价样本总体误差的成本函数。

他们可以用来衡量模型中w^T和b参数效果的好坏。

这就像我们学会了给我们训练出的模型打分，那么我们应该如何提高我们模型的分数呢？

为了优化我们的模型，我们需要了解：

5、梯度下降法（Gradient Descent）

回顾一下我们的成本函数：

\[J(w^T,b) = -\frac{1}{m}{\sum_{i=1}^{m}}[y^{(i)}log\hat{y}^{(i)} + (1 - y^{(i)})log(1 - \hat{y}^{(i)})] \]

对于样本中的每一个预测值y_帽⁽ⁱ⁾，我们都把它和其对应的真实值y⁽ⁱ⁾进行了比较，进而衡量了参数w^T和b的效果。

之前说了，成本函数描述了我们样本总体的预测值与真实值的误差大小，我们当然想要预测值越准确越好。

所以我们需要找到一组参数w^T和b，使得成本函数J(w^T,b)尽可能的小。

成本函数J(w^T,b)是一个二元函数，在三维空间中它应该是一个曲面的形式，我们可以画出它大概的函数图像。

成本函数曲面

这个图像的X轴与Y轴，分别是参数w^T和b，而Z轴则是成本函数J(w^T,b)的值，这样我们就能很直观的看出，在不同的w^T和b点出，成本函数的取值大小。

得益于我们之前使用了对数损失函数，而不是简单的方差来衡量预测值与真实值的误差，我们得到的函数图像是一个下凸的曲面。

它是一个凸函数，就像一个大碗，因此我们能从图像中很轻松的找到成本函数J(w^T,b)的最小值点，即图像中的低谷处。

虽然肉眼很容易观察到，但是我们应该用什么数学方法来准确的找到这个点呢？

这就需要梯度下降法（Grandient Descent）。

深入浅出--梯度下降法及其实现

如果成本函数真的是一个大碗，那么如果我们在碗边上放一个小球，这个小球就会沿着碗边滚下去，最后小球一定会停在碗底，到达碗内的最低点。

梯度下降法

梯度下降法就是这样的思想：我们选定一个初始点，然后找到下降的最陡的方向，向着这个方向走一步，到达第二点。然后再寻找下降最陡的方向，向着这个方向走一步…… 如此循环，最终接近甚至达到函数的最值处。

让我们先从一个简单的一元函数开始，来看看梯度下降法具体是怎么做的。

我们假设有一个图像是这样的一元函数f(x)：

梯度下降1

我们选定一点(x₀,f(x₀))作为初始点，然后用这样的方法到达下一个点(x₁,f(x₁))：

\[x_{1} = x_{0} - \alpha\frac{\mathrm{d} f(x_{0} )}{\mathrm{d} x} \]

其中，x₀是初始值，α是一个被称为学习率（learning rate）或者步长的参数，它决定了我们每一步跨越的幅度，也就是决定了我们滚落到谷底处的速度。df(x₀)/dx则是函数f(x)在x₀处的导数值，也就是这一点处的斜率，它描述了在当前位置下，我们应该朝着哪个方向移动。

这样我们找到了下一点的横坐标x₁，那么下一点的坐标就是（x₁,f(x₁)）。

从这个式子中我们可以看出，当导数大于零，即点在函数单调递增的区间上时：

\[- \alpha\frac{\mathrm{d} f(x_{0} )}{\mathrm{d} x} <0 \]

这种情况下得到的x₁ < x₀，新的点（x₁,f(x₁)）是在（x₀,f(x₀)）的左侧，我们向着函数下降的方向前进了一步。

而当导数小于零是，即点在函数的单调递减区间上时，情况正好相反，（x₁,f(x₁)）在（x₀,f(x₀)）的右侧，还是向着函数下降的方向前进了一步。

不论我们在函数曲线额哪一侧，我们总向着低谷所在的方向前进。

这其中，当α越大时，x₁与x₀便相距越远，我们所走的“一步”的步长就越大。

现在我们到了一个新的点（x₁,f(x₁)），从这个点出发，重复上面的过程：

\[x_{2} = x_{1} - \alpha\frac{\mathrm{d} f(x_{1} )}{\mathrm{d} x} \]

梯度下降2

如此循环、迭代，最终我们就能逼近函数的最低点，从而得到最优解。

但是在梯度下降法中，步长α的选择十分关键，如果我们选择的步长α很小，那么我们需要很多次迭代才能最终达到最优解，所花费的时间可能非常非常长，而如果步长α选择的过大，很有可能出现下面的情况，“一步跨过”最优解，从而导致结果不收敛，甚至发散。

这个图是其中一种步长α过大的情况。在点（x_n,f(x_n)）处，通过计算我们能知道下一点（x_n+1,f(x_n+1)）应该在这一点的左侧，但是因为步长α设置的过大，我们一下子跨过了最低点，到了单调递减区间，并且新点处f(x_n+1)>f(x_n)，在这里我们再次计算后得知下一点（x_n+2,f(x_n+2)）应该在（x_n+1,f(x_n+1)）的右侧，然而因为步长过大，我们又一次跨过了最低点到了（x_n+2,f(x_n+2)），并且f(x_n+2)>f(x_n+1)。这导致了一个严重的后果，就是在这种情况下，我们不但得不到收敛的结果从而逼近最低点，反而得到了一个发散的结果，离最优解越来越远。

梯度下降法在越靠近最优解点处，由于梯度的降低，我们的靠近速度将越来越慢，而如果步长α选择过小，将导致我们短时间内很难靠近最优解点。

接下来我们扩展到多维空间中，来看看对于一个凸曲面，梯度下降法是如何做的，假设我们有一个二元函数f(x,y)，我们先定义叫做梯度的量：

\[\bigtriangledown f(x,y) =\left \langle \frac{\partial f(x,y)}{\partial x} , \frac{\partial f(x,y)}{\partial y} \right \rangle \]

梯度是一个向量，它的两个分量分别是两个变量的偏导数。其意义是在该点处，上升最快的方向。对于之前的一元函数而言，其梯度就是所在点的切线方向。

来看一个实例，比如我们假设f(x,y) = x³ + y²，那么它的梯度应该是：

\[\bigtriangledown f(x,y) =\left \langle \frac{\partial f(x,y)}{\partial x} , \frac{\partial f(x,y)}{\partial y} \right \rangle = \left \langle 3x^{2}, 2y \right \rangle \]

假设我们现在在这个函数x = 1，y = 2处，那么该处的梯度就是：

\[\bigtriangledown f(1,2) = \left \langle 3, 4 \right \rangle \]

也就是说，对于函数f(x,y) = x³ + y²，它从x = 1，y = 2处出发，沿着向量<3,4>的方向上升最快。

那么此时对于一个曲面，用梯度下降法从(x1,y1,f(x1,y1))的公式是：

\[(x_{1},y_{1}) = (x_{0},y_{0}) - \alpha \bigtriangledown f(x_{0},y_{0}) \]

其中梯度是上升最快的方向向量，因此我们需要添加负号，才是我们要求的下降方向。

对于更高维度依旧如此，只是无法简单的从图像表示出来，但是做法是相同的。

相对应的梯度是：

\[\bigtriangledown f(x_1,x_2,x_3...,x_n) =\left \langle \frac{\partial f(x_1,x_2,x_3...,x_n))}{\partial x_1} , \frac{\partial f(x_1,x_2,x_3...,x_n))}{\partial x_2} , \frac{\partial f(x_1,x_2,x_3...,x_n))}{\partial x_3} , ... , \frac{\partial f(x_1,x_2,x_3...,x_n))}{\partial x_n} , \right \rangle \]

因此，假设初始点，以及初始点处的梯度是：

\[(x_{1_0},x_{2_0},x_{3_0}...,x_{n_0}) \quad and \quad \bigtriangledown f(x_{1_0},x_{2_0},x_{3_0}...,x_{n_0}) \]

那么由梯度下降法，第二点的坐标就是:

\[(x_{1_1},x_{2_1},x_{3_1}...,x_{n_1}) = (x_{1_0},x_{2_0},x_{3_0}...,x_{n_0}) - \bigtriangledown f(x_{1_0},x_{2_0},x_{3_0}...,x_{n_0}) \]

不断迭代下去，最终就能得到函数的全局最优解。

回到“猫图识别”的例子，我们想要利用梯度下降法进行优化的，是我们的成本函数。

\[J(w^T,b) = \frac{1}{m}{\sum_{i=1}^{m}}L(\hat{y}^{(i)},y^{(i)}) = -\frac{1}{m}{\sum_{i=1}^{m}}[y^{(i)}log\hat{y}^{(i)} + (1 - y^{(i)})log(1 - \hat{y}^{(i)})] \]

我们想要求得一组w^T和b使得我们的成本函数最小。但是这里w^T是一个向量，而非一个实数。

\[w^T = \begin{bmatrix} w_1, & w_2, & w_3, & ..., & w_n \\ \end{bmatrix} (dimension = n_x) \]

输入的特征向量x也是一个n_x维向量：

\[x = \begin{bmatrix} x_1\\ x_2\\ ...\\ x_n\\ \end{bmatrix} (dimension = n_x) \]

实际上我们的预测值可以写成：

\[\hat{y} = σ(w^Tx + b) = σ(w_{1}x_{1} + w_{2}x_{2} + ... + w_{n}x_{n} + b) \]

因此最终成本函数可以写成：

\[J(w^T,b) = J(w_1,w_2...,w_{nx},b) \]

它的梯度是：

\[\bigtriangledown J(w_1,w_2...,w_n,b) =\left \langle \frac{\partial J(w_1,w_2,...,w_n,b)}{\partial w_1} , \frac{\partial J(w_1,w_2,...,w_n,b))}{\partial w_2} , ... , \frac{\partial J(w_1,w_2,...,w_n,b)}{\partial w_n} , \frac{\partial J(w_1,w_2,...,w_n,b)}{\partial b} \right \rangle \]

然后我们就可以用梯度下降法求出全局最优解，从而找到最合适的参数w^T以及b，达到“训练”的效果。

小结：

在“猫图识别”例子中，我们解决问题的过程是这样的：

问题本质：二分分类
解决方法：逻辑回归
效果评判：损失函数及成本函数
进行优化：梯度下降法

内容的一些符号说明

我们用一对（x，y）来表示一个单独的样本，x是nx维的特征向量，标签y值为0或1。

训练集是一个包含m个样本的集合，我们用（x⁽¹⁾，y⁽¹⁾）来表示样本1的输入和输出，（x⁽²⁾，y⁽²⁾）表示样本2的输入和输出，以此类推。这些就表示训练样本集整体，m为训练样本个数，有时候为了强调，也写作m_train，因为有时候我们需要用m_test来表示测试集样本数量。

最后，我们需要用更紧凑的符号表示训练集。

我们用大写X来表示一个矩阵，它由训练集中的x₁、x₂这些组成，我们将x⁽¹⁾放进矩阵的第一列，x⁽²⁾放进矩阵的第二列，以此类推，最后得到矩阵X，这个矩阵有m列，矩阵高度为x^(m)的维数n_x，在矩阵X中，我们将训练样本x^(m)作为行向量堆叠，而不是作为列向量堆叠，是因为构建神经网络时，这样做会让构建过程简单得多。

/↑↑↑ 为什么？ 答：可以使用.np函数直接运用矩阵进行计算，省去for遍历循环，提高效率。 2018.12.12 /

由此，X是一个n_x x m的矩阵。为了方便构建一个神经网络，将标签y^(m)也放入各列中，组成一个矩阵Y。

在python实现中，X.shape()是一个方法，其作用是输出矩阵的维度，因此X.shape = (n_x,m)，Y.shape = (1,m)。

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 2. RNN神经网络模型的不同结构神经网络模型的原理最小割的数学模型常用数学模型整理神经网络基础篇 6数学模型和数学建模 002-深度学习数学基础(神经网络、梯度下降、损失函数) SPSS神经网络模型神经网络模型拆分神经网络语言模型NNLM