神经网络是如何拟合任意函数的
一个最原始粗暴的拟合任意函数的思路,是将函数切成很多段线性函数,之后用逻辑门控制当x在哪一个区间时,某些逻辑门被激活,对应的线性函数的权重w与偏移量b在逻辑门的包裹下变成非0,计算出y在这一段的输出值 ...
一个最原始粗暴的拟合任意函数的思路,是将函数切成很多段线性函数,之后用逻辑门控制当x在哪一个区间时,某些逻辑门被激活,对应的线性函数的权重w与偏移量b在逻辑门的包裹下变成非0,计算出y在这一段的输出值 ...
熵的概念:熵是描述一个系统的混乱程度的度量,最基础的定义是: $S={{k}_{b}}\ln \Omega $ kb是热力统计学里的波尔茨曼常量,单位 焦耳/K,为了简便,在信息学里直接取值1 ...
讲述信息瓶颈理论的核心:信息压缩 之前,需要熟悉交互信息与泛化误差两个概念,不熟悉的建议回顾一下之前的文章 从信息论的角度分析DNN的工作原理 以及 信息在DNN马尔科夫链结构上的变化 信息压缩主 ...
一个典型的SGD过程中,一个epoch内的一批样本的平均梯度与梯度方差,在下图中得到了展示。 无论什么样的网络结构,无论是哪一层网络的梯度,大体上都遵循下面这样的规律: 高信号/噪音比一段时间 ...