神经网络入门之bp算法，梯度下降-CDA数据分析师官网

热线电话：13121318867

神经网络入门之bp算法，梯度下降

2018-08-01

神经网络入门之bp算法，梯度下降

本人作为一个想进行NLP研究的新手，看了很多网络上很好的神经网络的入门代码和数学原理。但是个人数学比较烂，很多东西想了很久才想明白，又害怕忘掉。为此写下这篇大白话入门篇作为自己学习的一个记录，也想为跟我同样想入门的同学们一个参考。希望有问题多多交流。
备注：很多内容都是本人自己想当然的结果，有错误的话，望大神们多多指教。
废话都说完了本文将从一个最简单一个BP网络开始讲起。
bp网络的bp（back propagation）中文就是反向传播的意思，为什么反向传播呢。是为了将配合梯度下降法进行迭代求出好的结果。这个会稍后讲解。

上图来自百度图片（懒得画了）
x为输入，w为权重，这个f(x)被称为激活函数（activation function）。如sigmoid，tanh等。他们的特点有一个就是可以容易的求出他们的导数（很关键）。激活函数的意义可以看这篇神经网络激励函数的作用是什么？有没有形象的解释？
可以看到输出的o = f(w1x1+w2x2+w3x3+w4x4) = f(∑WiXi)。
第一次运算的结果很明显就是上边的o。但是此时问题出来了，运算出来的o和实际的结果肯定式有误差的，该如何利用这个误差优化这个运算呢？也就是得到好的w呢？

梯度下降法

此时就出现了反向传播这个过程。而配合反向传播的就是梯度下降法了。
现在很多同学可能会很晕，当时我第一次看的时候也很晕。
为了容易理解梯度下降法，建议去看Ng的斯坦福网课第二节，非常清楚。比我写的清楚多了。
梯度下降法是求（局部）最好的w。
设误差函数为：

y为实际结果，o为预测结果。
设激活函数f(x)为sigmoid函数，此时就可以很方便的求出其导数了（其他激活函数也是一样）

所以我们要求的就是J最小的时候wi的值。a是变化的速率。下式就可以比作从山顶走到山底的过程，而a表示行走的步长或者是速率。

此时可以发现每一项都是可以求出的，则经过多次运算，可以求出好的Wi
一般我们把前两项作为

此时我们可以发现

BP的原因

上边介绍完了梯度下降，现在再说反向传播理由。其实很简单了。它用的就是链式法则。我们第一步是前向传播，进行一系列运算得到了预测结果o。为了使用梯度下降法，我们需要得到，上边需要的delta，也就是说 J 这个误差函数。因为实际结果我们知道，而激活函数的导数我们也知道怎么运算。所以我们得到预测结果o时，delta就可以求出来。而delta属于输出层的运算，再乘以输入层的Xi就能得到∂

Wi，进一步更新Wi。
很明显可以看出整个一轮的运算是：
前向传播：
输入层—-w—》输出层（sigmoid）—-》预测结果
后向传播：
误差—》输出层(sigmoid)求导—-》输入层—–》更新Wi

换句话说，BP算法就是提供了给梯度下降法所需要的所有值。
由链式法则可知，如果网络层数为3层以上时也可以得到每层的delta。
用python代码来说：
layer_n_delta = layer_n+1_delta.dot((W_n_n+1).T)
(W_n_n+1) += (Xn).T.dot(layer_n+1_delta)

上边有很多符号有点问题，但是我觉得阅读应该没有什么障碍。因为第一次用这个marddown编辑器，很多东西不好弄。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

神经网络 python NLP

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇大数据的挑战：数据质量和历史偏见

下一篇大数据对应用性能管理至关重要

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

神经网络入门之bp算法，梯度下降

梯度下降法

BP的原因

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA数据分析师与标签体系设计：用结构化标签激活数 ...

【CDA干货】重复测量问卷统计分析：实操指南，精准 ...

【CDA干货】一文读懂销售漏斗：定义、核心逻辑及在 ...

CDA数据分析师必备技能：创建表与视图，筑牢数据分 ...

【CDA干货】数据清洗中的假数据鉴别：方法、实操与 ...

【CDA干货】运用机器学习进行分析：从流程拆解到行 ...

CDA数据分析师与数据库：数据价值转化的双向赋能之 ...

【CDA干货】聚类分析与主成分分析（PCA）核心区别全 ...

【CDA干货】K-Means++初始化方法全解析：原理、实操 ...

CDA数据分析师：以专业能力搭建高效指标体系，赋能 ...

CDA一级知识点汇总手册：第5章业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

神经网络入门之bp算法，梯度下降

梯度下降法

BP的原因

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】详解Python类方法：定义、分类、实操与 ...

【CDA干货】MySQL中ADD KEY与ADD INDEX的区别：一文 ...

CDA数据分析师与标签体系设计：用结构化标签激活数 ...

【CDA干货】重复测量问卷统计分析：实操指南，精准 ...

【CDA干货】一文读懂销售漏斗：定义、核心逻辑及在 ...

CDA数据分析师必备技能：创建表与视图，筑牢数据分 ...

【CDA干货】数据清洗中的假数据鉴别：方法、实操与 ...

【CDA干货】运用机器学习进行分析：从流程拆解到行 ...

CDA数据分析师与数据库：数据价值转化的双向赋能之 ...

【CDA干货】聚类分析与主成分分析（PCA）核心区别全 ...

【CDA干货】K-Means++初始化方法全解析：原理、实操 ...

CDA数据分析师：以专业能力搭建高效指标体系，赋能 ...

CDA一级知识点汇总手册：第5章 业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章 战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章 商业数据分析框架 ...

CDA一级知识点汇总手册：第2章 数据分析方法 ...

CDA一级知识点汇总手册：第1章 数据分析思维 ...

【CDA干货】统计模型的分类与应用场景全解析：从理 ...

【CDA干货】SELECT * 与指定个别字段查询效率深度分 ...

指标体系：CDA数据分析师的核心能力载体，用体系化 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载

CDA一级知识点汇总手册：第5章业务数据的特征、处 ...

CDA一级知识点汇总手册：第4章战略与业务数据分析 ...

CDA一级知识点汇总手册：第3章商业数据分析框架 ...

CDA一级知识点汇总手册：第2章数据分析方法 ...

CDA一级知识点汇总手册：第1章数据分析思维 ...