Coursera吴恩达《神经网络与深度学习》第一周课程笔记-深度学习概论
作者:互联网
吴恩达深度学习专项课程笔记,共5门课,这是第一门课《神经网络与深度学习》第一周深度学习概论的课程笔记,那我们开始吧。
目录
《1.2什么是神经网络?》What is a neural network?
《1.3用神经网络进行监督学习》Supervised Learning with Neural Networks
《1.4为什么深度学习会兴起?》Why is Deep Learning taking off?
《1.1欢迎》Welcome
学习内容:
专项课程(5门课)中的每门课将持续2—4周
第一门课:神经网络和深度学习基础(四周)
第二门课:深度学习方面的实践,严密的构建神经网络,如何真正让它表现良好。超参数调整,正则化诊断偏差和方差,高级优化算法,如Momentum和Adam算法。(三周)
第三门课:学习如何结构化你的机器学习工程,构建机器学习系统的策略改变了深度学习的错误。端对端深度学习(两周)
第四门课:卷积神经网络,常应用于图像领域,如何搭建这样的模型()
第五门课:序列模型,如何将它们应用于自然语言处理以及其他问题。系列模型包括的模型有循环神经网络RNN,长短期记忆网络LSTM模型,应用于序列数据NLP,或者语音识别或者编曲。
《1.2什么是神经网络?》What is a neural network?
简单来说,深度学习(Deep Learning)就是更复杂的神经网络(Neural Network)。
从预测房价开始,自变量x:size of house(每个房子的面积,多少尺或者多少平方米),因变量y:price(每个房子的价格),根据这些输入输出来建立房价预测模型,来预测房价:y=f(x)。也许可以把这个房屋价格加一个拟合函数,看成是一个非常简单的神经网络。我们把房屋的面积作为神经网络的输入,记为x,通过一个节点(小圆圈),最后输出了价格,用y表示。
一般地,我们会一条直线来拟合图中这些离散点,即建立房价与面积的线性模型。但是从实际考虑,我们知道价格永远不会是负数。所以,我们对该直线做一点点修正,让它变成折线的形状,当面积小于某个值时,价格始终为零。如下图蓝色折线所示,就是我们建立的房价预测模型。
其实这个简单的模型(蓝色折线)就可以看成是一个神经网络,而且几乎是一个最简单的神经网络。我们把该房价预测用一个最简单的神经网络模型来表示,如下图所示:
这个小圆圈就是一个独立的神经元。这个神经元做的就是输入面积,完成线性运算,取不小于0的值,最后输出最终预测价格。在神经网络的文献中,经常看到这个函数,这个函数一开始是零,然后就是一条直线,这个函数称为ReLU函数,全称修正线性单元(rectified linear unit)。修正是指取不小于0的值。ReLU函数在神经网络中比较常见,如图所示:
上面讲的是一个单神经元网络,输入x仅仅是房屋面积的一个因素。规模很小的、大一些的神经网络是把这些单个神经元堆叠起来形成的。
现在,我们把上面举的房价预测的例子变得复杂一些,而不是仅仅使用房屋面积一个判断因素。例如,除了考虑房屋面积(size)之外,我们还考虑卧室数目(#bedrooms)。这两点实际上与家庭成员的个数(family size)有关。还有,房屋的邮政编码(zip code/postal code),代表了该房屋位置的交通便利性,是否需要步行还是开车?即决定了可步行性(walkability)。另外,还有可能邮政编码和地区财富水平(wealth)共同影响了房屋所在地区的学校质量(school quality)。如下图所示,该神经网络共有三个神经元,分别代表了family size,walkability和school quality。每一个神经元都包含了一个ReLU函数(或者其它非线性函数)。那么,根据这个模型,我们可以根据房屋的面积和卧室个数来估计family size,根据邮政编码来估计walkability,根据邮政编码和财富水平来估计school quality。最后,由family size,walkability和school quality等这些人们比较关心的因素来预测最终的房屋价格。
实际上,上面这个例子真正的神经网络模型结构如下所示。它有四个输入,分别是size,#bedrooms,zip code和wealth。在给定这四个输入后,神经网络所做的就是输出房屋的预测价格y。图中,三个神经元所在的位置称之为中间层或者隐藏层(x所在的称之为输入层,y所在的称之为输出层),每个神经元与所有的输入x都有关联(直线相连)。
神经网络的神奇之处在于,当你实现它之后,你要做的只是输入x,就能得到输出y。不管训练集多大,它都会自己完成。所以实际上你要做的就是,已知这些输入的特征x—size/bed rooms/zip code/wealth,神经网络的工作就是,预测对应的y—price价格。这就是基本的神经网络模型结构。在训练的过程中,只要有足够的输入x和输出y,就能训练出较好的神经网络模型,该模型在此类房价预测问题中,能够得到比较准确的结果。
同时注意到,在一个神经网络中,存在“隐藏单元”。值得注意的是,当你输入足够多的(x,y),神经网络非常擅长计算从x到y的精准映射函数。这就是一个基本的神经网络。之后你会发现自己的神经网络在监督学习下是如此有效和强大。
《1.3用神经网络进行监督学习》Supervised Learning with Neural Networks
目前大多数深度学习创造的经济价值都基于一种机器学习:监督学习。由神经网络模型创造的价值基本上都是基于监督式学习(Supervised Learning)的。监督式学习与非监督式学习本质区别就是是否已知训练样本的输出y。在实际应用中,机器学习解决的大部分问题都属于监督式学习,神经网络模型也大都属于监督式学习。下面我们来看几个监督式学习在神经网络中应用的例子。
首先,第一个例子还是房屋价格预测。根据训练样本的输入x和输出y,训练神经网络模型,预测房价。第二个例子是线上广告,这是深度学习最广泛、最赚钱的应用之一。其中,输入x是广告和用户个人信息,输出y是用户是否对广告进行点击。神经网络模型经过训练,能够根据广告类型和用户信息对用户的点击行为进行预测,从而向用户提供用户自己可能感兴趣的广告。第三个例子是电脑视觉(computer vision)。电脑视觉是近些年来越来越火的课题,而电脑视觉发展迅速的原因很大程度上是得益于深度学习。其中,输入x是图片像素值,输出是图片所属的不同类别。第四个例子是语音识别(speech recognition)。深度学习可以将一段语音信号辨识为相应的文字信息。第五个例子是智能翻译,例如通过神经网络输入英文,然后直接输出中文。除此之外,第六个例子是自动驾驶。通过输入一张图片或者汽车雷达信息,神经网络通过训练来告诉你相应的路况信息并作出相应的决策。至此,神经网络配合监督式学习,其应用是非常广泛的。
(例子:房价预测、在线广告、—NN计算机视觉、—CNN语音识别、—RNN机器翻译、RNNs无人驾驶技术—CNN“卷积神经网络结构”框架+混合神经网络。)
我们应该知道,根据不同的问题和应用场合,应该使用不同类型的神经网络模型。例如上面介绍的几个例子中,对于一般的监督式学习(房价预测和线上广告问题),我们只要使用标准的神经网络模型就可以了。而对于图像识别处理问题,我们则要使用卷积神经网络(Convolution Neural Network),即CNN。而对于处理类似语音这样的序列信号时,则要使用循环神经网络(Recurrent Neural Network),即RNN。还有其它的例如自动驾驶这样的复杂问题则需要更加复杂的混合神经网络模型。
CNN和RNN是比较常用的神经网络模型。下图给出了Standard NN,Convolutional NN和Recurrent NN的神经网络结构图。
CNN:卷积神经网络 常用于图像数据
RNN:循环神经网络 处理一维序列数据,其中包含时间成分
机器学习应用于结构化数据和非结构化数据。
结构化数据(Structured Data)是数据的数据库,意味着每个特征都有清晰的定义,比较容易理解。非结构化数据(Unstructrued Data),通常指的是比较抽象的数据,比如音频、原始音频、图像、文本。以前,计算机对非结构化数据比较难理解,而人类很擅长理解非结构化数据,例如我们很容易第一眼就识别出一张图片当中是否有猫。多亏了深度学习,多亏了神经网络,计算机现在能更好地解释非结构化数据,甚至在某些方面优于人类。例如,语音识别,图像识别,自然语音处理。总的来说,神经网络和深度学习无论对结构数据还是非结构数据都处理得越来越好,并逐渐创造出巨大的实用价值。
思考:为什么最近深度学习才成为你可以使用的强大工具?
《1.4为什么深度学习会兴起?》Why is Deep Learning taking off?
深度学习为什么这么强大?下面用一张图来表示,其中x轴为数据量(Amount of data),y轴为表现性能(Performance)。
上图(需记住)共有4条曲线。其中,最底下的那条红色曲线代表了传统机器学习算法的表现,例如是SVM,logistic regression,decision tree等。当数据量比较小的时候,传统学习模型的表现是比较好的(前期增长明显)。但是当数据量很大的时候,其表现很一般,性能基本趋于水平。红色曲线上面的那条黄色曲线代表了规模较小的神经网络模型(Small NN)。它在数据量较大时候的性能优于传统的机器学习算法。黄色曲线上面的蓝色曲线代表了规模中等的神经网络模型(Media NN),它在在数据量更大的时候的表现比Small NN更好。最上面的那条绿色曲线代表更大规模的神经网络(Large NN),即深度学习模型。从图中可以看到,在数据量很大的时候,它的表现仍然是最好的,而且基本上保持了较快上升的趋势。近些年来,海量数据出现,超过了传统算法能处理的数据量级。如何对大数据建立稳健准确的学习模型变得尤为重要。传统机器学习算法在数据量较大的时候,性能一般,很难再有提升。想达到很高的精度,你可以训练规模足够大的神经网络来发挥数据规模量巨大的优点,深度学习模型由于网络复杂,对大数据的处理和分析非常有效。另外在x轴的无穷大的地方,需要大规模数据,因此我们常说,规模一直在推动深度学习的进步。然而,在数据量不大的时候,例如上图中左边区域,深度学习模型不一定优于传统机器学习算法,性能差异可能并不大。
小写m表示训练集的规模或训练样本的数量。
所以说,现在深度学习如此强大的原因归结为如下三个:
在深度学习崛起的初期,是数据(Data)和计算能力规模(Computation)的进展,训练一个特别大的神经网络的能力,无论是在CPU还是在GPU上,是这些发展才让我们取得了巨大的进步,但是近几年,我们也见证了算法(Algorithms)方面的极大创新。有趣的是,大部分算法方面的创新,都为了让神经网络运行得更快。例如:sigmoid函数到ReLu函数,之前神经网络神经元的激活函数是Sigmoid函数,后来改成了ReLU函数。之所以这样更改的原因是对于Sigmoid函数,在远离零点的位置,函数曲线非常平缓,其梯度趋于0,所以造成神经网络模型学习速度变得很慢。然而,ReLU函数在x大于零的区域,其梯度始终为1,尽管在x小于零的区域梯度为0,但是在实际应用中采用ReLU函数确实要比Sigmoid函数快很多。训练神经网络速度加快的另一原因是训练神经网络的过程,构建深度学习的流程是首先产生idea,然后将idea转化为code,最后进行experiment,之后根据结果修改idea,继续idea->code->experiment的循环,直到最终训练得到表现不错的深度学习网络模型。在实现神经网络时,迭代速度对你的效率影响巨大。计算速度的提升真的有帮助提高迭代速度,让你更快的得到实验结果,这也同时帮助了神经网络的从业人员和有关项目的研究人员。
《1.5关于这门课》About this Course
这是第一门课《Neural Networks and Deep Learning》,学习神经网络基础,是深度学习最需要的基础,在结尾时,你将掌握如何建立并运用一个深度神经网络。这门课的教学安排如下:
Details本系列深度学习专项课程安排如下:
第一门课一共四周,每周学习完会有多选题,希望看看。下一周将学习神经网络的编程基础,了解“正向传播”和“反向传播”的结构,还有算法的过程,以及如何高效实现神经网络。
从第二周开始,你也会开始做一下编程练习。
在第三周,你会编写单隐层神经网络,你需要学习所有必需的关键概念,才能实现神经网络。
在第四周,你将建立一个多层的深层神经网络,让它为你服务。
《1.6课程资源》Cource resources
论坛 https://www.coursera.org/learn/neural-networks-deep-learning/home/welcome
的discussion forum
说明:记录学习笔记,如果错误欢迎指正!转载请联系我。
标签:吴恩达,函数,模型,Coursera,学习,神经网络,深度,输入 来源: https://blog.csdn.net/csdn_xmj/article/details/114554522