首页 > TAG信息列表 > 梯度

with torch.no_grad() 和 @torch.no_grad()

Pytorch中with torch.no_grad()或@torch.no_grad() 用法 https://www.cnblogs.com/douzujun/p/13364116.html requires_grad=True 要求计算梯度 requires_grad=False 不要求计算梯度 with torch.no_grad()或者@torch.no_grad()中的数据不需要计算梯度,也不会进行反向传播 model.e

深度学习:优化算法

1 梯度下降 为什么梯度下降算法可以优化目标函数? 考虑一类连续可微实值函数\(f: \mathbb{R} \rightarrow \mathbb{R}\), 利用泰勒展开,我们可以得到 \[f(x + \epsilon) = f(x) + \epsilon f'(x) + \mathcal{O}(\epsilon^2). \]\[f(x - \eta f'(x)) = f(x) - \eta f'^2(x) + \mathcal

逻辑回归与梯度下降法全部详细推导

from: https://www.cnblogs.com/onemorepoint/p/9321199.html 逻辑斯谛回归 感知机的一个最大缺点是:在样本不是完全线性可分的情况下,它永远不会收敛。分类算中的另一个简单高效的方法:logistics regression(分类模型) 很多情况下,我们会将逻辑回归的输出映射到二元分类问题的解决方案

【深度学习】——深度学习中的梯度计算

梯度下降在【机器学习基础】中已经总结了,而在深度学习中,由于模型更加复杂,梯度的求解难度更大,这里对在深度学习中的梯度计算方法进行回顾和学习。 本节主要是了解深度学习中(或者说是tensorflow中)梯度的计算是怎么做的。 1. 计算图   在学习tensorflow中,我们知道tensorflow都是基

梯度下降法

本文算是对上次写的题解「洛谷P2571 [SCOI2010]传送带」中讲到的梯度下降法的整理吧。。。 非 \(O(1)\) 复杂度求解多元函数最值的方法有很多:粒子群算法、模拟退火、三分套三分、牛顿迭代法…… 在此介绍梯度下降法。 梯度 了解多元微积分的各位大佬们都知道,梯度是一个向量,指

优化器Optimal

未完成!!!!!! 神经网络的训练主要是通过优化损失函数来更新参数,而面对庞大数量的参数的更新,优化函数的设计就显得尤为重要,下面介绍一下几种常用的优化器及其演变过程: 【先说明一下要用到符号的含义】: 损失函数里一般有两种参数,一种是控制输入信号量的权重(Weight, 简称$ w $),另一种是调

动手实现深度学习(4): 神经网络的backward实现

传送门: https://www.cnblogs.com/greentomlee/p/12314064.html github: https://github.com/Leezhen2014/python_deep_learning   在第二篇中介绍了用数值微分的形式计算神经网络的梯度,数值微分的形式比较简单也容易实现,但是计算上比较耗时。本章会介绍一种能够较为高效的计算

微分,偏导数和梯度以及梯度下降算法笔记

摘自各个视频,为个人笔记,勿喷我抄袭谢谢。 一:关于微分 补一下数学知识。有些遗忘了。又想起了去年刚开始考研的日子,还挺怀念。 1: 对于y = f(x) = 3x    x0->x0+Δx Δy = f(x0+Δx)-f(x0) = 3(x0+Δx)-3x0 = 3Δx 发现,Δy和Δx两者成线性关系。 对于y = f(x) = x^2 Δy = f(x0+Δ

深度学习基础课: “判断性别”Demo需求分析和初步设计(下1)

大家好~我开设了“深度学习基础班”的线上课程,带领同学从0开始学习全连接和卷积神经网络,进行数学推导,并且实现可以运行的Demo程序 线上课程资料: 本节课录像回放 加QQ群,获得ppt等资料,与群主交流讨论:106047770 本系列文章为线上课程的复盘,每上完一节课就会同步发布对应的文章 本文为

了解 Ricci 孤子的行为方式(理论物理 + 偏微分方程)

了解 Ricci 孤子的行为方式(理论物理 + 偏微分方程) Photo by 西拉斯·拜施 on 不飞溅 关于梯度 Ricci 孤子的谐波和双谐波图( arXiv ) 作者 : 沃尔克品牌 抽象的 : 我们从梯度 Ricci 孤子研究谐波和双谐波映射。我们推导出了许多分析和几何条件,在这些条件下谐波映射是恒定的,并且

SE、GRE序列

目录1. 自旋回波序列SE2. 梯度回波序列GRE \(K\) 空间 定义:也称傅里叶空间,是信号强度随位置变化的空间频率域。 是原始信号到图像间的一个过渡,\(K\) 空间的每个采样点都包含了全层所有像素的信息。 \(K\) 空间的中央低频信息对应图像对比度;外围高频信息对应图像边缘细节。 两个

论文笔记 - ToAlign: Task-oriented Alignment for Unsupervised Domain Adaptation

摘要 文章提出了一个 任务导向 的无监督域自适应。认为不是所有的特征都需要对齐,而是根据任务的先验知识,将源域特征分解为与任务相关的要对齐的,和与任务无关的可忽略的。使域对齐主动服务于任务。 1 介绍 以前的 UDA 方法,第一是将源域和目标域整体对齐;第二,是对齐任务和分类任务

线性回归实现

深度学习第一章:最简单的线性回归实现 1. 引言 AI领域的线性回归和其他领域不太一样,包括了名词和实现方式,所以必须先认识重要名词,再把所有步骤熟悉一边,并建立在之前学习线性回归的基础上 2. 学习目的: 知道线性回归是什么 知道线性回归在深度学习领域怎么在python上实现 代码实现,运

为什么Adam 不是默认的优化算法?

由于训练时间短,越来越多人使用自适应梯度方法来训练他们的模型,例如Adam它已经成为许多深度学习框架的默认的优化算法。尽管训练结果优越,但Adam和其他自适应优化方法与随机梯度下降(SGD)相比,有时的效果并不好。这些方法在训练数据上表现良好,但在测试数据却差很多。 最近,许多研究人

3.最优化问题

1.小批量数据梯度下降 在大规模的应用中(比如ILSVRC挑战赛),训练数据可以达到百万级量级。如果像这样计算整个训练集,来获得仅仅一个参数的更新就太浪费了。一个常用的方法是计算训练集中的小批量(batches)数据。例如,在目前最高水平的卷积神经网络中,一个典型的小批量包含256个例子,而整个

神经网络学习-优化算法5

优化算法 本次主要对动量梯度下降算法,RMSprop算法,Adam优化算法的学习进行一个总结,主要对这几个算法的公式和原理进行介绍,对于代码部分可以参考: https://blog.csdn.net/u013733326/article/details/79907419 mini-batch梯度下井 当一个数据集较大时,比如这个数据集内有100万条不同的

VAE

   编码器:概率生成模型    解码器:后验模型    可以用梯度下降法求解下列函数:  

SRTP_Log_20220808

Working Content: 1.测试了原来的函数模型是否使得梯度无法回传 2.重新使用原来框架建立了关于一个简单函数y=-2x+1的模型,并进行拟合   Acquisition: 1.初步认为梯度是没有问题的(理由:使用同一组数据进行操作,发现在用optimizer更新完网络参数之后,输入同一组数据返回的结果不一样(神

PyTorch 深度学习实践 第4讲:反向传播

反向传播(Back Propagation): 视频教程 1.代码说明: forward 计算loss backward 反向计算梯度 由sgd再更新W权重 import torch x_data = [1.0, 2.0, 3.0] y_data = [2.0, 4.0, 6.0] w = torch.tensor([1.0])#选择权重,w=【1.0】 w.requires_grad = True#提醒w需要计算梯度 def for

梯度消失和梯度爆炸

目录0.问题确认0.0 梯度消失0.1 梯度爆炸1.梯度消失 0.问题确认 0.0 梯度消失 异常:RuntimeError: stack expects a non-empty TensorList 打印梯度值,梯度值为0或者非常小,比如 -->grad_value: tensor(3.1044e-10, device='cuda:0') for name, parms in self.model.named_parame

神经网络优化:RMSprop(均方根传播梯度下降法)

最终目的仍是减少振荡方向(b)的更新幅度,提高前进方向(ω)的更新幅度 引入Sdω和Sdb,如公式表达,由于dω<db,求其均方根作为分母,实现ω的更新幅度大,而b的更新幅度小     注意   1. 使用中为了避免出现√Sdω=0导致除数为0的情况出现,应令√(Sdω+ε) (吴恩达视频中建议ε=1e-8)   

神经网络优化-动量梯度下降法(牛顿法)

背景 对于标准梯度下降过程,wt的更新是wt=wt-1-△w,而wt=wt-1-△w仅仅是对于当前点wt的△w,没有对于历史数据的考量(通俗点说叫经验教训) 结果就是下降(优化)过程前进方向速度缓慢,同时产生振荡(如图红线) 据此引入冲量v,令vt=vt-1-△w,由迭代思想知冲量v代表着从初始到当前△w的累积(即过程中

吴恩达机器学习随笔(WEEK_2)

1. 梯度下降法寻找参数,使训练模型的代价函数值最小。梯度下降法就是对代价函数关于参数θ求偏导,不断迭代(一般由迭代次数限制)。梯度下降法找到的参数可能是局部最优解,而并非全局最优解。 2. 特征缩放以及均值归一化。特征缩放是为了将两个或多个范围不同的特征值缩放至近似的范围,从

2.单变量线性回归

1. 一元线性回归(模型描述) 常用符号: m : 训练样本的数量 x : 输入变量/特征 y : 输出变量/预测的目标变量 (x, y): 表示一个训练样本 $$(x^{(i)}, y^{(i)})$$ : 表示特殊训练样本/第i个训练样本 监督学习的工作过程: 2. 代价函数 在线性回归中我们要解决的是一个最小化的问题 Idea:

Rprop 与 RMSprop 优化器

https://www.cnblogs.com/setdong/p/16508415.html 1. Rprop 在 full-batch optimization 中, 一些梯度可能很小, 而另一些梯度可能很大, 故难以寻找一个 global 学习率. 可以使用梯度的 sign 解决这个问题, 保证所有权重更新相同的大小. Rprop 在此基础上又考虑为每个权重单独