首页 > TAG信息列表 > Eta
梯度下降法
本文算是对上次写的题解「洛谷P2571 [SCOI2010]传送带」中讲到的梯度下降法的整理吧。。。 非 \(O(1)\) 复杂度求解多元函数最值的方法有很多:粒子群算法、模拟退火、三分套三分、牛顿迭代法…… 在此介绍梯度下降法。 梯度 了解多元微积分的各位大佬们都知道,梯度是一个向量,指优化器Optimal
未完成!!!!!! 神经网络的训练主要是通过优化损失函数来更新参数,而面对庞大数量的参数的更新,优化函数的设计就显得尤为重要,下面介绍一下几种常用的优化器及其演变过程: 【先说明一下要用到符号的含义】: 损失函数里一般有两种参数,一种是控制输入信号量的权重(Weight, 简称$ w $),另一种是调线代学习笔记:二次型
定义 n元的二次型是n个变量的齐二次多项式函数 $$ f(x_1,x_2,...,x_n) = \sum_{i = 1}^na_{ii}x_{i}^2+2\sum_{i\neq j}a_{ij}x_{i}x_{j} $$ 其中含\(x_{i}^2\)的项称为交叉项用矩阵乘积的形式写出是一个对称矩阵,满足\(f(x_1,x_2,...,x_n) = X^TAX\),其中\(X = (x_1,x_2,...,x_n广义线性模型 GLM
GLM 是什么 GLM 是一种模型,或者说是建模方法,使用 GLM,可以让把现实中的问题转化为机器学习需要的形式,也就是确定自己需要的假设函数 \(h_{\theta}(x)\),从而推出推出所需的最优化目标。需要注意的是,GLM 只能对那些服从指数分布族的问题建模。 什么是指数分布族 The exponential famiALBEF图文检索
代码地址https://github.com/salesforce/ALBEF.git 目的使用少量的图片,训练模型。 准备文件(1) /Users/xuehuiping/git/ALBEF/configs/Retrieval_flickr.yaml train_file: ['/Users/xuehuiping/dataset/flickr_sample/flickr30k_train.json'] val_file: '/Users/xuehuiping/dataset我理解的高等代数3——线性变换
3我理解的高等代数3——线性变换 线性变换 第一节我们介绍了线性空间,他就是一个方格纸。 第二节我们介绍了坐标系变换中,基变换和坐标之间的关系。 接下来让我们考虑在坐标系变换中的变换本身这个东西。 让我们继续回到我们熟悉的情形,让我们重新描述这个过程。 通过一个变换或者说Convergence of the Fractional Step Lax-Friedrichs Scheme and Godunov Scheme for the Isentropic Syste
$$ \begin{align} \rho_t+(\rho u)_x &=U(\rho,u) \\ (\rho u)_t+(\rho u^2 +p(\rho) )_x&=V(\rho,u) \end{align} $$ Compact framework of the approximate solution The difference approximation solution \((\rho^l,m^l)\) satisfy (1) \(0\leq随机变量
目录离散型分布连续型分布随机变量独立性离散型条件分布连续型条件分布卷积公式次序统计量随机向量变换 定义 设 \(\xi(\omega)\) 是定义在概率空间 \(\{\Omega, F,P\}\) 上的单值实函数,且对于 \(\mathbb{R}\) 上的任一波雷尔集 \(B\) 有 \[\xi^{-1}(B) = \{\omega:\xi(\omega)威布尔分布参数估计
什么是威布尔分布 在对设备的故障进行分析时,如果能够找到故障的规律,并将这些规律用数学模型表述出来,从而便于人们对设备的运行趋势有足够判断,这样的过程称为可靠性分析。通常情况下,这些数学模型为某些故障概率,带有一些未知参数,通过对参数的估计得到准确的参数。威布尔分布函Lecture02:均衡问题-优化问题以及KKT等价
目录 1 竞争性博弈问题 1.1 问题转化 1.2 纳什均衡 1.3 优化问题与均衡问题的KKT等价性 2 紧凑模型 3 使用PATH求解器求解MCP模型的GAMS源码 3.1 源码文件 3.2 计算结果 本系列已发布文章列表: Lecture01:市场出清问题的优化建模 Lecture1b: 如何由原始线性规划模型得到最技术周刊2020-11-02
基础知识 随机数的故事 你知道如何生成一个足够随机的随机数吗 进阶知识 webpack-dev-server 运行原理 来了解一下吧 系统实践 云音乐前端体验优化实践 本文主要围绕云音乐在 C 端性能体验的部分实践经历,包括评估标准和监控能力建设,以及在网络、容器等方面的性能优化实践。 系统设广义线性模型GLM
广义线性模型GLM 目录广义线性模型GLM指数分布族指数分布族中常用的分布伯努利分布 Bernoulli泊松分布 Poisson高斯分布(正态分布) Gaussian多变量高斯分布多项式分布 Multinomial假设GLM 与逻辑回归GLM与线性回归线性回归下最大似然估计与最小二乘的统一感谢 判断标准非常简单,响【机器学习基础】神经网络/深度学习基础
神经网络是深度学习的基础,上节提到由LR能够联系到神经网络,本节就对神经网络和BP算法进行一个回顾和总结。 1.由LR到神经网络 前面在逻辑回归的文章末尾提到,当样本是线性不可分时,需要对样本数据进行转换,转换过后在进行分类,那么转换的这个步骤就成为特征的提取的过程,结构如图所总结归纳erf与erfc
总结归纳erf与erfc 首先我们需要知道最基本概念,什么是erf和erfc。 e r f ( x【声学基础】20211007课堂笔记
Ch2.弹性体振动学 Ch1.集中参数系统--质量集中在一点,描述系统的一些参数(质量、弹性系数、力阻)与空间位置无关,弹簧伸长压缩均匀 Ch2.分布参数系统(弹性体)--物体的线度同其振动的传播波长可以相比拟,振动系统的质量在空间有一连续分布,且某一部分质量包含弹性、阻尼性质 引入空间位置变TensorFlow官方文档学习 Keras版MNIST Get Started with TensorFlow
import tensorflow as tf mnist = tf.keras.datasets.mnist #下载mnist图像的数据 (x_train, y_train),(x_test, y_test) = mnist.load_data() #划分训练集和测试集 x_train, x_test = x_train / 255.0, x_test / 255.0 #归一化处关于分级火箭的一点理想化的计算
关于分级火箭的一点理想化的计算 一分级火箭,有 \(M_1\) 质量的外壳,运载 \(M_0\) 质量的载荷。火箭被 \(n\) 个重量为均为 \(M_2\) 的分级装置均匀地分为 \(n+1\) 级,每燃烧完 \(\frac{M}{n+1}\) 质量的燃料,火箭就会抛弃一个分级装置和 \(\frac{M_1}{n+1}\) 质量的外壳(最后一次,即燃《数学分析》笔记:实数集和函数 2
§ 2 数集 · 确界原理 一 区间与邻域 区间 设 \(a,b\in\mathbf{R}\),且 \(a<b.\) 我们称数集 \(\left \{x\ |\ a<x<b\right \}\) 为开区间,记作 \((\ a\ ,\ b\ )\);数集 \(\left \{x\ |\ a\leqslant x\leqslant b\right \}\) 为闭区间,记作 \([\ a\ ,\ b\ ]\);数集 \机器学习:P5-P8 误差的来源 and 梯度下降
P5-P8 误差的来源 and 梯度下降 bias(偏差)+variance(方差) 真实的模型和训练的模型之间的误差是偏差和方差导致的 1.评估bias \(假设x的平均值是\mu,方差\sigma^2\) 取N个样本点,计算平均值\(m,m\neq\mu\) 对很多组的m求期望等于\(\mu\) m分布对于\(\mu\)的方差取决于样本点的个数,机器学习:P3-P4 Regression
Application Stock Market Forecast Self-driving Car Recommendation Linear model 基本形式:\(y=b+\sum w_i x_i\) 损失函数Loss function L : Input: a function, output: how bad it is \(L(f)=L(w,b)=\sum_{n=1}^N(\widehat{y}^n-(b+w*x_{cp}^n))^2\) $f^*=\arg minL(f)java中的双冒号操作符
java中的双冒号操作符 定义 双冒号运算操作符是类方法的句柄,lambda表达式的一种简写,这种简写的学名叫eta-conversion或者叫η-conversion。 通常的情况下: 把 x -> System.out.println(x) 简化为 System.out::println 的过程称之为 eta-conversion 把 System.out::println 简化中值随思
\(\qquad\) 近些年来,各种中值问题层出不穷,很多朋友因此苦恼不已。 \(\qquad\) 其实,中值问题的一般性的解决方法大抵有\(4\)种: 1.考察函数性质(例如零点定理、介值定理、讨论最值点) 2.利用中值定理(\(\text{Fermat}\)引理、\(\text{Rolle}\)定理、\(\text{Lagrange}\)中值定理、\(深度学习的优化器(各类 optimizer 的原理、优缺点及数学推导)
深度学习优化器 深度学习中的优化器均采用了梯度下降的方式进行优化,所谓炼丹我觉得优化器可以当作灶,它控制着火量的大小、形式与时间等。 ♠ 初级的优化器 首先我们来一下看最初级的灶台(100 - 1000 元) Batch Gradient Descent (BGD) 名字叫做批梯度下降,实际上每次迭代会使用全部Deep Learning之数据预处理、损失函数与模型优化技巧
神经网络训练前的准备工作 数据预处理数据增广参数初始化 损失函数的选择优化算法超参数选择技巧模型泛化手段 数据预处理 数据增广 通过对图像进行变换、引入噪声等方法来增加数据的多样性 针对图像数据,常用的一些数据增广方法: 旋转(Rotation):顺时针or逆时针旋转一定角度深度学习在美团配送ETA预估中的探索与实践
1.背景 ETA(Estimated Time of Arrival,“预计送达时间”),即用户下单后,配送人员在多长时间内将外卖送达到用户手中。送达时间预测的结果,将会以"预计送达时间"的形式,展现在用户的客户端页面上,是配送系统中非常重要的参数,直接影响了用户的下单意愿、运力调度、骑手考核,进而影响配送系