oneflow

首页 > TAG信息列表 > oneflow

onecloud 云平台编译 oneflow

云平台配置 torch-1.8.1-cu11.2-cudnn8 v0.7.0+1.8.1 6core-42Gi-3090(1Card) clone oneflow # 先卸载旧版 pip uninstall oneflow git clone https://github.com/Oneflow-Inc/oneflow.git cmake 原本的 cmake 3.16.3 版本太低，需要升级到 3.18.0 及以上下载地址: cmake downloa

基于OneFlow实现Unfold、Fold算子

1、从卷积层说起熟悉CNN的小伙伴应该知道卷积是一个很常用也很重要的操作，CNN里的卷积和信号处理的卷积并不是一回事，CNN的卷积是做一种二维的互相关运算，以《动手学深度学习》5.1章为示例：《动手学深度学习》5.1.1. 二维互相关运算窗口内的元素和卷积核相乘，求和得到输出元素，一份n

OneFlow: 启动 Runtime

前言我们前面介绍了从 Op 到 Job，又从 Job 到 Plan，这篇文章将会分析运行时(Runtime)启动，分析 Actor 是如何启动的。运行时启动的时机，发生在启动 Session 的时候，将 Job 编译成一个物理可以执行的 Plan 之后，就可以按照 Plan 启动运行时，启动 Actor 了。流程回顾运行时 Runtime 在什

OneFlow: 从 Job 到 Plan

前言前面分析了如何从一个个 Op 变到 Job，这篇将分析如何从一个个 Job 变成一个 Plan。 Plan 首先来分析看看我们的目标是什么？我们的目标就是一个物理上可以执行的 Plan。OneFlow 在计算上的设计采用了 Actor 机制，计算图上的每个节点由一个 Actor 完成执行。那么 Plan 是如何为 Ac

AI推理与Compiler

AI推理与Compiler AI芯片编译器能加深对AI的理解， AI芯片编译器不光涉及编译器知识，还涉及AI芯片架构和并行计算如OpenCL/Cuda等。如果从深度学习平台获得IR输入，还需要了解深度学习平台如Tensorflow、TVM等。编译器领域的知识本身就非常艰深，和AI模型本身的关系也不是特别紧密，很难将

张建浩：一个开源爱好者的框架开发之路 | OneFlow U

张建浩，网名@大缺弦（人称“大老师”），2018年毕业于中国科学技术大学，ONNX 成员，convertmodel.com、dabnn、DNNLibrary 开源项目作者，现为一流科技工程师。大学时，他曾在 GitHub 发布了一个 Android 控件，意外收获了 300 多个 Star，从此他开始深度探索开源世界，成为数个开源项目作

深度学习框架OneFlow是如何和ONNX交互的？

oneflow-onnx 工具开发者：daquexian， bbuf 0x0. 介绍在开始阅读本篇文章之前，如果你对ONNX不是很了解介意先阅读我之前写的这几篇介绍ONNX文章： ONNX初探ONNX 再探onnx2pytorch和onnx-simplifier新版介绍以及大老师的： onnx simplifier 和 optimizer 然后，这篇文章不会继续探索

仅此一文让您掌握OneFlow框架的系统设计(下篇)

转：仅此一文让您掌握OneFlow框架的系统设计(下篇) 仅此一文让您掌握OneFlow框架的系统设计(下篇) 本文主要介绍OneFlow系统的运行时（Runtime）的运行流程，以及参与运行时的各个模块是如何协同工作的，还探讨了OneFlow的Actor机制如何解决流水线和流控问题（Control Flow）。 https://github.

InsightFace：用OneFlow轻松实现超大规模人脸识别模型

概述人脸识别技术可以准确识别出图像中的人脸和身份，具有丰富的应用场景，譬如金融场景下的刷脸支付、安防场景下的罪犯识别和医学场景下的新冠流行病学调查等等。人脸识别的算法演变经历了以 PCA 为代表的早期阶段，再到以“人工特征+分类器”为主的统计学习方法阶段，近几年，随着

Wide & Deep的OneFlow网络训练

Wide & Deep的OneFlow网络训练 HugeCTR是英伟达提供的一种高效的GPU框架，专为点击率（CTR）估计训练而设计。 OneFlow对标HugeCTR搭建了Wide & Deep 学习网络（WDL)。OneFlow-WDL网络实现了模型并行与稀疏更新，在8卡12G TitanV的服务器上实现支持超过4亿的词表大小，而且性能没有损失与小词

BERT模型的OneFlow实现

BERT模型的OneFlow实现模型概述 BERT(Bidirectional Encoder Representations from Transformers)是NLP领域的一种预训练模型。本案例中，基于论文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding实现了BERT模型的OneFlow版本。模型架构

Yolov3 的 OneFlow 实现

Yolov3 的 OneFlow 实现 1.简介 YOLO 系列的算法(经典的v1~v3)，是单阶段目标检测网络的开山鼻祖，YOLO—You only look once，表明其单阶段的特征，正是由于网络简单，单阶段的效率较快，使其区别于 Faster-RCNN 为代表的两阶段目标检测器，从一开始推出至今，便以速度快和较高的准确率而风靡目

ResNet网络的训练和预测

ResNet网络的训练和预测简介 Introduction 图像分类与CNN 图像分类是指将图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法，是计算机视觉中其他任务，比如目标检测、语义分割、人脸识别等高层视觉任务的基础。 ImageNet 大规模视觉识别挑战赛（ILSVRC），常称为 Image

运行时数据获取

运行时数据获取 OneFlow 提供了 oneflow.watch 与 oneflow.watch_diff 接口，可以通过他们注册回调函数，以方便在作业函数运行过程中获取张量数据或梯度。使用流程想要获取作业函数运行时的数据或者梯度，其基本流程如下：编写回调函数，回调函数的参数需要用注解方式表明监控的数

VS Code 调试 OneFlow

VS Code 调试 OneFlow 本文介绍如何配置 VS Code，搭建 OneFlow 的 GUI 开发环境。如果对于 VS Code 及其插件系统还不熟悉，可以参阅官方文档。本文包括：如何编译 Debug 版本的 OneFlow 远程调试所必需的 VS Code 插件的安装配置编译 Debug 版本的 OneFlow 如果使用 Release

OneFlow 并行特色

OneFlow 并行特色在 Consistent 与 Mirrored 视角中，已经知道 OneFlow 提供了 mirrored 与 consistent 两种看待分布式系统的视角，并且提前知道了 OneFlow 的 consistent 视角颇具特色。因为在 consistent_view 下，OneFlow 提供了逻辑上统一的视角，分布式训练时，用户可以自由选

Consistent 与 Mirrored 视角

Consistent 与 Mirrored 视角在进行分布式训练时，OneFlow 框架提供了两种角度看待数据与模型的关系，被称作 consistent 视角与 mirrored 视角。本文将介绍：数据并行与模型并行的区别及适用场景在分布式任务中采用 mirrored 视角及其特点在分布式任务中采用 consistent

分布式训练

分布式训练深度学习中，越来越多的场景需要分布式训练。由于分布式系统面临单机单卡所没有的分布式任务调度、复杂的资源并行等问题，因此，通常情况下，分布式训练对用户有一定的技术门槛。在 OneFlow 中，通过顶层设计与工程创新，做到了分布式最易用，用户不需要特别改动网络结构和业务逻

OneFlow 概念清单

OneFlow 概念清单本文将对 OneFlow 中涉及到的，常用的一些概念/名词做一个概括性的解释。主要内容针对算法工程师和框架开发者分为以下两部分：算法开发框架开发在算法开发部分，将解释深度学习算法开发过程中常用的一些概念和名词，而在框架开发部分，则侧重于介绍 OneFlow 框架内部

OneFlow系统设计

OneFlow系统设计本文的主要内容如下： OneFlow 的设计目标 OneFlow 的特色一：Actor 机制 OneFlow 的特色二：SBP 机制总结一、OneFlow 的设计目标 OneFlow 的设计目标是追求极致的性能，特别是分布式多机多卡环境下的横向扩展性，希望能让用户使用多机多卡就像使用单机单卡一样容易，且

使用OneFlow搭建神经网络

使用OneFlow搭建神经网络在识别 MNIST 手写体数字的例子中，通过 flow.layers 和 flow.nn 中提供的接口搭建了一个简单的 LeNet 网络。下面，将通过LeNet来介绍 Onflow 中网络搭建的核心元素—算子(op)和层(layer)。 LeNet 是一个主要由卷积层、池化层和全连接层组成的神经网

仅此一文让你掌握OneFlow框架的系统设计(上篇)

仅此一文让你掌握OneFlow框架的系统设计(上篇) OneFlow开源近半年，近期发布了v0.3.2版本，相较于上个大版本，我们又新增了众多算子和功能（如亚线性内存优化、Partial FC、足够灵活易用的新版Checkpoint…），同时完备性（如Serving）、易用性（全新的API）也在快速推进中，敬请期待。两个月前我