首页 > TAG信息列表 > ImageNet

论文推荐-使用 Noisy Student 进行自训练可以提高 ImageNet 分类的表现

教师学生模型、伪标签、半监督学习和图像分类 使用 Noisy Student 进行自训练改进 ImageNet 分类是一篇由 Google Research、Brain Team 和Carnegie Mellon大学发表在2020 CVPR的论文 Noisy Student在训练时使用相等或更大的学生模型和在学习期间添加噪声(Dropout, Stochastic Dep

2021 BDCI 华为零售商品识别竞赛一等奖方案分享

【GiantPandaCV导语】上学期快结束的时候参加了华为和CCF组织的零售商品识别的比赛,队伍名称为GiantPandaCV队,比赛大约持续了两个月,期间从开始摸索MindSpore框架,配置环境,上手ModelArts花费了不少功夫。现在比赛终于告一段落,本文进行一下复盘。 背景 CCF大数据与计算智能大赛(C

2021 BDCI 华为零售商品识别竞赛一等奖方案分享

【GiantPandaCV导语】上学期快结束的时候参加了华为和CCF组织的零售商品识别的比赛,队伍名称为GiantPandaCV队,比赛大约持续了两个月,期间从开始摸索MindSpore框架,配置环境,上手ModelArts花费了不少功夫。现在比赛终于告一段落,本文进行一下复盘。 背景 CCF大数据与计算智能大赛(CCF Bi

将ImageNet的验证集val数据分类到不同文件夹中

感谢中科院,感谢东南大学,感谢南京医科大,感谢江苏省人民医院的支持 不多说了,直接上代码 需要指出的是,imagenet-1k的test数据集是没有标签的。 一开始,val数据是这样的, 处理好的验证数据集 最终数据全部对应上了,train数据集和test数据集中每个子类都对应上了 第一步,生成val中

iBOT:使用在线Tokenizer对图像进行BERT式预训练

Zhou, Jinghao, Chen Wei, Huiyu Wang, Wei Shen, Cihang Xie, Alan Loddon Yuille and Tao Kong. “iBOT: Image BERT Pre-Training with Online Tokenizer.” ArXiv abs/2111.07832 (2021). 1 Abstract 语言Transformers的成功主要归功于掩码语言

CoAtNet:将卷积和注意力结合到所有数据大小上

CoAtNet:将卷积和注意力结合到所有数据大小上 注:Transformers 翻译为变形金刚,这个名字太酷了! 摘要 变形金刚在计算机视觉领域吸引了越来越多的兴趣,但它们仍然落后于最先进的卷积网络。在这项工作中,我们表明,虽然变形金刚往往具有更大的模型容量,但由于缺乏正确的归纳偏置,其泛化

讲座报名,与曾刷新ImageNet纪录的尤洋共赴技术之约

曾刷新ImageNet纪录的尤洋,带着他的最新研究,来UserGroup北京区分享啦! 他,是新加坡国立大学计算机系的校长青年教授 (Presidential Young Professor),加州大学伯克利分校博士。 他,曾创造ImageNet以及BERT训练速度的世界纪录!被ScienceDaily,The Next Web,i-programmer等几十家媒

mini_imagenet 数据集生成工具 (续)

续接前文:  mini_imagenet 数据集生成工具         ============================================   前文接受了mini_imagenet数据集的生成,但是few shot learning常用的episode学习方法是在数据集的基础上划分task episode,每个episode相当于是一个task,比如把数据集划分2000

[Transformer]Is it Time to Replace CNNs with Transformers for Medical Images?

医学图像中Transformer可以取代CNN了吗? AbstractSection II Related WorkSection III MethodsSection IV ExperimentsAre random initialized transformers useful?Does pretraining transformers on ImageNet work in the medical domain?Do transformers benefit from se

数据集处理(二)——Tiny-imagenet

目录 一、引言二、下载数据三、数据形式四、自定义数据加载 一、引言   最近在做一些大规模数据集(ImageNet-1k、ImageNet-21k)的实验之外,还做了一些小数据集的 ablation study。其中pytorch有自带的cifar10、cifar100数据加载,而Tiny ImageNet是没有的。于是简单在此记录

【论文精读】Deep Residual Learning for Image Recognition(ResNet)理论部分

Deep Residual Learning for Image Recognition 摘要 ​ 对于那些比之前所使用的网络深的多的网络,作者提出了一种残差学习框架来缓和训练这种网络的难度。 ​ 作者明确地将这些层重组为关于层输入的残差学习函数,而不是学习新公式的函数。 ​ 作者提供了广泛的经验性的证据,证

Competition——ML/DL:机器学习、深度学习各种计算机视觉、自然语言处理、科学预测等等比赛竞赛简介

Competition——ML/DL:机器学习、深度学习各种计算机视觉、自然语言处理、科学预测等等比赛竞赛简介 相关内容 Competition——互联网比赛(编程相关):国内外各种互联网比赛举办时间、条件、细节等详细攻略Competition——AI:国内外人工智能比赛平台以及竞赛类型、竞赛题目、举行时间

Imagenet VGG-19网络加载和特征可视化

这篇文章主要阐述加载已经训练好的Imagenet VGG-19网络对图像猫进行识别,并且可视化VGG网络卷积层的特征图像。 下载Imagenet VGG-19 http://www.vlfeat.org/matconvnet/models/beta16/imagenet-vgg-verydeep-19.mat 加载Imagenet VGG-19 完整代码如下: import scipy.io import num

一种联合分类与检测训练的方法——YOLO9000

文章目录 1.YOLO9000介绍1)Hierarchical classification(分层分类)2)Dataset combination with WordTree(使用WordTree组合数据集)3)Joint classification and detection(联合分类与检测) 2.总结 yolo9000是yolov2论文中的Stronger章节的内容,由于在查找总结yolov2的时候要看yol

最强Transformer发布!谷歌大脑提出ViT-G:缩放视觉Transformer,高达90.45%准确率!

Scaling Vision Transformers 论文:https://arxiv.org/abs/2106.04560 1简介 视觉Transformer(ViT)等基于注意力的神经网络最近在许多计算机视觉基准测试中取得了最先进的结果。比例是获得出色结果的主要因素,因此,了解模型的scaling属性是有效设计的关键。虽然已经研究了扩展Trans

TVM性能评估分析(五)

TVM性能评估分析(五)              Figure 3.  A futher speed up with operator fusion      Table 1.  Performance issue of cuBLAS’ batch matmul      Table 2.  Finding the best combination of number_thread. The results are obtained on a NVIDIA M40 G

ImageNet编号和具体类别对应的关系表

原链接 https://gist.github.com/aaronpolhamus/964a4411c0906315deb9f4a3723aac57   1 kit_fox 2 English_setter 3 Siberian_husky 4 Australian_terrier 5 English_springer 6 grey_whale 7 lesser_panda 8 Egyptian_cat 9 ibex 10 Persian_cat 11 cougar 12 gazelle 13 po

文献阅读(十):AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

文献阅读(十):AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE ABSTRACT1 INTRODUCTION2 RELATED WORK3 METHOD3.1 VISION TRANSFORMER (VIT)3.2 FINE-TUNING AND HIGHER RESOLUTION 4 EXPERIMENTS4.1 SETUP4.2 COMPARISON TO STATE OF THE ART4

mean = np.array([0.485,0.456,0.406]) std = np.array([0.229,0.224,0.225])

使用Imagenet的均值和标准差是一种常见的做法。它们是根据数百万张图像计算得出的。如果要在自己的数据集上从头开始训练,则可以计算新的均值和标准差。否则,建议使用Imagenet预设模型及其平均值和标准差。 对于我们特定数据集,如遥感图像或者医学图像不采用该处理方式。

论文笔记:CNN经典结构2(WideResNet,FractalNet,DenseNet,ResNeXt,DPN,SENet)

###前言 在论文笔记:CNN经典结构1中主要讲了2012-2015年的一些经典CNN结构。本文主要讲解2016-2017年的一些经典CNN结构。 CIFAR和SVHN上,DenseNet-BC优于ResNeXt优于DenseNet优于WRN优于FractalNet优于ResNetv2优于ResNet,具体数据见CIFAR和SVHN在各CNN论文中的结果。ImageNet上,SENet

让图像识别准确率瞬间下降40个点,「江苏卷」版ImageNet你考得过吗?

近日,MIT 联合 IBM 研究团队提出了一个数据集,在它上面测试的图像识别 SOTA 模型的性能下降了 40 多个点。图像识别是计算机视觉中最为成熟的领域了。从 ImageNet 开始,历年都会出现各种各样的新模型,如 AlexNet、YOLO 家族、到后面的 EfficientNet 等。这些模型都在刷新着各种图像识别

Octave Convolution卷积

Octave Convolution卷积 MXNet implementation 实现for: Drop an Octave: Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution ImageNet Ablation Loss: Softmax Learning rate: Cosine (warm-up: 5 epochs, lr: 0.4) MXNet API: Symbol AP

VGG16迁移学习实现

VGG16迁移学习实现 本文讨论迁移学习,它是一个非常强大的深度学习技术,在不同领域有很多应用。动机很简单,可以打个比方来解释。假设想学习一种新的语言,比如西班牙语,那么从已经掌握的另一种语言(比如英语)学起,可能是有用的。 按照这种思路,计算机视觉研究人员通常使用预训练 CNN 来生成

Tensorflow2.0 用 tf.keras.applacations 迁移学习时如何在导入 imagenet 权重的同时保留分类层

项目说明 在 Tensorflow2.0之tf.keras.applacations迁移学习 一文中,我们演示了如何将迁移学习层和自定义的分类层结合起来使用,但这里有个问题,就是当你再次打印结合后的模型的每层的名称时,会出现如下情况: import tensorflow as tf mobile = tf.keras.applications.MobileNet(

预训练网络(迁移学习)

预训练网络 预训练网络是一个保存好的之前已在大型数据集(大规模图像分类任务)上训练好的卷积神经网络。如果这个原始数据集足够大且足够通用,那么预训练网络学到的特征空间层次结构可以作为有效的提取视觉世界特征的模型。 即使新问题和新任务与原始任务完全不同,学习到的特征在不