其他分享
首页 > 其他分享> > 文献阅读_辅助穿戴_Assistive Technology for the Blind

文献阅读_辅助穿戴_Assistive Technology for the Blind

作者:互联网

文笔很怪,看着不连贯

 

Abstract&Conclusion

相机+YOLO+LSTM+Inception V3+音频

啊,时代真好。

未来加入情感识别和距离检测。

Introduction

RW

早期工作有由避障系统衍生的'virtual white cane'基于激光测距的‘一戳知距’,'Path Force feedback belt'基于3D建模进行力反馈,Smart cane基于超声波的,贵、不准(水)、供电

'Silicon Eyes'基于GPS+GSM+触觉反馈+色反馈集成在手套,'obstacle avoidance using auto-adaptive thresholding method'远距离提醒,近距离导航

'Eye substitution'GPS+GSM+超声波(看意思是'Smart cane'的升级,作者没有指出太多缺点)###

' remote guidance system'相机+GPS+GSM, 批:需要一个人工引导员太局限了

'wearable navigation aid for blind ',震动反馈的,也是需要人工引导

'Pathfinder',基于红外的,针对距离的

技术上有激光的 超声的 红外的,反馈上有bibibi的有震动有热弄个引导的,按作者的意思用image caption做反馈是很新颖的,从时间轴来看不一定特别新。

Methodology

他说有个流程图,也没标号,我也没找到。文字复述下了:

1.使用者扭头到所关注方向

2.按一个按钮拍照

3.输出音频

lakh——十万,印度英语

数据集使用的COCO,进行了数据清洗时删除了词频10以下的词汇。

预处理:

1.图像:YOLO进行检测,一次最多输入八个检测出的目标到描述网络,为了转换成统一大小,使用了Inception V3 和自动特征工程,查了一下和inceptionv3是一样的,就是删掉了最后的softmax,自动特征工程在哪里体现了,不懂。

2.caption:建立了'wordtoix'和'ixtoword'两个字典,分别代表word到index和index到word的对应关系,用1-1652这些整数代表词汇表中全体词汇。

数据准备:

ps:这文笔读着好累,真的是2019的文章么。

因为有一个批处理操作,要求句子是等长的,所以最后有一个padding操作

details:categorical cross entropy,adam,在每个iteration更新梯度。用fit generator(batch_size=16 epochs=20)训练了一个generator function    批:?

词嵌入:

词首先按之前的提到的,用整数进行了一次编码,之后使用GloVe方法嵌入到一个200d词向量,之后送入一个256时序的LSTM进行处理。description的最大长度是50(训练集中最大者)

模型结构:

inputs:1.将图像输入微调的inceptionV3得到的2048d的特征向量 2.前一时序的caption 3.YOLO的输出

inceptionv3得到的特征向量传递到256节点的FC层得到256d向量。两个256时序的LSTM得到256d向量,将三者求和再传递到256节点FC层、6256节点FC层、softmax层。到这里output_shape=(50,6256)

完成最终的caption时使用了greedy search approach (或者说MLE)

推理:

最大似然估计,MLE

音频输出:

用了python的这个库'pyttsx3'

 

Result and Analysis

开局三组图,剩下全靠编,没看到什么高价值信息

批:这狗我第一眼也没认出来

 

读后感:磕磕绊绊的读了下来,希望将来自己的文章不要像这样男的女的折磨。只能说从他文章提到的相关工作来看的话,他的组合是比较先进的(视觉+caption+audio)但是在当年这篇文章是否是最早提出这个组合的表示存疑。在技术方面整体也是没太多新鲜的。

 

 

 

 

 

 

 

 

 

标签:Blind,256,反馈,caption,Assistive,LSTM,Technology,GSM,GPS
来源: https://www.cnblogs.com/Nonmy/p/15257672.html