首页 > 其他分享> > 文献阅读_辅助穿戴_Assistive Technology for the Blind

文献阅读_辅助穿戴_Assistive Technology for the Blind

2021-09-13 09:32:49 作者：互联网

文笔很怪，看着不连贯

Abstract&Conclusion

相机+YOLO+LSTM+Inception V3+音频

啊，时代真好。

未来加入情感识别和距离检测。

早期工作有由避障系统衍生的'virtual white cane'基于激光测距的‘一戳知距’，'Path Force feedback belt'基于3D建模进行力反馈，Smart cane基于超声波的，贵、不准（水）、供电

'Silicon Eyes'基于GPS+GSM+触觉反馈+色反馈集成在手套，'obstacle avoidance using auto-adaptive thresholding method'远距离提醒，近距离导航

'Eye substitution'GPS+GSM+超声波（看意思是'Smart cane'的升级，作者没有指出太多缺点）###

' remote guidance system'相机+GPS+GSM, 批：需要一个人工引导员太局限了

'wearable navigation aid for blind '，震动反馈的，也是需要人工引导

'Pathfinder'，基于红外的，针对距离的

技术上有激光的超声的红外的，反馈上有bibibi的有震动有热弄个引导的，按作者的意思用image caption做反馈是很新颖的，从时间轴来看不一定特别新。

他说有个流程图，也没标号，我也没找到。文字复述下了：

1.使用者扭头到所关注方向

2.按一个按钮拍照

3.输出音频

lakh——十万，印度英语

数据集使用的COCO，进行了数据清洗时删除了词频10以下的词汇。

1.图像：YOLO进行检测，一次最多输入八个检测出的目标到描述网络，为了转换成统一大小，使用了Inception V3 和自动特征工程，查了一下和inceptionv3是一样的，就是删掉了最后的softmax，自动特征工程在哪里体现了，不懂。

2.caption：建立了'wordtoix'和'ixtoword'两个字典，分别代表word到index和index到word的对应关系，用1-1652这些整数代表词汇表中全体词汇。

ps：这文笔读着好累，真的是2019的文章么。

因为有一个批处理操作，要求句子是等长的，所以最后有一个padding操作

details：categorical cross entropy，adam，在每个iteration更新梯度。用fit generator（batch_size=16 epochs=20）训练了一个generator function 批：？

词首先按之前的提到的，用整数进行了一次编码，之后使用GloVe方法嵌入到一个200d词向量，之后送入一个256时序的LSTM进行处理。description的最大长度是50（训练集中最大者）

inputs：1.将图像输入微调的inceptionV3得到的2048d的特征向量 2.前一时序的caption 3.YOLO的输出

inceptionv3得到的特征向量传递到256节点的FC层得到256d向量。两个256时序的LSTM得到256d向量，将三者求和再传递到256节点FC层、6256节点FC层、softmax层。到这里output_shape=(50,6256)

完成最终的caption时使用了greedy search approach （或者说MLE）

最大似然估计，MLE

用了python的这个库'pyttsx3'

开局三组图，剩下全靠编，没看到什么高价值信息

批：这狗我第一眼也没认出来

读后感：磕磕绊绊的读了下来，希望将来自己的文章不要像这样男的女的折磨。只能说从他文章提到的相关工作来看的话，他的组合是比较先进的（视觉+caption+audio）但是在当年这篇文章是否是最早提出这个组合的表示存疑。在技术方面整体也是没太多新鲜的。

标签：Blind,256,反馈,caption,Assistive,LSTM,Technology,GSM,GPS
来源： https://www.cnblogs.com/Nonmy/p/15257672.html