其他分享
首页 > 其他分享> > 0489-CDSW中用户Session访问外部数据目录

0489-CDSW中用户Session访问外部数据目录

作者:互联网

温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。
Fayson的github:
https://github.com/fayson/cdhproject
提示:代码块部分可以左右滑动查看噢

1 文档编写目的

在使用CDSW1.4的过程我们发现,用户从本地上传到工程的数据文件不能正常访,有时会出现上传的数据文件权限及属主为root,有时上传较大的数据文件时会失败(基于浏览器的上传数据文件较大的原因),这里我们可以使用CDSW提供的Mounts功能挂载CDSW服务器上是数据盘解决该问题。使用外挂的数据目录方便数据共享且用户启动中会话能够实时读取到最新的外挂的数据,也避免了浏览器上传大数据文件失败的问题。

1.RedHat7.2

2.CM和CDH版本为5.15.0

3.CDSW1.4.0

2 创建Mount目录

登录CDSW服务器所在节点的操作系统,在磁盘上创建一个用于CDSW进行mount的数据目录。

1.在OS上创建一个mount的目录

[root@cdh05 data]# mkdir -p /data/disk1/cdsw-externel
[root@cdh05 data]# ll -t /data/disk1/

3 CDSW挂载外部目录

1.使用管理员账号登录cdsw服务,进入“Admin”菜单下

2.点击“Engines”菜单进入如下配置页面

3.将创建好的数据目录配置到Mounts下

4 启动Session验证

1.使用fayson用户登录cdsw并启动一个Session

会话启动成功

2.打开“>_Terminal access”,在终端下查看是否挂载成功

如上图所示,挂载成功能正常访问数据目录。

3.在数据目录放一个数据文件进行测试

4.在当前会话编写示例代码读取csv文件

import pandas as pd

csv_data = pd.read_csv('/data/disk1/cdsw-externel/test.csv')
print(csv_data.shape)

同样也可以使用hadoop命令将外部的数据文件上传至CDH集群

5 总结

1.使用CDSW的Mounts功能可以方便的将本地的数据文件以及Python依赖包等,提供到用户的Session会话中,同时也避免了用户自己上传数据文件的麻烦。

2.只有在用户启动了Session才能浏览挂载的数据目录。

3.用户也可以将Mount目录下的数据文件put到CDH集群中使用。

提示:代码块部分可以左右滑动查看噢
为天地立心,为生民立命,为往圣继绝学,为万世开太平。
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图。

Hadoop_SC 发布了315 篇原创文章 · 获赞 11 · 访问量 2万+ 私信 关注

标签:0489,数据文件,CDSW,Session,csv,data,目录
来源: https://blog.csdn.net/Hadoop_SC/article/details/103945673