大数据课程
作者:互联网
20211102
大数据的部门的分类
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C9vEkBWp-1638676630849)(source/image-20211102085409187.png)]
分布式和集群的概念
分布式:将不同的服务部署到不同的机器上
集群:将相同的的服务部署到不同的机器上
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OQyiW3wR-1638676630850)(source/image-20211102085940162.png)]
Hadoop大数据框架
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WZzv89Ph-1638676630850)(source/image-20211102090631944.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I9DoiqEe-1638676630851)(source/image-20211102091357188.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ABzq5Jh9-1638676630852)(source/image-20211102101105266.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6qO9v6d8-1638676630853)(source/image-20211102101450304.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aIPlQikn-1638676630853)(source/image-20211102101506401.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EVNvBytL-1638676630854)(source/image-20211102102042799.png)]
安装虚拟机
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fDcHluMq-1638676630854)(source/image-20211102114520306.png)]
CentOS防火墙操作
1.查看firewall服务状态
systemctl status firewalld
在运行
如下图:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ijJ8d1yJ-1638676630855)(source/QQ20210208231852.png)]
已停止
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NsTRMd68-1638676630855)(source/QQ20210208232604.png)]
2.查看firewall的状态
firewall-cmd --state
在运行
显示如下:
running
已停止
显示如下:
not running
3.关闭防火墙
关闭
systemctl stop firewalld.service
禁止开机启动
systemctl disable firewalld.service
4.开启防火墙
systemctl start firewalld.service
关闭防火墙
systemctl status firewalld
Hadoop
准备工作:克隆一个新的虚拟机,便于有问题的时候回溯。
克隆关键步骤
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-76hAj8N7-1638676630855)(source/image-20211102141920256.png)]
克隆时候修改虚拟机名称,去掉名称中的空格,将虚拟机位置放到指定目录。手动添加"\",添加一个文件夹名,和虚拟机名称一致即可。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Eu8k3vtu-1638676630856)(source/image-20211102142239488.png)]
安装hadoop
1. 在根目录下创建program文件夹
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NVGyBNgW-1638676630856)(source/image-20211102141326276.png)]
2.在命令行中将当前地址调整到与program同一个路径,拖动hadoop的压缩包到program中
利用pwd命令查看当前的工作路径present working directory
利用ll命令查看当前路径下的所有文件,其实是ls -l的简写
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BJ5Tjuog-1638676630856)(source/image-20211102144037098.png)]
3.解压缩hadoop文件
可以敲击一个字母后用tab键来完成提示补全功能
有问题的做法:用解压缩命令解压
tar -zxvf 文件名
完毕后出现
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nNu4HamS-1638676630857)(source/image-20211102145515724.png)]
应该在压缩命令后添加
tar -zxvf 文件名 --no-same-owner
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hFlNx0Vu-1638676630857)(source/image-20211102150444540.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S4eFLYRT-1638676630857)(source/image-20211102144301943.png)]
4.安装vim
https://www.malaoshi.top/show_1IX1WKv7YxuL.html
命令
yum install -y vim
修改主机名
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rWtdmUEV-1638676630858)(source/image-20211102151342488.png)]
4.将hadoop1映射到ip地址
集群方式安装,服务器之间 是通过 ssh 服务器ip地址
连接 服务器启动的,所以必须配置 ip地址
虽然是 伪分布式 安装,但本质没变,也是通过 ssh 服务器ip地址
连接 服务器启动的,只是 连接的是 本机ip地址 ,所以必须配置 ip地址
如果输入 ip
地址,不好记,而且输入麻烦,所以 将 主机名hadoop1
映射上 本机ip,在配置文件中,只需要配置 hadoop1
即可,相当于 通过 www.bilibili.com
访问 b站
4.1点击命令,编辑hosts文件呢
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aSDRVchp-1638676630858)(source/image-20211102152633605.png)]
4.2点击o光标就会下来
输入图中的ip地址和hadoop1的对应关系,中间一个空格即可。ip地址之前不能有空格!
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zFvf7rIh-1638676630858)(source/image-20211102152820128.png)]
4.3点击esc,下方的"–插入–",会消失,等待用于输入。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yWIknpM9-1638676630859)(source/image-20211102153150343.png)]
4.4输入:wq
回车即可
5.解压缩jdk
拷贝jdk到program文件夹,解压缩
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RFKc66oV-1638676630859)(source/image-20211102153344613.png)]
6.修改环境变量
6.1进入路径
cd /etc/profile.d
6.2新建一个大数据自己的环境变量文件
vim bigdata_env.sh
6.3点击i键,变成插入模式
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eNn1OfQA-1638676630859)(source/image-20211102153712198.png)]
6.4插入信息
# 配置JAVA_HOME
export JAVA_HOME=/program/jdk1.8.0_202
export PATH=${JAVA_HOME}/bin:$PATH
6.5点击esc
,输入:wq
,退出编辑器
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tSMxqWdr-1638676630859)(source/image-20211102154604692.png)]
6.6让环境变量生效
命令:
source /etc/profile
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yz0JBYAT-1638676630860)(source/image-20211102160549434.png)]
6.7修改hadoop的环境变量
进入到文件中
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lo0nD8mV-1638676630860)(source/image-20211102162542194.png)]
修改文件,关闭
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FNzbiEZl-1638676630860)(source/image-20211102162148447.png)]
6.8.查看hadoop文件夹内容
常用的命令目录
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w4Jqo4cd-1638676630861)(source/image-20211102162736391.png)]
7.伪分布式部署
https://www.malaoshi.top/show_1IXWLGRUC4S.html
编辑文件时都采用notepad++编辑即可,不需要再在centos中使用vim编辑
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fj0nD4jB-1638676630862)(source/image-20211102163832338.png)]
7.1修改 hadoop-env.sh
修改 hadoop-env.sh
hadoop-env.sh 配置了 hadoop 的环境
在
$HADOOP_HOME/etc/hadoop/hadoop-env.sh
设置 JAVA_HOME
必须 指定 java 绝对路径,否则 启动 NameNode 和 DataNode 会报错
使用 vim 编辑该文件:
vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh
找到
export JAVA_HOME
,如果该行前面有#
,就去掉#
,改成export JAVA_HOME=/program/jdk1.8.0_202
设置用户
在 hadoop3.x 需要设置 当前登录用户,才能执行命令,否则会报错
注意: 需要将下面 root 用户改成 当前登录用户
在文件的 最下面 添加下面配置:
export HDFS_DATANODE_USER=rootexport HDFS_NAMENODE_USER=rootexport HDFS_SECONDARYNAMENODE_USER=rootexport YARN_RESOURCEMANAGER_USER=rootexport YARN_NODEMANAGER_USER=root
执行
esc
->:wq
,保存并退出
7.2 修改 core-site.xml 文件
修改 core-site.xml 文件
vim /program/hadoop-3.0.3/etc/hadoop/core-site.xml
指定HDFS中NameNode的地址
增加下面内容:
<property> <name>fs.defaultFS</name> <value>hdfs://hadoop1:8020</value> </property>
解释: NameNode 部署在
hadoop1
上,所以使用hadoop1
的8020
端口配置HDFS网页登录的静态用户
<property> <name>hadoop.http.staticuser.user</name> <value>root</value> </property>
执行
esc
->:wq
,保存并退出
7.3 修改 core-site.xml 文件
修改 core-site.xml 文件
vim /program/hadoop-3.0.3/etc/hadoop/core-site.xml
指定HDFS中NameNode的地址
增加下面内容:
<property> <name>fs.defaultFS</name> <value>hdfs://hadoop1:8020</value> </property>
解释: NameNode 部署在
hadoop1
上,所以使用hadoop1
的8020
端口设置HDFS存储文件的位置:
<property> <name>hadoop.tmp.dir</name> <value>/program/hadoop-3.0.3/data/tmp</value> </property>
当上传文件到 HDFS 后,HDFS 中的文件保存在:
/devtools/hadoop-3.0.3/data/tmp/dfs/data/current/BP-生成的数字/current/finalized/subdir0/subdir0/
配置HDFS网页登录的静态用户
<property> <name>hadoop.http.staticuser.user</name> <value>root</value> </property>
执行
esc
->:wq
,保存并退出
7.4修改 hdfs-site.xml
修改 hdfs-site.xml
vim /program/hadoop-3.0.3/etc/hadoop/hdfs-site.xml
指定HDFS副本的数量:
<property> <name>dfs.replication</name> <value>1</value> </property>
执行
esc
->:wq
,保存并退出
7.5配置免密码ssh
测试该命令发现仍然需要输入密码
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yK8IJY33-1638676630862)(source/image-20211102172415254.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8txhSWez-1638676630862)(source/image-20211102172607524.png)]
配置免密码ssh
必须配置,否则执行
start-dfs.sh
报错测试是否可以免密码 ssh 登录
ssh hadoop1
如果提示需要输入密码,表示不能免密码登录,需要执行下面命令
设置密码ssh登录
执行下面命令
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys
测试是否可以免密码 ssh 登录
ssh hadoop1
不需要输入密码,就能登录,表示成功,执行下面命令退出
exit
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ebqLM1so-1638676630863)(source/image-20211102172632005.png)]
20211103
tip of the day
- 虚拟机的ip地址可能会发生变化,原因是我们用虚拟机时ip地址是自动获取的;真实的服务器是静态的ip,不会变化
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RCeR939E-1638676630863)(source/image-20211103083851408.png)]
- ssh是指在自己链接自己的时候不需要密码
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1jWmJhGk-1638676630863)(source/image-20211103084425299.png)]
- 节点存储的信息
namenode
存储文件的元数据 名字 大小 创建时间等信息
datanode
存储文件本身的数据
上接7.5
一、格式化NameNode
格式化NameNode
第一次启动时格式化,相当于新安装的硬盘,格式化后才能使用
注意: 以后就不要总格式化,相当于硬盘格式化,原有数据丢失
hdfs namenode -format hdfs namenode -format
成功如下图:
二、启动 NameNode 和 DataNode
启动 NameNode 和 DataNode
start-dfs.sh
执行结果如下:
红框处
hadoop1
就是主机名可通过
hostname
命令查看主机名jps查看是否启动成功
jps是jdk命令
jps
显示如下:
24294 NameNode 24472 DataNode 24698 SecondaryNameNode
表示启动成功
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jtvm5WRY-1638676630864)(source/image-20211103085915539.png)]
访问Namenode的网页版,端口9870
http://192.168.245.129:9870/dfshealth.html#tab-overview
访问Datanode的网页版,端口9864
http://192.168.245.129:9864/datanode.html
三、手动修改windows的hosts文件
windows中点击链接是不会识别主机名hadoop1,需要修改hosts文件
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NO9AucsA-1638676630865)(source/image-20211103091636250.png)]
hosts文件的路径为
C:\Windows\System32\drivers\etc
添加对应关系
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MKbxLu73-1638676630865)(source/image-20211103091816177.png)]
如果遇到权限问题,可以先拷贝hosts到别的地方,然后修改完毕再改回去
四、使用hdfs
点击文件系统[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aV52Ump5-1638676630865)(source/image-20211103092424287.png)]
认识界面
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZomiC8mQ-1638676630866)(source/image-20211103092524012.png)]
创建文件
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qWdksJQ6-1638676630866)(source/image-20211103092728572.png)]
字符d表示目录
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tWf0QQWh-1638676630866)(source/image-20211103092810308.png)]
网页的用户为root
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6t8Y9pB5-1638676630867)(source/image-20211103092830308.png)]
"-"表示文件
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h3lIs4Y7-1638676630867)(source/image-20211103092915521.png)]
详情信息
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g24A5q5F-1638676630867)(source/image-20211103093113295.png)]
注意,windows中的记事本需要另存为utf-8格式,不能只是保存。
副本数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cmrZoLov-1638676630868)(source/image-20211103100459622.png)]
修改centos的hosts后才能下载
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x8KlfrI3-1638676630868)(source/image-20211103101243202.png)]
五、hadoop文件系统常用命令
https://www.malaoshi.top/show_1IXYspWBqJN.html
文件上传功能
命令:
hadoop fs -put /program/3.txt /yiqi/dazhong/data
hadoop fs -put linux系统中的文件路径 hdfs中的路径
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JVntBQxC-1638676630868)(source/image-20211103102913649.png)]
linux目录和hadoop目录的分析
3.txt对应的是linux的目录
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QS5L66is-1638676630869)(source/image-20211103103308176.png)]
hdfs中上传文件的存储路径
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ja6rbszo-1638676630870)(source/image-20211103104029959.png)]
下载(get)
hadoop fs -get /top/malaoshi/data/data.txt /tmp
将 HDFS /top/malaoshi/data/data.txt
文件,下载 linux 系统的 /tmp
目录中
综合来看
hadoop fs -put from to ->从哪里上传,上传到哪里
hadoop fs -get from to ->从哪里下载,下载到哪里
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-26Of0ATo-1638676630870)(source/image-20211103104924476.png)]
六、YARN
1.yarn简介
介绍
yarn是一个 资源调度平台,负责为 运算程序 提供 服务器运算资源,相当于一个分布式的操作系统平台,而
MapReduce
等运算程序则相当于运行于操作系统之上的应用程序。架构
YARN是主从架构,有三大组件:
ResourceManager
(RM)NodeManager
(NM)ApplicationMaster
(AM)其他:
Container
注意:
- client 可以有多个
- 集群可以运行多个 ApplicationMaster
- 每个
NodeManager
上可以有多个Container
ResourceManager(RM)
进程,是集群中的主角色。
整个集群资源的管理者,管理内存、CPU等。
接收客户端提交的作业,通过NM
分配、管理 各个机器 上的计算资源NodeManager(NM)
进程,是集群中的从角色
每台PC服务器上都要部署一个
计算资源的管理者
根据RM
指令,启动Container
容器,监视容器的资源使用情况
向RM
汇报 资源使用情况ApplicationMaster(AM)
单个任务运行的管理者,应用程序内的 老大,负责程序内部各阶段的资源申请、监督程序的执行情况
Container
容器,资源的抽象,相当于 VMware 虚拟机,封装了任务运行所需要的资源,如:内存(占用 1G-8G)、CPU、磁盘、网络等。执行结束后,可自动释放资源
关键交互流程
- 客户端提交任务给
ResourceManager
ApplicationMaster
向ResourceManager
申请 内存、CPU 资源- mapreduce作业状态汇报:
Container(map task、reduce task)
向Container(ApplicationMaster)
,汇报进度,是否完成、错误等- 节点状态汇报:
NodeManager
向ResourceManager
汇报进度
https://www.malaoshi.top/show_1IX28n29YLBN.html
yarn是一个资源调度平台。
2.配置yarn
2.1修改 mapred-site.xml
修改 mapred-site.xml
vim etc/hadoop/mapred-site.xml
指定MapReduce程序运行在Yarn上,配置如下:
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
指定mr运行在yarn上
保存
2.2修改yarn-site.xml
修改yarn-site.xml
vim etc/hadoop/yarn-site.xml
配置如下:
<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value></property>
指定获取数据的方式
2.3设置classpath
设置classpath
在hadoop3.x中必须设置,否则执行
hadoop-mapreduce-examples-3.0.3.jar
例子报错执行下面命令,查看classpath:
hadoop classpath
执行结果如下:
/program/hadoop-3.0.3/etc/hadoop:/program/hadoop-3.0.3/share/hadoop/common/lib/*:/program/hadoop-3.0.3/share/hadoop/common/*:/program/hadoop-3.0.3/share/hadoop/hdfs:/program/hadoop-3.0.3/share/hadoop/hdfs/lib/*:/program/hadoop-3.0.3/share/hadoop/hdfs/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/lib/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/*:/program/hadoop-3.0.3/share/hadoop/yarn:/program/hadoop-3.0.3/share/hadoop/yarn/lib/*:/program/hadoop-3.0.3/share/hadoop/yarn/*
在
yarn-site.xml
添加如下:<property> <name>yarn.application.classpath</name> <value>/program/hadoop-3.0.3/etc/hadoop:/program/hadoop-3.0.3/share/hadoop/common/lib/*:/program/hadoop-3.0.3/share/hadoop/common/*:/program/hadoop-3.0.3/share/hadoop/hdfs:/program/hadoop-3.0.3/share/hadoop/hdfs/lib/*:/program/hadoop-3.0.3/share/hadoop/hdfs/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/lib/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/*:/program/hadoop-3.0.3/share/hadoop/yarn:/program/hadoop-3.0.3/share/hadoop/yarn/lib/*:/program/hadoop-3.0.3/share/hadoop/yarn/*</value></property>
value 部分是
hadoop classpath
执行的结果保存
启动
start-yarn.sh
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UD1B7kmQ-1638676630871)(source/image-20211103112859139.png)]
测试yarn端口
hadoop1:8088
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sDFePaJL-1638676630871)(source/image-20211103113250677.png)]
2.4 hadoop3.x集群:执行 wordcount 测试 yarn 和 MapReduce
执行 wordcount
hadoop jar /program/hadoop-3.0.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.3.jar wordcount /test /result
解释:
hadoop jar
:执行jar命令/program/hadoop-3.0.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.3.jar
:jar包所在位置,可以是相对路径wordcount
:统计词频。还有其他功能/test
:读取 hdfs 的目录/result
:将结果输出到 hdfs 的目录下
如果输出的结果目录已经存在了,则会报错
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eHv8m1xb-1638676630872)(source/image-20211103135233316.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T1BzzoWP-1638676630872)(source/image-20211103135242564.png)]
通过application可以查看每次操作的状态
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B7VSQTuk-1638676630872)(source/image-20211103140012506.png)]
2.5配置历史任务服务
提出问题
通过访问:http://hadoop1:8088/ ,显示界面如下:
点击上图中的 【History】,不能显示历史信息
如果重启
yarn
服务,上图 web服务 中的记录,就会消失,无法保存历史记录修改 mapred-site.xml
配置历史服务器
增加下面内容:
<property> <name>mapreduce.jobhistory.address</name> <value>hadoop1:10020</value> </property>
配置 web 地址、端口号(可略)
默认端口为:
19888
<property> <name>mapreduce.jobhistory.webapp.address</name> <value>hadoop1:19888</value></property>
2.6配置日志聚集
提出问题
访问 http://localhost:19888/
在历史服务web管理页面中,如下图:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-G2InoBcK-1638676630873)(source/QQ20210211090554.png)]
点击上图的 【logs】 ,显示界面如下:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qzIEMQqW-1638676630873)(source/QQ20210211091059.png)]
因为没有配置日志聚集服务
修改 yarn-site.xml
启用日志聚集
<property> <name>yarn.log-aggregation-enable</name> <value>true</value></property>
日志保留时间
<property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value></property>
解释: 时间单位:秒。604800秒/60/60/24=7天
重启yarn,重启历史服务器
3.修改虚拟机为静态ip
修改虚拟机为静态ip
先敲编辑命令,点击tab键,看提示的是什么
注意:此处的ens33可能因电脑不同而不同,需要查看
vim /etc/sysconfig/network-scripts/ifcfg-ens33
找到网卡的配置文件
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xUEF5qRB-1638676630874)(source/image-20211103145701092.png)]
修改前先备份一个文件
cp /etc/sysconfig/network-scripts/ifcfg-ens33 /etc/sysconfig/network-scripts/ifcfg-ens33.bak
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ld6w8TCj-1638676630874)(source/image-20211103145841470.png)]
查看虚拟机的ip,是相应的ip地址、网关、dns自定义即可
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6KARL5dO-1638676630874)(source/image-20211103150143012.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YGjoJjO0-1638676630874)(source/image-20211103150150420.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ei3PZXKB-1638676630875)(source/image-20211103150159640.png)]
配置完毕后重启服务
stop-yarn.sh stop-dfs.sh reboot now
测试是否可以联通外网
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yq5RRT3k-1638676630875)(source/image-20211103151141179.png)]
启动时发现hadoop1无法找到主机
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1UD838fu-1638676630875)(source/image-20211103151454292.png)]
需要重新编辑hosts文件
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H0clvhRj-1638676630876)(source/image-20211103151514469.png)]
使hosts文件中的ip与设定的ip地址相同
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1n7SQp0n-1638676630876)(source/image-20211103151544581.png)]
修改完ip后即可ping通hadoop1
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XVnUUSiu-1638676630876)(source/image-20211103151756346.png)]
修改完ip地址后再次重启服务
start-dfs.sh
发现namenode和datanode均已经启动
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fw0E24V5-1638676630877)(source/image-20211103152419932.png)]
尝试访问9870,发现无法访问主机。需要重新修改windows的hosts文件
http://hadoop1:9870/
C:\Windows\System32\drivers\etc\hosts
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FlmXQtVv-1638676630877)(source/image-20211103152718892.png)]
如果需要使用分布式计算才执行yarn命令,如果只做为文件的存储hdfs的话,不需要启动yarn
启动yarn
start-yarn.sh
yarn端口
http://hadoop1:8088/cluster
进入 该目录
cd /etc/profile.d
创建 bigdata_env.sh
文件,该文件用于配置大数据相关的环境变量:
vi bigdata_env.sh
在末尾添加行(使用i命令):
# 配置JAVA_HOMEexport JAVA_HOME=/program/jdk1.8.0_202export PATH=${JAVA_HOME}/bin:$PATH
执行esc
-> :wq
使立即生效
source /etc/profile
测试
java -version
会显示java的版本信息,如下:
java version "1.8.0_202"Java(TM) SE Runtime Environment (build 1.8.0_202-b08)Java HotSpot(TM) 64-Bit Server VM (build 25.202-b08, mixed mode)
1638676630876)]
修改完ip后即可ping通hadoop1
[外链图片转存中…(img-XVnUUSiu-1638676630876)]
修改完ip地址后再次重启服务
start-dfs.sh
发现namenode和datanode均已经启动
[外链图片转存中…(img-Fw0E24V5-1638676630877)]
尝试访问9870,发现无法访问主机。需要重新修改windows的hosts文件
http://hadoop1:9870/
C:\Windows\System32\drivers\etc\hosts
[外链图片转存中…(img-FlmXQtVv-1638676630877)]
如果需要使用分布式计算才执行yarn命令,如果只做为文件的存储hdfs的话,不需要启动yarn
启动yarn
start-yarn.sh
yarn端口
http://hadoop1:8088/cluster
进入 该目录
cd /etc/profile.d
创建 bigdata_env.sh
文件,该文件用于配置大数据相关的环境变量:
vi bigdata_env.sh
在末尾添加行(使用i命令):
# 配置JAVA_HOMEexport JAVA_HOME=/program/jdk1.8.0_202export PATH=${JAVA_HOME}/bin:$PATH
执行esc
-> :wq
使立即生效
source /etc/profile
测试
java -version
会显示java的版本信息,如下:
java version "1.8.0_202"Java(TM) SE Runtime Environment (build 1.8.0_202-b08)Java HotSpot(TM) 64-Bit Server VM (build 25.202-b08, mixed mode)
标签:img,hadoop,source,课程,外链,数据,防盗链,图片 来源: https://blog.csdn.net/weixin_45201661/article/details/121727430