其他分享
首页 > 其他分享> > 大数据课程

大数据课程

作者:互联网

20211102

大数据的部门的分类

在这里插入图片描述

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C9vEkBWp-1638676630849)(source/image-20211102085409187.png)]

分布式和集群的概念

分布式:将不同的服务部署到不同的机器上

集群:将相同的的服务部署到不同的机器上

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OQyiW3wR-1638676630850)(source/image-20211102085940162.png)]

Hadoop大数据框架

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WZzv89Ph-1638676630850)(source/image-20211102090631944.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-I9DoiqEe-1638676630851)(source/image-20211102091357188.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ABzq5Jh9-1638676630852)(source/image-20211102101105266.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6qO9v6d8-1638676630853)(source/image-20211102101450304.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aIPlQikn-1638676630853)(source/image-20211102101506401.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EVNvBytL-1638676630854)(source/image-20211102102042799.png)]

安装虚拟机


[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fDcHluMq-1638676630854)(source/image-20211102114520306.png)]

CentOS防火墙操作

1.查看firewall服务状态

systemctl status firewalld

在运行

如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ijJ8d1yJ-1638676630855)(source/QQ20210208231852.png)]

已停止

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NsTRMd68-1638676630855)(source/QQ20210208232604.png)]

2.查看firewall的状态

firewall-cmd --state

在运行

显示如下:

running

已停止

显示如下:

not running

3.关闭防火墙

关闭

systemctl stop firewalld.service

禁止开机启动

systemctl disable firewalld.service

4.开启防火墙

systemctl start firewalld.service

关闭防火墙

systemctl status firewalld

Hadoop

准备工作:克隆一个新的虚拟机,便于有问题的时候回溯。

克隆关键步骤

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-76hAj8N7-1638676630855)(source/image-20211102141920256.png)]

克隆时候修改虚拟机名称,去掉名称中的空格,将虚拟机位置放到指定目录。手动添加"\",添加一个文件夹名,和虚拟机名称一致即可。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Eu8k3vtu-1638676630856)(source/image-20211102142239488.png)]

安装hadoop

1. 在根目录下创建program文件夹

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NVGyBNgW-1638676630856)(source/image-20211102141326276.png)]

2.在命令行中将当前地址调整到与program同一个路径,拖动hadoop的压缩包到program中

利用pwd命令查看当前的工作路径present working directory

利用ll命令查看当前路径下的所有文件,其实是ls -l的简写

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BJ5Tjuog-1638676630856)(source/image-20211102144037098.png)]

3.解压缩hadoop文件

可以敲击一个字母后用tab键来完成提示补全功能

有问题的做法:用解压缩命令解压

tar -zxvf 文件名

完毕后出现

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nNu4HamS-1638676630857)(source/image-20211102145515724.png)]

应该在压缩命令后添加

tar -zxvf 文件名 --no-same-owner

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hFlNx0Vu-1638676630857)(source/image-20211102150444540.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S4eFLYRT-1638676630857)(source/image-20211102144301943.png)]

4.安装vim

https://www.malaoshi.top/show_1IX1WKv7YxuL.html

命令

yum install -y vim

修改主机名

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rWtdmUEV-1638676630858)(source/image-20211102151342488.png)]

4.将hadoop1映射到ip地址

集群方式安装,服务器之间 是通过 ssh 服务器ip地址 连接 服务器启动的,所以必须配置 ip地址

虽然是 伪分布式 安装,但本质没变,也是通过 ssh 服务器ip地址 连接 服务器启动的,只是 连接的是 本机ip地址 ,所以必须配置 ip地址

如果输入 ip 地址,不好记,而且输入麻烦,所以 将 主机名hadoop1 映射上 本机ip,在配置文件中,只需要配置 hadoop1 即可,相当于 通过 www.bilibili.com 访问 b站

4.1点击命令,编辑hosts文件呢

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aSDRVchp-1638676630858)(source/image-20211102152633605.png)]

4.2点击o光标就会下来

输入图中的ip地址和hadoop1的对应关系,中间一个空格即可。ip地址之前不能有空格!

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zFvf7rIh-1638676630858)(source/image-20211102152820128.png)]

4.3点击esc,下方的"–插入–",会消失,等待用于输入。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yWIknpM9-1638676630859)(source/image-20211102153150343.png)]

4.4输入:wq回车即可

5.解压缩jdk

拷贝jdk到program文件夹,解压缩

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RFKc66oV-1638676630859)(source/image-20211102153344613.png)]

6.修改环境变量

6.1进入路径
cd /etc/profile.d
6.2新建一个大数据自己的环境变量文件
vim bigdata_env.sh
6.3点击i键,变成插入模式

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eNn1OfQA-1638676630859)(source/image-20211102153712198.png)]

6.4插入信息
# 配置JAVA_HOME
export JAVA_HOME=/program/jdk1.8.0_202
export PATH=${JAVA_HOME}/bin:$PATH
6.5点击esc,输入:wq,退出编辑器

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tSMxqWdr-1638676630859)(source/image-20211102154604692.png)]

6.6让环境变量生效

命令:

source /etc/profile

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yz0JBYAT-1638676630860)(source/image-20211102160549434.png)]

6.7修改hadoop的环境变量

进入到文件中

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lo0nD8mV-1638676630860)(source/image-20211102162542194.png)]

修改文件,关闭

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FNzbiEZl-1638676630860)(source/image-20211102162148447.png)]

6.8.查看hadoop文件夹内容

常用的命令目录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w4Jqo4cd-1638676630861)(source/image-20211102162736391.png)]

7.伪分布式部署

https://www.malaoshi.top/show_1IXWLGRUC4S.html

编辑文件时都采用notepad++编辑即可,不需要再在centos中使用vim编辑

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fj0nD4jB-1638676630862)(source/image-20211102163832338.png)]

7.1修改 hadoop-env.sh

修改 hadoop-env.sh

hadoop-env.sh 配置了 hadoop 的环境

$HADOOP_HOME/etc/hadoop/hadoop-env.sh

设置 JAVA_HOME

必须 指定 java 绝对路径,否则 启动 NameNode 和 DataNode 会报错

使用 vim 编辑该文件:

vim $HADOOP_HOME/etc/hadoop/hadoop-env.sh

找到 export JAVA_HOME ,如果该行前面有 # ,就去掉 #,改成

export JAVA_HOME=/program/jdk1.8.0_202

设置用户

在 hadoop3.x 需要设置 当前登录用户,才能执行命令,否则会报错

注意: 需要将下面 root 用户改成 当前登录用户

在文件的 最下面 添加下面配置:

export HDFS_DATANODE_USER=rootexport HDFS_NAMENODE_USER=rootexport HDFS_SECONDARYNAMENODE_USER=rootexport YARN_RESOURCEMANAGER_USER=rootexport YARN_NODEMANAGER_USER=root

执行esc -> :wq,保存并退出

7.2 修改 core-site.xml 文件

修改 core-site.xml 文件

vim /program/hadoop-3.0.3/etc/hadoop/core-site.xml

指定HDFS中NameNode的地址

增加下面内容:

<property>
	<name>fs.defaultFS</name>
	<value>hdfs://hadoop1:8020</value>
</property>

解释: NameNode 部署在 hadoop1 上,所以使用 hadoop18020 端口

配置HDFS网页登录的静态用户

<property>
    <name>hadoop.http.staticuser.user</name>
    <value>root</value>
</property>

执行esc -> :wq,保存并退出

7.3 修改 core-site.xml 文件

修改 core-site.xml 文件

vim /program/hadoop-3.0.3/etc/hadoop/core-site.xml

指定HDFS中NameNode的地址

增加下面内容:

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop1:8020</value>
</property>

解释: NameNode 部署在 hadoop1 上,所以使用 hadoop18020 端口

设置HDFS存储文件的位置:

<property>
    <name>hadoop.tmp.dir</name>
    <value>/program/hadoop-3.0.3/data/tmp</value>
</property>

当上传文件到 HDFS 后,HDFS 中的文件保存在:

/devtools/hadoop-3.0.3/data/tmp/dfs/data/current/BP-生成的数字/current/finalized/subdir0/subdir0/

配置HDFS网页登录的静态用户

<property>
    <name>hadoop.http.staticuser.user</name>
    <value>root</value>
</property>

执行esc -> :wq,保存并退出

7.4修改 hdfs-site.xml

修改 hdfs-site.xml

vim /program/hadoop-3.0.3/etc/hadoop/hdfs-site.xml

指定HDFS副本的数量:

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

执行esc -> :wq,保存并退出

7.5配置免密码ssh

测试该命令发现仍然需要输入密码

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yK8IJY33-1638676630862)(source/image-20211102172415254.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8txhSWez-1638676630862)(source/image-20211102172607524.png)]

配置免密码ssh

必须配置,否则执行 start-dfs.sh 报错

测试是否可以免密码 ssh 登录

ssh hadoop1

如果提示需要输入密码,表示不能免密码登录,需要执行下面命令

设置密码ssh登录

执行下面命令

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

测试是否可以免密码 ssh 登录

ssh hadoop1

不需要输入密码,就能登录,表示成功,执行下面命令退出

exit

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ebqLM1so-1638676630863)(source/image-20211102172632005.png)]

20211103

tip of the day

  1. 虚拟机的ip地址可能会发生变化,原因是我们用虚拟机时ip地址是自动获取的;真实的服务器是静态的ip,不会变化

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RCeR939E-1638676630863)(source/image-20211103083851408.png)]

  1. ssh是指在自己链接自己的时候不需要密码

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1jWmJhGk-1638676630863)(source/image-20211103084425299.png)]

  1. 节点存储的信息
namenode 
	存储文件的元数据 名字 大小 创建时间等信息
datanode
	存储文件本身的数据

上接7.5

一、格式化NameNode

格式化NameNode

第一次启动时格式化,相当于新安装的硬盘,格式化后才能使用

注意: 以后就不要总格式化,相当于硬盘格式化,原有数据丢失

hdfs namenode -format
hdfs namenode -format

成功如下图:

img

二、启动 NameNode 和 DataNode

启动 NameNode 和 DataNode

start-dfs.sh

执行结果如下:

img

红框处 hadoop1 就是主机名

可通过 hostname 命令查看主机名

jps查看是否启动成功

jps是jdk命令

jps

显示如下:

24294 NameNode
24472 DataNode
24698 SecondaryNameNode

表示启动成功
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jtvm5WRY-1638676630864)(source/image-20211103085915539.png)]

访问Namenode的网页版,端口9870

http://192.168.245.129:9870/dfshealth.html#tab-overview

访问Datanode的网页版,端口9864

http://192.168.245.129:9864/datanode.html

三、手动修改windows的hosts文件

windows中点击链接是不会识别主机名hadoop1,需要修改hosts文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NO9AucsA-1638676630865)(source/image-20211103091636250.png)]

hosts文件的路径为

C:\Windows\System32\drivers\etc

添加对应关系

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MKbxLu73-1638676630865)(source/image-20211103091816177.png)]

如果遇到权限问题,可以先拷贝hosts到别的地方,然后修改完毕再改回去

四、使用hdfs

点击文件系统[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aV52Ump5-1638676630865)(source/image-20211103092424287.png)]

认识界面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZomiC8mQ-1638676630866)(source/image-20211103092524012.png)]

创建文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qWdksJQ6-1638676630866)(source/image-20211103092728572.png)]

字符d表示目录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tWf0QQWh-1638676630866)(source/image-20211103092810308.png)]

网页的用户为root

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6t8Y9pB5-1638676630867)(source/image-20211103092830308.png)]

"-"表示文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-h3lIs4Y7-1638676630867)(source/image-20211103092915521.png)]

详情信息

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-g24A5q5F-1638676630867)(source/image-20211103093113295.png)]

注意,windows中的记事本需要另存为utf-8格式,不能只是保存。

副本数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cmrZoLov-1638676630868)(source/image-20211103100459622.png)]

修改centos的hosts后才能下载

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x8KlfrI3-1638676630868)(source/image-20211103101243202.png)]

五、hadoop文件系统常用命令

https://www.malaoshi.top/show_1IXYspWBqJN.html

文件上传功能

命令:

hadoop fs -put /program/3.txt  /yiqi/dazhong/data
hadoop fs -put linux系统中的文件路径 hdfs中的路径

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JVntBQxC-1638676630868)(source/image-20211103102913649.png)]

linux目录和hadoop目录的分析

3.txt对应的是linux的目录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QS5L66is-1638676630869)(source/image-20211103103308176.png)]

hdfs中上传文件的存储路径

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ja6rbszo-1638676630870)(source/image-20211103104029959.png)]

下载(get)

hadoop fs -get /top/malaoshi/data/data.txt /tmp

将 HDFS /top/malaoshi/data/data.txt 文件,下载 linux 系统的 /tmp 目录中

综合来看

hadoop fs -put from to ->从哪里上传,上传到哪里
hadoop fs -get from to ->从哪里下载,下载到哪里

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-26Of0ATo-1638676630870)(source/image-20211103104924476.png)]

六、YARN

1.yarn简介

介绍

yarn是一个 资源调度平台,负责为 运算程序 提供 服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。

架构

YARN是主从架构,有三大组件:

  • ResourceManager(RM)
  • NodeManager(NM)
  • ApplicationMaster(AM)

其他:

  • Container

注意:

  • client 可以有多个
  • 集群可以运行多个 ApplicationMaster
  • 每个 NodeManager 上可以有多个 Container

img

ResourceManager(RM)

进程,是集群中的主角色。

整个集群资源的管理者,管理内存、CPU等。
接收客户端提交的作业,通过 NM 分配、管理 各个机器 上的计算资源

NodeManager(NM)

进程,是集群中的从角色

每台PC服务器上都要部署一个
计算资源的管理者
根据 RM 指令,启动 Container 容器,监视容器的资源使用情况
RM 汇报 资源使用情况

ApplicationMaster(AM)

单个任务运行的管理者,应用程序内的 老大,负责程序内部各阶段的资源申请、监督程序的执行情况

Container

容器,资源的抽象,相当于 VMware 虚拟机,封装了任务运行所需要的资源,如:内存(占用 1G-8G)、CPU、磁盘、网络等。执行结束后,可自动释放资源

关键交互流程

  1. 客户端提交任务给 ResourceManager
  2. ApplicationMasterResourceManager 申请 内存、CPU 资源
  3. mapreduce作业状态汇报:Container(map task、reduce task)Container(ApplicationMaster),汇报进度,是否完成、错误等
  4. 节点状态汇报:NodeManagerResourceManager 汇报进度

https://www.malaoshi.top/show_1IX28n29YLBN.html

yarn是一个资源调度平台。

2.配置yarn

2.1修改 mapred-site.xml

修改 mapred-site.xml

vim etc/hadoop/mapred-site.xml

指定MapReduce程序运行在Yarn上,配置如下:

<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

指定mr运行在yarn上

保存

2.2修改yarn-site.xml

修改yarn-site.xml

vim etc/hadoop/yarn-site.xml

配置如下:

<property>    <name>yarn.nodemanager.aux-services</name>    <value>mapreduce_shuffle</value></property>

指定获取数据的方式

2.3设置classpath

设置classpath

在hadoop3.x中必须设置,否则执行 hadoop-mapreduce-examples-3.0.3.jar 例子报错

执行下面命令,查看classpath:

hadoop classpath

执行结果如下:

/program/hadoop-3.0.3/etc/hadoop:/program/hadoop-3.0.3/share/hadoop/common/lib/*:/program/hadoop-3.0.3/share/hadoop/common/*:/program/hadoop-3.0.3/share/hadoop/hdfs:/program/hadoop-3.0.3/share/hadoop/hdfs/lib/*:/program/hadoop-3.0.3/share/hadoop/hdfs/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/lib/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/*:/program/hadoop-3.0.3/share/hadoop/yarn:/program/hadoop-3.0.3/share/hadoop/yarn/lib/*:/program/hadoop-3.0.3/share/hadoop/yarn/*

yarn-site.xml 添加如下:

<property>    <name>yarn.application.classpath</name>    <value>/program/hadoop-3.0.3/etc/hadoop:/program/hadoop-3.0.3/share/hadoop/common/lib/*:/program/hadoop-3.0.3/share/hadoop/common/*:/program/hadoop-3.0.3/share/hadoop/hdfs:/program/hadoop-3.0.3/share/hadoop/hdfs/lib/*:/program/hadoop-3.0.3/share/hadoop/hdfs/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/lib/*:/program/hadoop-3.0.3/share/hadoop/mapreduce/*:/program/hadoop-3.0.3/share/hadoop/yarn:/program/hadoop-3.0.3/share/hadoop/yarn/lib/*:/program/hadoop-3.0.3/share/hadoop/yarn/*</value></property>

value 部分是 hadoop classpath 执行的结果

保存

启动

start-yarn.sh

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UD1B7kmQ-1638676630871)(source/image-20211103112859139.png)]

测试yarn端口

hadoop1:8088

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sDFePaJL-1638676630871)(source/image-20211103113250677.png)]

2.4 hadoop3.x集群:执行 wordcount 测试 yarn 和 MapReduce

执行 wordcount

hadoop jar /program/hadoop-3.0.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.3.jar wordcount /test /result

解释:

  • hadoop jar:执行jar命令
  • /program/hadoop-3.0.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.3.jar:jar包所在位置,可以是相对路径
  • wordcount:统计词频。还有其他功能
  • /test:读取 hdfs 的目录
  • /result:将结果输出到 hdfs 的目录下

如果输出的结果目录已经存在了,则会报错

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eHv8m1xb-1638676630872)(source/image-20211103135233316.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T1BzzoWP-1638676630872)(source/image-20211103135242564.png)]

通过application可以查看每次操作的状态

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B7VSQTuk-1638676630872)(source/image-20211103140012506.png)]

2.5配置历史任务服务

提出问题

通过访问:http://hadoop1:8088/ ,显示界面如下:

img

点击上图中的 【History】,不能显示历史信息

如果重启 yarn 服务,上图 web服务 中的记录,就会消失,无法保存历史记录

修改 mapred-site.xml

配置历史服务器

增加下面内容:

<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop1:10020</value>
</property>

配置 web 地址、端口号(可略)

默认端口为:19888

<property>    <name>mapreduce.jobhistory.webapp.address</name>    <value>hadoop1:19888</value></property>

2.6配置日志聚集

提出问题

访问 http://localhost:19888/

在历史服务web管理页面中,如下图:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-G2InoBcK-1638676630873)(source/QQ20210211090554.png)]

点击上图的 【logs】 ,显示界面如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qzIEMQqW-1638676630873)(source/QQ20210211091059.png)]

因为没有配置日志聚集服务

修改 yarn-site.xml

启用日志聚集

<property>    <name>yarn.log-aggregation-enable</name>    <value>true</value></property>

日志保留时间

<property>    <name>yarn.log-aggregation.retain-seconds</name>    <value>604800</value></property>

解释: 时间单位:。604800秒/60/60/24=7天

重启yarn,重启历史服务器

3.修改虚拟机为静态ip

修改虚拟机为静态ip

先敲编辑命令,点击tab键,看提示的是什么

注意:此处的ens33可能因电脑不同而不同,需要查看

vim /etc/sysconfig/network-scripts/ifcfg-ens33

找到网卡的配置文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xUEF5qRB-1638676630874)(source/image-20211103145701092.png)]

修改前先备份一个文件

cp /etc/sysconfig/network-scripts/ifcfg-ens33 /etc/sysconfig/network-scripts/ifcfg-ens33.bak

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ld6w8TCj-1638676630874)(source/image-20211103145841470.png)]

查看虚拟机的ip,是相应的ip地址、网关、dns自定义即可

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6KARL5dO-1638676630874)(source/image-20211103150143012.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YGjoJjO0-1638676630874)(source/image-20211103150150420.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Ei3PZXKB-1638676630875)(source/image-20211103150159640.png)]

配置完毕后重启服务

stop-yarn.sh
stop-dfs.sh
reboot now

测试是否可以联通外网

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yq5RRT3k-1638676630875)(source/image-20211103151141179.png)]

启动时发现hadoop1无法找到主机

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1UD838fu-1638676630875)(source/image-20211103151454292.png)]

需要重新编辑hosts文件

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-H0clvhRj-1638676630876)(source/image-20211103151514469.png)]

使hosts文件中的ip与设定的ip地址相同

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1n7SQp0n-1638676630876)(source/image-20211103151544581.png)]

修改完ip后即可ping通hadoop1

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XVnUUSiu-1638676630876)(source/image-20211103151756346.png)]

修改完ip地址后再次重启服务

start-dfs.sh

发现namenode和datanode均已经启动

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Fw0E24V5-1638676630877)(source/image-20211103152419932.png)]

尝试访问9870,发现无法访问主机。需要重新修改windows的hosts文件

http://hadoop1:9870/
C:\Windows\System32\drivers\etc\hosts

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FlmXQtVv-1638676630877)(source/image-20211103152718892.png)]

如果需要使用分布式计算才执行yarn命令,如果只做为文件的存储hdfs的话,不需要启动yarn

启动yarn
start-yarn.sh

yarn端口

http://hadoop1:8088/cluster

进入 该目录

cd /etc/profile.d

创建 bigdata_env.sh 文件,该文件用于配置大数据相关的环境变量:

vi bigdata_env.sh

在末尾添加行(使用i命令):

# 配置JAVA_HOMEexport JAVA_HOME=/program/jdk1.8.0_202export PATH=${JAVA_HOME}/bin:$PATH

执行esc -> :wq

使立即生效

source  /etc/profile

测试

java -version

会显示java的版本信息,如下:

java version "1.8.0_202"Java(TM) SE Runtime Environment (build 1.8.0_202-b08)Java HotSpot(TM) 64-Bit Server VM (build 25.202-b08, mixed mode)

1638676630876)]

修改完ip后即可ping通hadoop1

[外链图片转存中…(img-XVnUUSiu-1638676630876)]

修改完ip地址后再次重启服务

start-dfs.sh

发现namenode和datanode均已经启动

[外链图片转存中…(img-Fw0E24V5-1638676630877)]

尝试访问9870,发现无法访问主机。需要重新修改windows的hosts文件

http://hadoop1:9870/
C:\Windows\System32\drivers\etc\hosts

[外链图片转存中…(img-FlmXQtVv-1638676630877)]

如果需要使用分布式计算才执行yarn命令,如果只做为文件的存储hdfs的话,不需要启动yarn

启动yarn
start-yarn.sh

yarn端口

http://hadoop1:8088/cluster

进入 该目录

cd /etc/profile.d

创建 bigdata_env.sh 文件,该文件用于配置大数据相关的环境变量:

vi bigdata_env.sh

在末尾添加行(使用i命令):

# 配置JAVA_HOMEexport JAVA_HOME=/program/jdk1.8.0_202export PATH=${JAVA_HOME}/bin:$PATH

执行esc -> :wq

使立即生效

source  /etc/profile

测试

java -version

会显示java的版本信息,如下:

java version "1.8.0_202"Java(TM) SE Runtime Environment (build 1.8.0_202-b08)Java HotSpot(TM) 64-Bit Server VM (build 25.202-b08, mixed mode)

标签:img,hadoop,source,课程,外链,数据,防盗链,图片
来源: https://blog.csdn.net/weixin_45201661/article/details/121727430