首页 > TAG信息列表 > Hadoop03
工作流调度器-Azkaban
1.工作流调度器 1.为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们ssh免密登录
SSH免密登录原理 1. cd 到家目录 cd /home/xst 执行 ls -al 可以看到隐藏文件.ssh 目前里面只有一个文件 2. ssh-keygen -t rsa 执行后可以看到 .ssh文件下生成 公钥和私钥已经生成 3. 执行ssh-copy-id Hadoop03 把公钥分发给需要免密登录得机器 ,我这里是Hadoop03jdbc连接hive后没法insert
在网上查了很多资料,每一个真正解决问题的,但多少算贴点边吧,也有可能不是每个人都像我一样粗心大意 我们都知道hadoop需要配置代理用户,在配置文件core-site.xml里,这个文件配置完一定要分发到集群,不然就会出现root not allow to impersonate root 这种魔幻的错误 一开始我还很蒙,ro在xshell上对多台虚拟机(或者窗口)群发命令
目前掌握的方法: 1、首先在Xshell上连接多台虚拟机 如下图所示:我已经连接了三台虚拟机,分别是hadoop01、hadoop02、hadoop03 2、点击上栏框中的 : 查看——撰写栏 点击完成后出现下面的样子: 这里要注意的是,如果会话框中的默认文本为:“仅将文本发送到当前选项卡”,则需要将选项Hadoop03---MapReduce基础
MapReduce基本用法 一 MapReduce基本定义 1.简介 MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)“和"Reduce (归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编Hbase搭建和shell命令笔记
写在前面 在老师的要求下,我们学习了hbase的相关操作。hbase是一个非关系型数据库,其存储机构与关系型数据库有着很大的不同,同时hbase也是一个分布式数据库。其查询效率很高。 准备环境 hbase建立在hadoop的HDFS和zookeeper的基础上,所以要配置hbase之前首先要把HDFS和zookeeper配置centos7访问不到外网
1、关闭防火墙 centos7关闭防火墙的状态命令: 先输入sudo systemctl disable firewalld #想重启后防火墙还是处于关闭的状态 再输入sudo systemctl stop firewalld #关闭防火墙 再输入reboot #重启 2、设置桥接模式 3、设置静态ip地址,编辑ifcfg-ens33文件,然后重启服务 [阿里云集群搭建
几位朋友找我,做一个基于spark的推荐系统。我们于是买了三台阿里云服务器折腾一下。 1.配置putty和安装nano 2.配置主机映射 /etc/hosts 172.18.161.218 hadoop01172.18.161.225 hadoop03172.18.161.226 hadoop02 3.Flume实现扇出流动
flume扇出流动的过程 实现过程 首先准备三台机器:hadoop01,hadoop02,hadoop03 (我在三台机器上已配置好hosts) 然后每台机器上配置Agent 配置hadoop01 配置hadoop02和hadoop03一样 配置完了后,首先启动hadoop02和hadoop03上的Agent flume-ng a