首页 > TAG信息列表 > hadoop1

新一代分布式实时流处理引擎Flink入门实战操作篇

@目录安装部署安装方式Local(Standalone 单机部署)Standalone部署Standalone HA部署Flink On Yarn演示案例概述会话(Session)模式单作业(Per-Job)模式流程演示应用(Application)模式 安装部署 安装方式 Flink安装支持多种方式,包括Flink Local和Flink Standalone、Flink On Yarn、Flink O

kettle使用

kettle入门实战   一、kettle概述 1、什么是kettle Kettle是一款开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 2、Kettle工程存储方式 (1)以XML形式存储 (2)以资源库方式存储(数据库资源库和文件资源库) 3、Kettle的两种设计 4、Kettle

hadoop集群搭建

几年前搞过一段时间hadoop,现在又要开始搞了,发现环境都不会搭建了。写个博客记录下搭建过程。 目录1、创建虚拟机及规划2、设置各主机之间免密登录1、在每台主机hosts文件中添加IP与主机名的映射关系2、设置互信(每台主机都执行)3、安装JDK和hadoop1、上传软件包2、安装Java,设置

Linux总结--用户和组

2019-07-12 17:53:04 用户和组关系 在Linux系统中,用户组分为主组和附属组两种。一个用户有且只有一个主组,可以有多个附属组;一个组可以作为多个用户的主组,可以作为多个用户的附属组;个人认为,附属组存在的意义在于使一个用户除了拥有主组的权限外,还可以拥有其他所在的附属组的权限。

Hadoop笔记一:伪分布式安装

Hadoop安装分为单机、伪分布式和完全分布式。 单机模式是Hadoop的默认模式。在初次安装Hadoop后,将使用这个模式。此时Hadoop的三个配置文件为空。单机模式不使用HDFS,也不加载任何Hadoop守护进程,仅用来调试MapReduce程序。 伪分布式,Hadoop的守护进程在一台机器上运行,模拟一个小规

HDFS的基本操作

前提要求:已成功搭建Hadoop集群 【实验描述】 Hadoop提供也hadoop分布式文件系统交互的命令,通过了解Hadoop shell命令的用法。掌握对hadoop分布式系统的操作;以下是一些基础命令操作。 查看hdfs分布式系统根目录下所有文件和文件夹信息 [root@hadoop1 ~]# hdfs dfs -ls / 利用

CentOS7搭建基础Hadoop集群

1.基础环境 实验环境: 版本主机名IP角色CentOS7.0hadoop1192.168.183.160masterCentOS7.0hadoop2192.168.183.162novaCentOS7.0hadoop3192.168.183.163nova JDK版本:jdk-7u79-linux-x64.tar.gz Hadoop版本:hadoop-2.8.3.tar.gz 链接: https://pan.baidu.com/s/174OGr9oJ6M9vgid4

redis安装及配置

上传   解压 [hadoop@hadoop1 module]$ tar -zxvf redis-4.0.10.tar.gz    2解压 hadoop@hadoop1 module]$ tar -zxvf redis-4.0.10.tar.gz [hadoop@hadoop1 redis-4.0.10]$ make [hadoop@hadoop1 redis-4.0.10]$ make PREFIX=/opt/module/redis install 3配置redis [hado

zookeeper

Top NSD ARCHITECTURE DAY05 案例1:组建zookeeper集群 案例2:测试集群的远程管理和高可用 案例3:在node节点上搭建3台kafka 案例4:准备实验环境 案例5:配置namenode与resourcemanager高可用 案例6:启动服务,验证高可用 1 案例1:组建zookeeper集群 1.1 问题 本案例要求: 组建 zookeeper

Hadoop1.*版本 统计文件中字符串出现的数量 或收集 《未完待续》

入门级项目,实践一下,分析并统计服务器运行日志中调用量最多的SQL语句,把它进行缓存 pom.xml 引入依赖 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0

Hadoop1

安装 epel-release :(Extra Packages for Enterprise Linux 是为“红帽系”的操作系统提供额外的软件包,适用于 RHEL、CentOS 和 Scientific Linux。相当于是一个软件仓库,大多数 rpm 包在官方repository 中是找不到的)yum install -y epel-release   如果 Linux 安装的是最小系统版,还

Hadoop2.0版本安装(分布式集群+伪分布式安装)

搭建Hadoop分布式集群 安装虚拟机 选择CentOS安装,安装步骤略。 安装之后,直接开启虚拟机即可。 使用Xshell远程连接 打开虚拟机,打开终端 输入ifconfig查看ip相关配置 此处显示的即为虚拟机ip,如果未出现,则直接输入如下指令 注意:对应上述ifconfig中的第一行中是ens33,如果为ensX

HDP Hiveserver2搭建高可用

第一步:添加hiveserver2服务第二步:增加配置项      第三步:注册到分别有hiveserver2的机器上面执行命令[root@hadoop2 ~]# hiveserver2 第四步:验证,一个节点注册[zk: localhost:2181(CONNECTED) 4] ls /hiveserver2[serverUri=0.0.0.0:10000;version=1.2.1.2.3.4.0-3485;sequenc

HDP Hiveserver2搭建高可用

第一步:添加hiveserver2服务第二步:增加配置项      第三步:注册到分别有hiveserver2的机器上面执行命令[root@hadoop2 ~]# hiveserver2 第四步:验证,一个节点注册[zk: localhost:2181(CONNECTED) 4] ls /hiveserver2[serverUri=0.0.0.0:10000;version=1.2.1.2.3.4.0-3485;sequenc

小学生 自学大数据 第一章linux常用命令 (一)

目录 1.vi/vim 1.1 是什么 1.2 一般模式 1.3 编辑模式 1.4 指令模式 2.帮助命令 2.1 man 2.2 help 2.3 type 3.文件目录类 3.1 pwd 3.2 ls 3.3 cd 3.4 mkdir 3.5 rmdir 3.6 touch 3.7 cp 3.8 rm 3.9 mv 3.10 cat 3.11 more 3.12 less 3.13 echo 3.14 head 3.15 tail 3.16 > 和 >

elasticSearch基本使用

1. elasticsearch 命令的基本格式 RESTful接口URL的格式: http://localhost:9200/<index>/<type>/[<id>] 其中index、type是必须提供的。id是可选的,不提供es会自动生成。index、type将信息进行分层,利于管理。index可以理解为数据库;type理解为数据表;id相当于数据库表中记录的主键,是

配置nginx的负载均衡和故障转移

如果Nginx仅仅只能代理一台服务器的话,那它也不可能像今天这么火,Nginx可以配置代理多台服务器,当一台服务器或少数服务器宕机之后,整个集群仍能保持系统可用。 一、配置步骤 1、准备springboot的demo jar包用来当作测试项目,我将我使用的jar包放在网盘上供大家下载使用,当然大家也

awk 把两行数据合成一行

1、现有测试数据如下: cat a.txt hadoop1 1 hadoop2 2 hadoop3 3 2、期望的格式 hadoop1: 1 hadoop2: 2 hadoop3: 3 3、使用awk awk '{if(NR%2!=0)ORS=":";else ORS="\n"}1' a.txt | http://bbs.chinaunix.net/thread-4241658-1-1.html

使用flume将本地数据导入kafka

文章目录 创建topicflume操作使用kafka命令验证 创建topic [root@hadoop1 kafka]# kafka-topics.sh --zookeeper hadoop1:2181 --create --topic users --partitions 1 --replication-factor 1 Created topic "users". flume操作 创建所需文件夹 [root@hadoop1 jobkb09]

hadoop集群启动遇到的问题之hadoop1启动,别的没有启动

hadoop群起的问题hadoop1正常启动,但是hadoop2,3都是不正常分析问题解决方法 hadoop1正常启动,但是hadoop2,3都是不正常 – 自己搭的hadoop群起服务,第一台机器是正常启动, 但是第二台就没有datanodes,第三台也么有 分析问题 – 分析了一下,感觉就是要不ssh免密没做好, –

Elasticsearch 7.6集群搭建(基于Centos7.4)

1、下载安装包elasticsearch-oss-7.6.2-linux-x86_64.tar.gz到hadoop1 elasticsearch-oss-7.6.2-linux-x86_64.tar.gz 2、远程传输到hadoop2、hadoop3节点 scp -r elasticsearch-oss-7.6.2-linux-x86_64.tar.gz root@hadoop2:`pwd` scp -r elasticsearch-oss-7.6.2-linux-x86_64.t

01-shell文本处理三剑客之grep

原文链接:https://blog.csdn.net/qq_29622761/article/details/51601740 1 grep是什么意思? grep: Global search REgular expression and Print out the line. 文本搜索工具,根据用户指定的“模式(pattern)”对目标文本进行过滤,显示被模式匹配到的行。 嘿

Hadoop技术优缺点详解

给大家介绍一下关于Hadoop技术的优缺点,目前我们正被数据包围,全球43亿部电话、20亿位互联网用户每秒都在不断地产生大量数据,人们发送短信给朋友、上传视频、用手机拍照、更新社交网站的信息、转发微博、点击广告等,使得机器产生和保留了越来越多的数据。数据的指数级增长对处于

Apache hadoop namenode ha和yarn ha ---HDFS高可用性

HDFS高可用性Hadoop HDFS 的两大问题:NameNode单点:虽然有StandbyNameNode,但是冷备方案,达不到高可用--阶段性的合并edits和fsimage,以缩短集群启动的时间--当NameNode失效的时候,Secondary NN并无法立刻提供服务,Secondary NN甚至无法保证数据完整性--如果NN数据丢失的话,在上一次合并后

好程序员大数据教程分享之Hadoop优缺点

好程序员大数据教程分享之Hadoop优缺点,大数据成为时代主流,开启时代的大门,全球43亿部电话、20亿位互联网用户每秒都在不断地产生大量数据,人们发送短信给朋友、上传视频、用手机拍照、更新社交网站的信息、转发微博、点击广告等,使得机器产生和保留了越来越多的数据。我们被数据所包围