bigdata

首页 > TAG信息列表 > bigdata

HDFS 伪分布式环境搭建

HDFS 伪分布式环境搭建作者：Grey 原文地址：博客园：HDFS 伪分布式环境搭建 CSDN：HDFS 伪分布式环境搭建相关软件版本 Hadoop 2.6.5 CentOS 7 Oracle JDK 1.8 安装步骤在CentOS 下安装 Oracle JDK 1.8 下载地址将下载好的 JDK 的安装包 jdk-8u202-linux-x64.tar.gz 上传到

练习：使用shell脚本结合sqoop命令，把Hive数据库的某张表的分区数据导出到oracle数据库的某张表

hive的表：bigdata.emp_dongtai oracle的表：EMP_FROM_H #!/bin/sh #使用shell脚本结合sqoop命令，进行一个Hive分区表格的数据导出到oracle的操作 for i in `hive -e"show partitions bigdata.emp_dongtai"` #查看表的分区数据 do echo $i sqoop export --connect jdbc:oracle:thi

BigData-Shell

简介本文用于日常练习使用 Shell case-when、while、if、for 如下样例： #!/bin/bash # case : bash case.sh start 1 1 #查询变量数目 echo "参数数目: $#" #case-when echo "case-when" case $1 in "io") for i in {0..3} do vmstat 1 1 done ;; *) echo "ar

4.11：Storm之WordCount

〇、概述 1、拓扑结构 2、目标使用storm进行计数实验。一、启动服务在网页中输入：http://localhost:8081可以查看storm的相关信息。二、kafka操作终端中输入：nohup ~/bigdata/kafka_2.11-1.0.0/bin/kafka-server-start.sh ~/bigdata/kafk

被误删的HDFS文件如何有效恢复

1.回收站机制恢复 HDFS的回收站机制默认是关闭的，需要我们在配置文件core-site.xml中配置一些参数 2.快照机制恢复 HDFS快照是文件系统的只读时间点副本。可以在文件系统的子树或整个文件系统上创建快照。一个快照是一个全部文件系统、或者某个目录在某一时刻的镜像。为目录/bigda

Hadoop安装与常用操作命令

一、大纲 1、HDFS集群环境搭建 2、常见问题 3、HDFS Shell命令使用二、集群环境搭建下载地址: https://hadoop.apache.org/releases.html 1、初始化目录在/bigdata/hadoop-3.2.2/下创建目录 mkdir logs secret hadoop_data hadoop_data/tmp hadoop_data/namenode had

实时数仓|基于Flink1.11的SQL构建实时数仓探索实践

实时数仓|基于Flink1.11的SQL构建实时数仓探索实践_jmx_bigdata的博客-CSDN博客_flinksql实时数仓实时数仓主要是为了解决传统数仓数据时效性低的问题，实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓的架构及技术选型与传统的离线

centos 自定义服务，实现.net core脱离supervisor的进程守护，同时实现start,stop等指令控制

场景：　　本人一直用.net core和supervisor做进程守护（deamon），但是感觉还是mysql这种服务做得好，可以通过start.stop等指令实现控制启停。其实这里用的就是liunx自带的service 解决：　　在/etc/init.d下建立自己的service，注意不能有后缀名： vi /etc/init.d/bigdata 　　在该文件中写

提交flink程序到集群上

这里我演示的是 yarn的cluster模式首先来到IDEA中将咱们需要在环境上跑的程序，进行打包。这里使用的IDEA上的图形界面进行项目打包的(还是挺方便的) 执行完上面三步后：项目的下面会出现target文件夹这里产生两个jar包，如果测试环境上有项目所需的资源jar的话，可以直接将较小

后端开发、bigdata、cv、nlp实习+秋招面试交流群

如果二维码失效、可以留言给我

后端开发、bigdata、cv、nlp实习+秋招面试交流群

失效可后台联系

Hadoop-HA模式的搭建(手把手教，超细)

参考的Hadoop官网具有QJM的NameNode HA_Hadoop 中文网https://hadoop.org.cn/docs/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html从我完全分布式过来的同学，现在已经有了四台搭建了完全分布式的四台虚拟机如果没有看过，请参照下文搭建！我们接下来的HA(高可

zookeeper之安装

zookeeper之安装一、准备条件 1.1 最低三个服务器（一主多从，1个leader，多个flower）1.2 将zookeeper安装包上传到集群并解压zookeeper 二、将conf目录下的 zoo_sample.cfg拷贝一分，并命名为zoo.cfg cp ./zoo_sample.cfg zoo.cfg 三、修改zoo.cfg配置文件 tickTime=2000 心跳时间

kafka的常规操作命令

kafka修改保留时间kafka-configs --zookeeper dbos-bigdata-tools001:2181,dbos-bigdata-tools002:2181,dbos-bigdata-tools003:2181 --entity-type topics --entity-name test_sony_boot_play --alter --add-config retention.ms=86400000 查看topickafka-topics --zookeeper dbo

bigdata_hive进阶

一、hive分区分区操作属于hive操作的重量级操作分区在hdfs上物理结构是目录非严格模式：no~ 表数据删除方法对比说明： drop，delete，truncate 联系：都可以达到删除数据的目标。区别：Drop：把数据和元数据全删除； dele

【Spark】【RDD】从本地文件系统创建RDD

练习作业完成任务从文件创建三个RDD(math bigdata student) cd ~ touch math touch bigdata touch student pwd 启动Spark-shell var localrdd1 = sc.textFile("file:///home/用户名/math") var localrdd2 = sc.textFile("file:///home/用户名/bigdata") var localrdd3 = s

手动安装Hadoop3.3.1+ Yarn HA集群

Hadoop集群搭建手动安装Hadoop3.3.1+ Yarn HA集群服务主机ip规划准备工作启动zookeeperHadoop配置文件启动与维护高可用 NameNode + Yarn 分布式集群1. 启动与格式化 ZooKeeper 集群2. 启动 JournalNode 集群3. 格式化并启动主节点 NameNode 服务4. NameNode 主、备节点同

实时流处理框架之Storm的安装与部署

参考视频教程: **基于Storm构建实时热力分布项目实战 ** 教程目录 0x00 教程内容0x01 下载Storm * * * * 1. 下载Storm 2. 上传安装包到节点 0x02 安装与配置Storm * * * * 1. 解压Storm 2. 配置Storm 0x03 启动并校验Storm * * * * 1. 启动Storm 2.

[hadoop3.x系列]Hadoop常用文件存储格式及BigData File Viewer工具的使用(三)

文章目录前言历史文章

Centos7安装Hadoop

1、设置静态ip网络/etc/sysconfigs/network-scripts/ifcfg-ens33，修改/etc/hosts，/etc/hostname，修改客户机win10的hosts文件（C:\Windows\System32\drivers\etc） 2、关闭防火墙 #查看防火墙状态 [root@bigdata01 ~]# systemctl status firewalld ● firewalld.service - firewalld - d

安装配置kafka

1、将安装文件kafka_2.11-2.4.1.tgz拷贝至/opt/software，并解压 #查看文件 [bigdata@bigdata01 software]$ ll | grep kafka_2.11-2.4.1.tgz -rw-r--r--. 1 bigdata bigdata 70159813 Aug 15 18:46 kafka_2.11-2.4.1.tgz #解压到/opt/module/ [bigdata@bigdata01 software]$ tar

Mysql基础

DDL:数据定义语言数据库 create database if not exists bigdata_61; 创建数据库 show databases; 查看有哪些数据库 use bigdata_61;使用数据库 select database(); 查看正在使用的数据库 drop database bigdata_61;删除数据库表 create table student(id int,name

BigData File Viewer工具介绍

目录 1.概述2.官网地址3.功能4.使用方法 1.概述 BigData File Viewer时一个跨平台（例如Windows，MAC，Linux等）的桌面应用程序，它用于查看常见的大数据二进制格式，例如Parquet，ORC，AVRO等。，除此之外，它还支持本地文件系统、HDFS、AWS S3等等。 2.官网地址 BigData File Viewer的官网

4.HDFS集群—搭建集群分布式

hadoop分布式搭建完全分布式结构 hostNNSNNDNtongyuzhe1*tongyuzhe2**tongyuzhe3*tongyuzhe4* hadoop配置目录如果出现启动失败，就把/tmp和配置文件目录还有hadoop软件文件夹都删除全部重新弄 #进入hadoop配置目录 cd $HADOOP_HOME/etc/hadoop 角色启动位置 #hadoop

Hadoop集群搭建

@20201/6/18 Hadoop集群搭建 1、配置hostname 编辑/etc/hosts，在文件尾部追加如下内容： 192.168.21.10 master 192.168.21.20 slave1 192.168.21.30 slave2 ip 根据自己环境修改，最后/etc/hosts 内容如下： 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.l