HDFS

首页 > TAG信息列表 > HDFS

HBase-day1-day2内容理解

HBase图 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据（底层是字节数组做存储的） HBase是Hadoop的生态系统之一，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系统提供容

org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file:hdfs://ns1/use

做机器迁移，导致flink程序写iceberg失败，原因是hive的元数据存储库mysql停了一段时间。然后flink出现以下异常， org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for file: hdfs://ns1/user/hive/warehouse/iceberg_ods.db/ods_xxx/metadata/17120-4

HDFS分布式文件系统知识点梳理(一)

HDFS分布式文件系统一、HDFS简介 HDFS是Hadoop Distribute File System，翻译成中文就是Hadoop 分布式文件系统，它是Hadoop的核心组成部分，是一个分布式存储服务。 HDFS实现了横跨多台计算机进行文件管理的功能，这就为存储和处理超大规模的数据提供所需要的扩展能力。 HDFS是

HDFS 伪分布式环境搭建

HDFS 伪分布式环境搭建作者：Grey 原文地址：博客园：HDFS 伪分布式环境搭建 CSDN：HDFS 伪分布式环境搭建相关软件版本 Hadoop 2.6.5 CentOS 7 Oracle JDK 1.8 安装步骤在CentOS 下安装 Oracle JDK 1.8 下载地址将下载好的 JDK 的安装包 jdk-8u202-linux-x64.tar.gz 上传到

大数据分析常用组件、框架、架构介绍（Hadoop、Spark、Storm、Flume、Kafka、Logstash、HDFS、HBase）

首先，数据传输组件： ①Kafka是用Scala编写的分布式消息处理平台。 ②Logstash是用JRuby编写的一种分布式日志收集框架。 ③Flume是用Java编写的分布式实时日志收集框架。其次，数据存储组件： ④HDFS (Hadoop Distributed File System)用Java编写，是谷歌的GFS（Google File S ystem）的一

DataFrame中的行动算子操作2

## 修改hdfs-site.xml <property> <name>hive.metastore.warehouse.dir</name> <value>hdfs://node1:9000/user/hive/warehouse</value> <description>location of default database for the warehouse</description> </p

暑假学习6 hdfs shell命令

命令行操作：cli Hadoop的命令shell ： Hadoop fs -ls file: 操作本地的文件系统 hadoop fs -ls hdfs://node1:8020 操作hdfs分布式文件系统 hadoop fs -ls 直接根目录，加载环境变量中fs.defa

暑假学习五 8.28日 hdfs

文件系统文件系统：存储和组织数据的方式，实现了数据的存储，分级组织，访问和获取，使用树状结构数据：数据本身。文件系统元数据：文件大小，最后修改时间....描述性的数据分布式文件系统核心属性：分布式存储，无限扩展元数据记录，方便寻找分块存储，针对并行操作提供效率副本机制，冗余存

常用sink

HDFS Sink # sink1 a3.sinks.k1.type = hdfs a3.sinks.k1.hdfs.path = /origin_data/gmall/db/business_db/inc/%{tableName}_inc/%Y-%m-%d a3.sinks.k1.hdfs.filePrefix = db a3.sinks.k1.hdfs.useLocalTimeStamp=false a3.sinks.k1.hdfs.round = false # 解决hdfs中小文件问题

暑假学习三 8.25 继续配置环境

1.初始化，只能一次，只在第一台机器初始化即可 hdfs namenode -format 需要注意在之前确认没错的情况下执行成功后又以下提示： 2.Hadoop集群的启停止命令 shell脚本一键启停 hdfs start-dfs.sh stop-dfs.sh yarn start-yarn.sh stop-yarn.sh hadoop start-all.sh

记一次使用“msck repair table 表名”这个命令

背景：数据导入到hive后，查询不到数据原因： MSCK REPAIR TABLE命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。我们知道hive有个服务叫metastore，这个服务主要是存储一些元数据信息，比如数据库名，表名或者表的分区等等信息。如

HDFS的读写流程——宏观与微观

HDFS的读写流程——宏观与微观 HDFS：分布式文件系统，负责存放数据分布式文件系统：就是将我们的数据放到多台电脑上存储。写数据：就是将客户端上的数据上传到HDFS 宏观过程客户端向HDFS发送读写数据请求 hdfs dfs -put student.txt /shujia/ 客户端发送命令将student.txt文件上传

Java操作HDFS

Java操作HDFS ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.fs.permission.FsPermission; import java.io.IOException; import java.text.SimpleDateFormat; import java.util.Arrays; import java.util.D

haddoob分布式文件系统架构

一、apache Apache基金会是专门为支持开源软件项目而办的一个非盈利性组织二、分布式文件系统 1、FS File System 文件系统时极域硬盘之上的文件管理的工具我们用户操作文件系统可以和硬盘进行解耦 2、DFS Distributed File System 分布式文件系统将我们的数据存放在多台

hadoop day2-搭建

hadoop搭建准备工作三台虚拟机：master、node1、node2 检查时间是否同步：date 检查java的jdk是否被安装好：java-version 修改主机名三台分别执行 vim /etc/hostname 并将内容指定为对应的主机名关闭防火墙：systemctl stop firewalld a.查看防火墙状态：systemctl statu

大数据Hadoop之——HDFS小文件问题与处理实战操作

目录一、背景1）小文件是如何产生的？2）文件块大小设置3）HDFS分块目的二、HDFS小文件问题处理方案1）Hadoop Archive（HAR）2）Sequence file3）CombineFileInputFormat4）开启JVM重用5）合并本地的小文件，上传到 HDFS（appendToFile ）6）合并 HDFS 的小文件，下载到本地（getmerge）三、HDFS小文件问题处理实战操

大数据Hadoop之——Hadoop HDFS多目录磁盘扩展与数据平衡实战操作

目录一、概述二、Hadoop DataNode多目录磁盘配置1）配置hdfs-site.xml2）配置详解1、 dfs.datanode.data.dir2、dfs.datanode.fsdataset.volume.choosing.policy3、dfs.datanode.available-space-volume-choosing-policy.balanced-space-preference-fraction4、dfs.datanode.available

Harley浅谈Hadoop（HDFS）

一、HDFS概述 1.1、HDFS产出背景及定义 1.1.1、HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式

hdfs fsck 命令

查看文件目录的健康信息执行如下的命令： hdfs fsck /user/hadoop-twq/cmd 可以查看 /user/hadoop-twq/cmd 目录的健康信息：其中有一个比较重要的信息，就是Corrupt blocks，表示损坏的数据块的数量查看文件中损坏的块 (-list-corruptfileblocks) [hadoop-twq@master ~]

hdfs

hadoop 删除文件流程当通过cli执行删除文件操作时，具体namenode与datanode工作详解如下： namenode端： 1.cli提交删除文件 command； 2.FileSystem会调用具体delete操作； 3.delete操作会由DFSClient通过RPC将delete请求发送给NameNode； 4.nameNode接收请求后，会该操作交由namesystem(名字

Hive了解

转自：https://aws.amazon.com/cn/big-data/what-is-hive/ https://www.jianshu.com/p/e9ec6e14fe52，https://blog.csdn.net/qq_26442553/article/details/80300714 1.简介 Facebook为了解决海量日志数据的分析而开发了Hive，Hive是一种用类SQL语句来协助读写、管理存储在分布式存储系

HDFS-存储优化

1.纠缠码原理：HDFS默认情况下，一个文件有3个副本，这样提高了数据的可靠性，但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码，采用计算的方式，可以节省约50％左右的存储空间。（1）纠删码操作相关的命令：hdfs ec Usage: bin/hdfs ec [COMMAND] [-listPolicies]

《HDFS源码剖析》--初品ing

HDFS HDFS概述 HDFS是Hadoop 分布式文件系统，可以运行在通用硬件上、提供流式数据操作、能够处理超大文件的分布式文件系统。HDFS具有高度容错、高吞吐量、容易扩展、高可靠性等特征。 HDFS是一个主/从体系结构的分布式系统，拥有1个Namenode和多个Datanodes，用户可以通过HDFS客

HDFS配置HA下spark-sql写入hive报错Wrong FS

背景: 　　CDH集群的HDFS HA已配置完毕，Hive也相应进行了Update Hive Metastore NameNode，Hive的业务sql脚本都正常运行。　　在使用spark-sql 写入hive时报错： Caused by: java.lang.IllegalArgumentException: Wrong FS: hdfs://nameservice1:8020/dw/ods/ods_node_data_i_temp/.