NODE1

首页 > TAG信息列表 > NODE1

数据源:flume采集到的端口

推送式将flume采集的数据主动推送给Spark程序，容易导致Spark程序接受数据出问题，推送式整合是基于avro端口下沉地方式完成引入SparkStreaming和Flume整合的依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <

漫画：什么是一致性哈希？

收录于合集一年之前—— 未来两年内，系统预估的总订单数量可达一亿条左右。按Mysql单表存储500万条记录来算，暂时不必分库，单库30个分表是比较合适的水平分表方案。于是小灰设计了这样的分表逻辑：订单表

dockerfile

目录什么是dockerfiledockerfile的基本结构dockerfile的指令创建镜像什么是dockerfile dockerfile 构建镜像是以基础镜像为基础。Dockerfile是一个文本文件，内容就是用户编写的docker指令，每一条指令构建一层，每一条指令内容就是描述每一层如何构建。 dockerfile的基本结构 Dockerf

DataFrame中的行动算子操作2

## 修改hdfs-site.xml <property> <name>hive.metastore.warehouse.dir</name> <value>hdfs://node1:9000/user/hive/warehouse</value> <description>location of default database for the warehouse</description> </p

HDFS的读写流程——宏观与微观

HDFS的读写流程——宏观与微观 HDFS：分布式文件系统，负责存放数据分布式文件系统：就是将我们的数据放到多台电脑上存储。写数据：就是将客户端上的数据上传到HDFS 宏观过程客户端向HDFS发送读写数据请求 hdfs dfs -put student.txt /shujia/ 客户端发送命令将student.txt文件上传

gitlab安装及汉化

gitlab的安装首先在网上下载好任意版本gitlab的rpm包推荐下面的地址： https://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/yum/el7/gitlab-ce-8.8.5-ce.1.el7.x86_64.rpm [root@linux-node1 ~]# rz -E rz waiting to receive. [root@linux-node1 ~]# ls anaconda-ks.cfg gitlab-

Solr8启动集群操作

一、 SolrCloud Solr可以搭建具备容错能力和高可用的Solr集群。集群中集群配置、自动负载均衡和查询故障转移、Zookeeper集群实现集群协调管理，这些全部功能统称为SolrCloud。 SolrCloud是基于Zookeeper进行管理的。在Solr中已经内置了Zookeeper相关内容，当执行集群创建

jenkins集群部署

jenkins部署集群环境：两台Centos7.3系统 master：172.16.1.227 slave:172.16.1.228 其中一台作为master，另一台为slave（slave服务器上无需安装jenkins） 1.master：安装java环境，本博客里有，省略 2.master：安装配置好jenkins。下载jenkins的war包，直接执行java -jar jenkins.war & 3.master；配

flume采集数据及环境配置

Flume采集数据的工作图 Flume采集数据的工作流程 Flume配置过程 [root@node1 ~]# pwd /opt/software/ [root@node1 software]# tar -zxvf apache-flume-1.8.0-bin.tar.gz -C /opt/app/ [root@node1 software]# pwd /opt/app/ [root@node1 app]# mv apache-flume-1.8.0-bin/

hive配置的学习

[root@node1 conf]# mv hive-env.sh.template hive-env.sh [root@node1 conf]# vi hive-env.sh export HIVE_CONF_DIR=/opt/app/hive-2.3.8/conf export HADOOP_HOME=/opt/app/hadoop-2.8.5 第一次启动先初始化元数据到derby数据库中 [root@node1 hive-2.3.8]# schematool -dbTyp

7.28——Linux常用命令(一)

课前扩展主流操作系统 windows unix Linux Linux 内核由林纳斯开发出来的，是一种免费使用和自由传播的类UNIX操作系统，开源，全球顶级的程序员都加入共同来开发以及维护Linux操作系统。分支 CentOs7.6 ubantu RedHat 麒麟常用端口号： ssh 22 nginx/apache 80 mysql 3306 Email

kafaka 环境搭建，Kafka的控制台生产者和消费者

一、搭建Kafka 1、上传解压修改环境变量 # 解压 tar -xvf kafka_2.11-1.0.0.tgz # 配置环境变量 vim /etc/profile export KAFKA_HOME=/usr/local/soft/kafka_2.11-1.0.0 export PATH=$PATH:$KAFKA_HOME/bin source /etc/profile 2、修改配置文件 vim config/server.prop

FLink集群搭建并提交一个简单的任务

FLink集群搭建独立集群独立集群不需要依赖任何框架，独立运行 1、上传解压配置环境变量 tar -xvf flink-1.15.0-bin-scala_2.12.tgz vim /etc/profile 2、修改配置文件 vim conf/flink-conf.yaml jobmanager.rpc.address: master jobmanager.bind-host: 0.0.0.0 taskmanager

当集群中的空间不够时，增加结点动态扩容（服役新节点） (在不关机的情况下，增加一台datanode)

克隆克隆当前的虚拟机修改3台虚拟机的ip地址和主机名 vim /etc/sysconfig/network-scripts/ifcfg-ens33 将IPADDR修改为192.168.200.225 重新启动网络服务使其生效 systemctl restart network 配置主机名的映射 vi /etc/hostname 将克隆的node1修改为new vi /etc/hosts 增

Linux SELinux 介绍

SELinux介绍 SELinux是 Security-Enhanced Linux (SELinux) 缩写，由NSA组织指定的一套linux上的权限规则。（NSA is short for National Security Agency ） SELinux是一种Linux操作系统中灵活控制权限的实现方式。SELinux 为应用程序，进程和文件系统的文件等定义访问权限。SELinux使用

KVM虚拟机随宿主机开机自启动

一.图形化界面设置必须在虚拟机关闭情况下完成！！！在KVM中悬着详情中的引导选项，勾选“主机引导时启动虚拟机”即可。二.命令行界面（宿主机） 1.virsh list --all 查看虚拟机名称和状态 2.virsh autostart centos7.0-mini-1 设置随宿主机开机自启动检查在/etc/libvirt

【剑指Offer 25】合并两个排序的链表

/** * 剑指 Offer 25. 合并两个排序的链表 * https://leetcode.cn/problems/he-bing-liang-ge-pai-xu-de-lian-biao-lcof/ * */ public class Solution { public ListNode mergeTwoLists(ListNode l1, ListNode l2) { ListNode head = new ListNode(0); // 哨兵

Hadoop-day07 HDFS的读写流程

HDFS的读写流程（重点！）写数据写数据就是将客户端上的数据上传到HDFS 2.6.1 宏观过程每一个block块都需要进行机架感知，得到block块以及副本的存储DN的节点，然后DN节点之间组成pipeline,然后客户端将block块拆分成多个packet,每个packet大小为64K,然后进行传输,先传输到pipeline第

二进制安装K8S kubctl get node 返回No resources found

问题描述：node节点kubelet服务启动成功后，在集群master节点执行命令具体结果如下截图原因：kubelet设置的cgroups和docker的不一致导致修改docker的cgroup，在daemon.json文件中增加以下内容： vim /etc/docker/daemon.json "exec-opts": ["native.cgroupdriver=systemd"] 保存退

ceph安装.md

环境系统环境：centos7.6 2003 节点： ceph_node1: 安装组件：ceph-deploy,ceph-admin 组件：mon1,mgr1,ods ntp服务器 IP :192.168.10.15 硬盘：两块4T(后续会添加) ceph_node2: 组件：mon2,mgr2,ods IP :192.168.10.16 硬盘：两块4T(后续会添加) ceph_node3: 组件：mon2,mgr2,ods I

（一）AWK基础入门

前言 awk是一个报告生成器，它拥有强大的文本格式化的能力，这就是专业的说法。 awk是由Alfred Aho 、Peter Weinberger 和 Brian Kernighan这三个人创造的，awk由这个三个人的姓氏的首个字母组成。 awk早期是在unix上实现的，所以，我们现在在linux的所使用的awk其实是gawk，也就是GNU awk，简

Hadoop集群模式安装笔记

前言 Hadoop集群=HDFS集群+YARN集群特点：两个集群逻辑上分离，通常物理上在一起；并且都是标准的主从架构集群 Hadoop安装方式一源码编译安装方式二官方编译安装包 (✔) 环境 Centos +虚拟机集群规划服务器运行角色 node1.itcast.cn namenode datanode resourcemanager

HDFS High Availability（HA）高可用配置

高可用性（英语：high availability，缩写为 HA） IT术语，指系统无中断地执行其功能的能力，代表系统的可用性程度。是进行系统设计时的准则之一。高可用性系统意味着系统服务可以更长时间运行，通常通过提高系统的容错能力来实现。高可用性或者高可靠度的系统不会希望有单点故障造成整体故障

对synchronized的理解和Spring为什么是单例的

只有真正理解了Java中对象是什么，才能理解这个关键字是什么意思字面解释 Java Guide中如此解释： synchronized 关键字解决的是多个线程之间访问资源的同步性，synchronized关键字可以保证被它修饰的方法或者代码块在任意时刻只能有一个线程执行。测试但是这句话很多时候是有误导

k8s-1.19.16 二进制安装

master： [root@k8s-master1 ~]# cat /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 127.0.0.1 k8s-master1 master1 10.10.22.20 k8s-mast