首页 > TAG信息列表 > 落盘

spark streaming-DS,DF,RDD相互转换,submit,数据落盘

spark streaming DS转成DF写代码 package com.shujia.spark.streaming import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.spark.streaming.dstream.ReceiverInputDStream import

Spark源码——shuffle

原理回顾    一个RDD的两个分区的数据shuffle到另一个RDD的两个分区中后,如果上一个RDD还存在其他分区没执行完毕的话,不能往下执行,就会造成当前RDD内存数据挤压 所以中间就需要落盘操作,中间需要磁盘文件File shuffle一定会有落盘,但是效率慢,如何提高效率?落盘数据量越少速度就会变

MySQL架构详解

依然使用InnoDB引擎 一、Server层 1. 连接器:连接建立后的权限变更不会对原有连接起作用,重新建立连接后才生效;show processlist命令可以查看系统中的连接,Command列为Sleep的连接为空闲连接;长时间没有动静(默认8小时,参数wait_timeout控制),连接会自动断开;数据库连接使用长连接有个问

RocketMQ架构原理解析:消息存储

一、概述 由前文可知,RocketMQ有几个非常重要的概念: broker 服务端,负责存储、收发消息producer 客户端1,负责产生消息consumer 客服端2,负责消费消息 既然是消息队列,那消息的存储的重要程度不言而喻,本节我们聚焦broker服务端,看下消息在broker端是如何存储的,它的落盘策略是怎样的,又

mysql提交机制

1.mysql日志 物理日志 redo恢复 持久性 undo 回滚 原子性 WAL机制 (Write Ahead Log) 逻辑日志 binlog 二阶段提交保持一致性 1.Storage Engine(InnoDB) transaction prepare阶段:存储引擎的准备阶段,写redo-buffer 此时SQL已经成功执行,并生成xid信息及redo和undo的内存日志。 2

f2fs学习二:预分配

     F2FS在Write的时候,会进行预分配Data分区的logical data block, 而且每次进行只分配一个data block(大小为4k),   分配好之后再进真正的数据落盘(将数据写入到data分区)。      Ext4在Write的时候,预分配的时候会进行连续分配(分配N个logical data block, N = test_b

论Kafka的整体流程

首先需要明确Kafka中Producer到Consumer的各个环节。Producer先通过网络发送到Broker,Broker会落入磁盘,Broker再通过网络发送到Consumer。 先看第一个环节Producer到Broker,Producer生产数据时,可以选择单条发给Broker,也可以通过批处理提升速度。在这个环节也可以利用数据压缩功能

分布式场景SSD append 引擎的点滴思考

分布式和单机场景对append引擎设计的不同要求 单机:只用考虑本地数据的格式、位置和管理分布式:需要考虑分布式一致协议中 日志落盘的格式、位置和管理 append引擎和分布式一致性协议的潜在冲突 append引擎的需求 顾名思义, append引擎期望SSD盘能尽量把数据一路写下去,也就是物理数据

Linux系统:保证数据安全落盘

在很多IO场景中,我们经常需要确保数据已经安全的写到磁盘上,以便在系统宕机重启之后还能读到这些数据。但是我们都知道,linux系统的IO路径还是很复杂的,分为很多层,每一层都可能会有buffer来加速IO读写。同时,用户态的应用程序和库函数也可能拥有自己的buffer,这又给IO路径增加了一些复杂

MySQL探秘(四):InnoDB的磁盘文件及落盘机制

 任何一个技术都有其底层的关键基础技术,这些关键技术很有可能也是其他技术的关键技术,学习这些底层技术,就可以一通百通,让你很快的掌握其他技术。如何在磁盘上存储数据,如何使用日志文件保证数据不丢失以及如何落盘,不仅是MySQL等数据库的关键技术,也是MQ消息队列或者其他中间件的