JuiceFS

首页 > TAG信息列表 > JuiceFS

AI 企业多云存储架构实践 | 深势科技分享

2020 年末，谷歌旗下 DeepMind 研发的 AI 程序 AlphaFold2 在国际蛋白质结构预测竞赛上取得惊人的准确度，使得“ AI 预测蛋白质结构”这一领域受到了空前的关注。今天我们邀请到同领域企业，深势科技为大家分享其搭建基础平台时的实践与思考。AI 场景中的使用的数据有哪些新特点？混合云

JuiceFS V1.0 RC1 发布，大幅优化 dump/load 命令性能，深度用户不容错过

各位社区的伙伴， JuiceFS v1.0 RC1 今天正式发布了！这个版本中，最值得关注的是对元数据迁移备份工具 dump/load 的优化。这个优化需求来自于某个社区重度用户，这个用户在将亿级数量文件的元数据从 Redis 迁移至 TiKV 时遇到了内存占用过高的问题，我们接到反馈后着手优化，最终使 dump 所

Grafana+Prometheus 搭建 JuiceFS 可视化监控系统

作为承载海量数据存储的分布式文件系统，用户通常需要直观地了解整个系统的容量、文件数量、CPU 负载、磁盘 IO、缓存等指标的变化。 JuiceFS 没有重复造轮子，而是通过 Prometheus 兼容的 API 对外提供实时的状态数据，只需将其添加到用户自建的 Prometheus Server 建立时序数据，然后通

元数据性能大比拼：HDFS vs OSS vs JuiceFS

背景存储是大数据的基石，存储系统的元数据又是它的核心大脑，元数据的性能对整个大数据平台的性能和扩展能力非常关键。本文选取了大数据平台中 3 个典型的存储方案来压测元数据的性能，来个大比拼。其中 HDFS 是被广为使用的大数据存储方案，已经经过十几年的沉淀和积累，是最合适的参考

基于juicefs +s3 开发简单的多租户git 服务

参考图简单说明利用了git 的http 协议，基于juicefs 进行不同租户git 代码的隔离，元数据使用不用的，同时git server 可以直接基于golang，nodejs 开发，也可以使用容器或者虚拟机运行git server，因为基于http 协议，我们可以扩展一层auth 认证，同时也可以直接基于泛域名或者dns api

使用juicefs 解决基于s3做为git 存储的问题

开发一个自定义的git server 实际上是比较有意思的，而且很多时候也能解决我们好多问题一些场景基于git 的配置管理基于git 的数据同步基于git 的数据备份存储的问题对于git的数据存储，我们有几种方法，本地，共享存储（nas,nfs）本地的问题很明显，不能共享，使用有点费事，共享存储的好

嫌 OSS 查询太慢？看我们如何将速度提升 10 倍！

背景 HDFS 是 Hadoop 生态的默认存储系统，很多数据分析和管理工具都是基于它的 API 设计和实现的。但 HDFS 是为传统机房设计的，在云上维护 HDFS 一点也不轻松，需要投入不少人力进行监控、调优、扩容、故障恢复等一系列事情，而且还费用高昂，成本可能是对象存储是十倍以上。在存储与计

mysql 做为juicefs 的元数据存储

环境准备 docker-compose version: '3' services: db: image: mysql:5.6 environment: - MYSQL_ROOT_PASSWORD=dalongdemo - MYSQL_DATABASE=juicefs - MYSQL_USER=user - MYSQL_PASSWORD=password ports:

JuiceFS 数据加密原理

JuiceFS 作为分布文件系统，每天与海量的数据打着交道，因此数据的安全性尤为关键，今天就来介绍一下 JuiceFS 在数据加密方面所做的努力。传输中数据加密 JuiceFS 在网络上传输时会对数据进行加密，以防止未经授权的用户窃听网络通信。 JuiceFS 客户端始终使用 HTTPS 把数据上传到对象存

JuiceFS 缓存策略详解

对于一个由对象存储和数据库组合驱动的文件系统，缓存是本地客户端与远端服务之间高效交互的重要纽带。读写的数据可以提前或者异步载入缓存，再由客户端在后台与远端服务交互执行异步上传或预取数据。相比直接与远端服务交互，采用缓存技术可以大大降低存储操作的延时并提高数据吞吐量

如何在 Kubernetes 集群中玩转 Fluid + JuiceFS

作者简介：吕冬冬，云知声超算平台架构师，负责大规模分布式机器学习平台架构设计与功能研发，负责深度学习算法应用的优化与 AI 模型加速。研究领域包括高性能计算、分布式文件存储、分布式缓存等。朱唯唯，Juicedata 全栈工程师，负责 JuiceFS CSI Driver 的开发和维护，负责 JuiceFS 在云

如何利用 JuiceFS 的性能工具做文件系统分析和调优

JuiceFS 是一款面向云原生环境设计的高性能 POSIX 文件系统，在 AGPL v3.0 开源协议下发布。作为一个云上的分布式文件系统，任何存入 JuiceFS 的数据都会按照一定规则拆分成数据块存入对象存储（如 Amazon S3），相对应的元数据则持久化在独立的数据库中。这种结构决定了 JuiceFS 的存储空

知乎利用 JuiceFS 给 Flink 容器启动加速实践

本文作者胡梦宇，知乎大数据架构开发工程师，主要负责知乎内部大数据组件的二次开发和数据平台建设。背景 Flink 因为其可靠性和易用性，已经成为当前最流行的流处理框架之一，在流计算领域占据了主导地位。早在 18 年知乎就引入了 Flink，发展到现在，Flink 已经成为知乎内部最重要的组件

JuiceFS 在大搜车数据平台的实践

大搜车已经搭建起比较完整的汽车产业互联网协同生态。在这一生态中，不仅涵盖了大搜车已经数字化的全国 90% 中大型二手车商、9000+ 家 4S 店和 70000+ 家新车二网，还包括大搜车旗下车易拍、车行168、运车管家、布雷克索等具备较强产业链服务能力的公司，与大搜车在新零售解决方

JuiceFS框架介绍和读写流程解析

1.基本组件介绍 JuiceFS Client：支持多种Client端的接口，比如兼容POSIX文件系统的接口，以此你可以将它挂载到系统上当文件系统使用，且可以为k8s提供存储使用，用ks8s的csi driver进行接入。同时也支持S3协议，开发了对应的S3网关进行支持； Data Storage：对象存储服务，用以存储具体数据

如何借助 JuiceFS 为 AI 模型训练提速 7 倍

背景海量且优质的数据集是一个好的 AI 模型的基石之一，如何存储、管理这些数据集，以及在模型训练时提升 I/O 效率一直都是 AI 平台工程师和算法科学家特别关注的事情。不论是单机训练还是分布式训练，I/O 的性能都会显著影响整体 pipeline 的效率，甚至是最终的模型质量。我们也逐渐