[博客翻译]JuiceFS：如何管理数十亿文件的元数据

JuiceFS是一个用Go语言编写的云原生分布式文件系统，它能够在单一命名空间中管理数十亿个文件。其元数据引擎采用全内存处理方式，并实现了显著的内存优化，能够使用30 GiB内存处理3亿个文件，响应时间为100微秒。通过内存池、手动内存管理、目录压缩和紧凑型文件格式等技术，元数据内存使用量减少了90%。

JuiceFS企业版在生产环境中，通过10个元数据节点，每个节点配备512 GB内存，共同管理超过200亿个文件。

为了实现极致性能，我们的元数据引擎采用全内存模式，并不断进行优化。与管理相同数量文件的HDFS NameNode相比，它只需要约27%的内存，与CephFS元数据服务器（MDS）相比，仅需3.7%的内存。这种极高的内存效率意味着在相同的硬件资源下，JuiceFS可以处理更多的文件和更复杂的操作，从而实现更高的系统性能。

在本文中，我们将深入探讨JuiceFS的架构、元数据引擎设计以及减少元数据平均内存使用至100字节的优化方法。我们的目标是为JuiceFS用户提供深入的见解，并增强其在处理极端场景时的信心。我们也希望本文能为设计大规模系统提供宝贵的参考。

JuiceFS架构

JuiceFS由三大组件构成：

客户端：这是与应用程序交互的访问层。JuiceFS支持多种协议，包括POSIX、Java SDK、Kubernetes CSI驱动程序和S3网关。
元数据引擎：它维护文件系统的目录树结构和单个文件的属性。
数据存储：它存储常规文件的实际内容，通常由对象存储服务（如Amazon S3）处理。

JuiceFS社区版架构

目前，JuiceFS提供社区版和企业版两种版本。虽然它们的架构有相似之处，但关键区别在于元数据引擎的实现：

社区版的元数据引擎使用现有的数据库服务，如Redis、PostgreSQL和TiKV。
企业版则采用了自主开发的元数据引擎。这个专有引擎不仅提供了更高的性能和更低的资源消耗，还支持企业级需求。

接下来的章节将探讨我们在开发JuiceFS企业版独家元数据引擎时的考虑和方法。

选择Go作为开发语言

底层系统软件的开发通常基于C或C++，而JuiceFS选择了Go作为开发语言。这是因为Go具有以下优势：

高开发效率：Go语法相较于C更简洁，表达能力更强。此外，Go内置了内存管理功能和强大的工具链，如pprof。
出色的程序执行性能：Go本身是一种编译语言，在绝大多数情况下，用Go编写的程序通常不会落后于C程序。
更好的程序可移植性：Go对静态编译的支持更好，使得程序能够更容易地直接在不同操作系统上运行。
支持多语言SDK：借助原生的cgo工具，Go代码也可以被编译成共享库文件（.so文件），便于其他语言加载。

尽管Go带来了便利，但它隐藏了一些底层细节。这在一定程度上可能会影响程序使用硬件资源的效率，特别是垃圾收集器（GC）的内存管理。因此，在关键性能点需要针对性的优化。

性能提升策略：全内存、无锁服务

为了提高性能，我们需要了解分布式文件系统元数据引擎的核心职责。通常，它主要负责两项重要任务：

管理大量文件的元数据
快速处理元数据请求

为了完成这项任务，有两种常见的设计方法：

将所有文件元数据加载到内存中，如HDFS NameNode。这可以提供出色的性能，但不可避免地需要大量的内存资源。
只将部分元数据缓存在内存中，如CephFS MDS。当所请求的元数据不在缓存中时，MDS会暂时保留请求，通过网络从磁盘（元数据池）检索相应内容，解析后再重试操作。这容易导致延迟峰值，影响用户体验。因此，在实践中，为了满足应用程序的低延迟访问需求，尽可能增加MDS内存限制以缓存更多文件，甚至全部文件。

JuiceFS企业版追求极致性能，因此采用了第一种全内存方法，并不断优化以减少文件元数据的内存使用量。全内存模式通常使用实时事务日志来持久化数据以确保可靠性。JuiceFS还使用Raft共识算法实现元数据多服务器复制和自动故障转移。

元数据引擎的关键性能指标是每秒可以处理的请求数量。通常，元数据请求需要确保事务性，并涉及多个数据结构。在并发多线程中，为确保数据一致性和安全，需要复杂的锁定机制。当事务冲突频繁时，多线程并不能有效提高吞吐量；相反，由于过多的锁操作，可能会增加延迟

[博客翻译]JuiceFS：如何管理数十亿文件的元数据

原文地址：https://juicefs.com/en/blog/engineering/reduce-metadata-memory-usage

JuiceFS架构

选择Go作为开发语言

性能提升策略：全内存、无锁服务