谈谈id那些事（五）——美团的 Leaf 的ID生成

你好，我是吴计可师

点击下方👇关注公众号，带你一起复习后端技术，看看面试考点，补充积累技术知识，每天都为面试准备积累

美团的 Leaf 是一款分布式 ID 生成服务，提供了高可用、高性能、低延迟的全局唯一 ID 生成方案。Leaf 支持两种模式生成 ID：号段模式（Segment）和 Snowflake 模式（Snowflake）。

Leaf 的两种模式

号段模式（Segment Model）
Snowflake 模式

号段模式（Segment Model）

号段模式是 Leaf 的核心模式之一，设计思路与阿里的 TDDL 类似。通过数据库预分配一段连续的 ID，Leaf 将其缓存在内存中，应用可以从内存中快速获取唯一 ID。

核心原理

初始化 ID 存储表：Leaf 使用数据库中的 leaf_alloc 表记录各业务的最大 ID 和步长：

CREATE TABLE leaf_alloc (    biz_tag VARCHAR(32) PRIMARY KEY, -- 业务标识    max_id BIGINT NOT NULL,          -- 当前最大 ID    step INT NOT NULL,               -- 步长    update_time TIMESTAMP NOT NULL   -- 更新时间);

从数据库分配号段：

Leaf 定期从数据库中获取号段。例如，当前 max_id = 1000，step = 100，则分配 [1001, 1100] 号段，并更新数据库的 max_id 为 1100。

内存中发号：

应用从内存中逐个分配 ID，性能非常高。

当号段即将耗尽时，异步线程会提前获取下一个号段，确保不会因等待数据库操作导致延迟。

高性能关键点

异步号段加载：Leaf 会在当前号段使用到一定阈值时，提前加载下一个号段，避免因号段耗尽导致阻塞。
并发支持：内存操作是线程安全的，并支持多个线程高并发访问。

优缺点

优点	缺点
极高性能，ID 大部分从内存中获取。	依赖数据库，存在单点问题（可通过主从备份优化）。
简单实现，全局唯一性强。	分布式情况下，需要复杂的分库分表管理。
支持趋势递增的数字 ID，便于业务排序和分析。	当 ID 消耗过快，步长设置不合理时可能造成瓶颈。

Snowflake 模式（Snowflake Model）

Leaf 提供了一种类似于 Twitter Snowflake 算法的 ID 生成模式，用于高性能分布式环境。

Snowflake 算法原理

Snowflake 的 ID 是一个 64 位的二进制数字，每一部分有固定含义：

0 | timestamp | machine ID | sequence

1 位符号位：固定为 0。

41 位时间戳：当前时间与某个固定起点的毫秒差值，可使用 69 年。
10 位机器 ID：支持最多 1024 个节点。
12 位序列号：每个节点每毫秒生成最多 4096 个 ID。

Leaf 的 Snowflake 模式

Leaf 实现了 Snowflake 模式，通过配置机器 ID，保证分布式环境下的唯一性。
适用场景：

高性能分布式系统。
无数据库依赖的场景。

优点：

完全去中心化。
性能极高，每毫秒每节点支持 4096 个 ID。
ID 有时间维度，趋势递增。

缺点：

需要配置机器 ID，可能存在分配冲突问题。
时间回拨可能导致重复 ID。

Leaf 的架构设计

系统架构：

Leaf 的整体架构分为：

HTTP 接口：对外暴露 API，提供 ID 服务。
服务端：实现 Segment 和 Snowflake 两种模式。
存储层：Segment 模式使用数据库存储号段。

高可用设计：

多机部署：Leaf 可部署多个实例，通过负载均衡实现高可用。
Segment 模式数据库主从同步：数据库设置主从架构，避免单点故障。
Snowflake 模式容错：支持多节点，部分节点故障不影响整体服务。

使用场景对比

模式适用场景优势局限性
Segment 趋势递增 ID、需要依赖数据库的场景简单实现，支持全局唯一和趋势递增依赖数据库，延迟较高
Snowflake 高性能分布式系统，无数据库依赖无中心化依赖，性能高时间回拨问题，需分配机器 ID

模式	适用场景	优势	局限性
Segment	趋势递增 ID、需要依赖数据库的场景	简单实现，支持全局唯一和趋势递增	依赖数据库，延迟较高
Snowflake	高性能分布式系统，无数据库依赖	无中心化依赖，性能高	时间回拨问题，需分配机器 ID

总结

美团的 Leaf 提供了灵活的分布式 ID 生成方案：

Segment 模式适合依赖数据库的系统，具有趋势递增的特点，适用于订单号等业务。
Snowflake 模式适合高性能分布式场景，ID 唯一性强，适用于日志系统、分布式架构等。

Leaf 通过两种模式满足了不同场景下的需求，并结合高可用设计和简单易用的接口，成为一种优秀的分布式 ID 生成服务。

更多知识，请阅读美团文章，本文只做摘要知识讲解。

直击面试

6.1 什么是美团的 Leaf ID 生成系统？它的核心原理是什么？

问题解析：考察你对 Leaf 系统的基本理解，尤其是其核心原理。

参考答案：美团的 Leaf 是一个分布式的 ID 生成系统，它支持高并发的全局唯一 ID 生成。Leaf 系统结合了两种方式来生成 ID：

Snowflake 算法：用于生成全局唯一且递增的 ID。Leaf 通过 Snowflake 算法在分布式环境中生成 64 位的唯一 ID，包含时间戳、机器 ID、序列号等部分，能够高效地生成全局唯一的 ID。

数据库自增：Leaf 通过数据库表实现自增 ID 的生成，避免了单点故障的问题。当多个应用需要生成 ID 时，可以通过数据库的自增 ID 快速生成，并且支持主从复制和高可用。

Leaf 通过这两种方式结合使用，既能保证 ID 的唯一性，又能保证高并发、高可用和高性能。

6.2 美团 Leaf 如何保证生成的 ID 在分布式环境中的唯一性？

问题解析：考察你对 Leaf 如何保证全局唯一 ID 的理解，特别是其在分布式系统中的应用。

参考答案：Leaf 生成的 ID 保证唯一性通过以下几个机制：

时间戳：Leaf 使用毫秒级的时间戳，ID 中的时间戳部分是递增的，确保了 ID 在时间上的有序性。

机器 ID：Leaf 为每个节点分配一个唯一的机器 ID（通常是一个小的整数），确保每个节点生成的 ID 不会重复。

数据库自增：Leaf 采用数据库表的自增机制来生成 ID。每次生成 ID 时，数据库表中的一个字段会递增，这样即使在同一机器上生成多个 ID，也能够确保唯一性。

分布式部署：通过配置不同的数据源和分片策略，Leaf 可以支持高并发的 ID 生成，避免冲突。

通过这些设计，Leaf 可以确保在高并发和分布式环境下，生成全局唯一且递增的 ID。

6.3 美团 Leaf 的 ID 生成机制是如何实现高可用性的？

问题解析：考察你对 Leaf 高可用性设计的理解，特别是在分布式环境中的故障处理。

参考答案：Leaf 系统的高可用性设计主要通过以下几个方面来实现：

数据库冗余：Leaf 可以通过数据库的主从复制机制来保证 ID 生成系统的高可用性。在主节点宕机时，从节点可以接管生成 ID 的任务，避免单点故障。

分布式部署：Leaf 支持分布式部署，可以部署多个 ID 生成实例，通过负载均衡将请求分配到不同的实例，从而提高可用性和处理能力。

容错机制：当某个节点无法生成 ID（例如由于网络问题或系统故障），Leaf 会自动进行故障转移，确保服务不中断。

异步更新机制：Leaf 使用异步更新的方式，减少了对数据库的压力，避免了数据库单点故障的风险。

这些机制使得 Leaf 系统能够在分布式环境中保持高可用性，确保服务的持续运行。

6.4 美团 Leaf 使用了哪两种 ID 生成策略？它们分别的优势是什么？

问题解析：考察你对美团 Leaf 系统的设计理念和生成策略的理解。

参考答案：美团 Leaf 采用了两种 ID 生成策略：

数据库自增 ID：

简单、易实现：基于数据库表的自增字段，每次获取一个新的 ID 就是获取数据库的下一个自增值。

高效、快速：在高并发环境下，可以通过数据库的自增特性快速生成唯一 ID。

容错性好：如果使用分布式数据库（主从复制），主从节点可以实现备份，提供高可用性。

Snowflake 算法：

高可扩展性：每个节点都可以生成唯一的 ID，无需集中式存储，能够支持大规模分布式系统。

高性能：每个节点本地生成 ID，避免了网络传输和数据库访问，具有更低的延迟和更高的吞吐量。

全局唯一性：Snowflake 算法保证了全局唯一的 ID，即使在不同的服务器节点上也能生成不重复的 ID。

通过这两种策略的结合使用，Leaf 既能保证在大规模分布式环境下生成全局唯一的 ID，又能在高并发下保证 ID 生成的高效性和稳定性。

6.5 美团 Leaf 是如何处理分布式 ID 生成过程中的性能问题的？

问题解析：考察你对 Leaf 性能优化策略的理解，特别是在高并发情况下。

参考答案：为了提高性能，Leaf 系统采用了以下几种策略：

批量生成 ID：Leaf 支持批量生成 ID，通过一次请求生成多个 ID，减少了网络请求的次数，从而提高了性能。

ID 预分配：Leaf 可以预分配一定范围内的 ID，避免频繁访问数据库，减少了数据库的压力。

本地缓存：Leaf 通过缓存已经分配的 ID，避免每次生成 ID 都需要查询数据库，提升了性能。

数据库优化：使用数据库表的自增方式生成 ID 时，Leaf 会根据数据库的性能进行优化，例如使用索引加速自增字段的查询和插入操作。

异步操作：生成 ID 的请求采用异步处理，减少了等待时间，提高了并发性能。

这些策略使得 Leaf 在高并发情况下仍然能够保持较高的性能，并且避免了数据库成为性能瓶颈。

6.6 美团 Leaf 和传统的数据库自增 ID 方案相比有什么优势和劣势？

问题解析：考察你对美团 Leaf 系统与传统数据库自增 ID 方案的对比理解。

参考答案：

优势：

分布式支持：传统的数据库自增 ID 生成方案通常依赖于单个数据库实例，容易成为性能瓶颈和单点故障的风险。而 Leaf 支持分布式环境，能够在多个节点上并行生成 ID，解决了单点问题。

性能优化：Leaf 系统可以批量生成 ID、预分配 ID 和使用本地缓存，避免了频繁的数据库查询操作，因此性能更高。

全局唯一性：传统的数据库自增 ID 方案在多数据库或多数据中心部署时可能会遇到 ID 冲突问题，而 Leaf 使用了 Snowflake 算法保证全局唯一性。

劣势：

配置和管理复杂性：Leaf 系统需要配置机器 ID、数据中心 ID 等信息，管理较为复杂。而传统的数据库自增 ID 只需要在单一数据库中配置即可。

依赖数据库：尽管 Leaf 支持高可用和高并发，但在某些场景下，依赖数据库来存储 ID 生成信息，可能会成为瓶颈或单点故障。

6.7 美团 Leaf 如何保证分布式系统中的 ID 生成顺序性？

问题解析：考察你对 Leaf 如何保证生成 ID 的顺序性（递增性）的理解。

参考答案：美团 Leaf 通过以下几种方式来保证 ID 生成的顺序性：

时间戳部分：Leaf 使用毫秒级的时间戳来生成 ID，确保生成的 ID 按时间顺序递增。

序列号部分：每个机器（节点）在同一毫秒内生成多个 ID 时，通过序列号来区分不同的 ID，序列号递增，保证同一时间点生成的 ID 有序。

机器 ID：不同机器上的 ID 生成器使用不同的机器 ID，这样可以避免多个机器生成的 ID 相同。

数据库自增：对于数据库自增的 ID 生成，ID 会随着每次请求自动递增，保证 ID 在数据库层面的顺序性。

通过这些设计，Leaf 确保了在高并发的情况下生成的 ID 既是唯一的，又具有顺序性。

6.8 美团 Leaf 是否支持跨数据中心生成 ID？如果支持，如何实现？

问题解析：考察你对跨数据中心部署和 ID 生成的理解。

参考答案：美团 Leaf 支持跨数据中心生成 ID。为了保证跨数据中心的 ID 唯一性，Leaf 采用了以下策略：

数据中心 ID 配置：在跨数据中心部署时，Leaf 为每个数据中心配置一个唯一的 ID。每个数据中心的机器 ID 可以在数据中心内部确保唯一，且不会与其他数据中心发生冲突。

分布式 ID 生成：不同数据中心的节点使用不同的机器 ID，通过配置不同的 ID 范围，确保跨数据中心生成的 ID 不会重复。

同步机制：通过同步配置和分片策略，确保多个数据中心之间的 ID 生成过程不冲突，保证全局唯一性。

这些设计使得 Leaf 在跨数据中心部署时能够高效、稳定地生成全局唯一的 ID。

END

扫码关注

一起积累后端知识

不积跬步，无以至千里

不积小流，无以成江海

喜欢此内容的人还喜欢

谈谈id那些事（四）——雪花 ID（Snowflake ID）

谈谈id那些事（三）——阿里巴巴的 TDDL的ID生成

谈谈id那些事（二）——Redis 自增 ID

谈谈id那些事（一）——数据库的自增ID

号段模式（Segment Model）