谈谈id那些事(五)——美团的 Leaf 的ID生成

你好,我是吴计可师
点击下方👇关注公众号,带你一起复习后端技术,看看面试考点,补充积累技术知识,每天都为面试准备积累


美团的 Leaf 是一款分布式 ID 生成服务,提供了高可用、高性能、低延迟的全局唯一 ID 生成方案。Leaf 支持两种模式生成 ID:号段模式(Segment) 和 Snowflake 模式(Snowflake)。


01
Leaf 的两种模式


  • 号段模式(Segment Model)

  • Snowflake 模式


02
 号段模式(Segment Model)


号段模式是 Leaf 的核心模式之一,设计思路与阿里的 TDDL 类似。通过数据库预分配一段连续的 ID,Leaf 将其缓存在内存中,应用可以从内存中快速获取唯一 ID。

核心原理

  • 初始化 ID 存储表:Leaf 使用数据库中的 leaf_alloc 表记录各业务的最大 ID 和步长:

CREATE TABLE leaf_alloc (    biz_tag VARCHAR(32) PRIMARY KEY, -- 业务标识    max_id BIGINT NOT NULL,          -- 当前最大 ID    step INT NOT NULL,               -- 步长    update_time TIMESTAMP NOT NULL   -- 更新时间);
  • 从数据库分配号段:

    • Leaf 定期从数据库中获取号段。例如,当前 max_id = 1000,step = 100,则分配 [1001, 1100] 号段,并更新数据库的 max_id 为 1100。

  • 内存中发号:

    • 应用从内存中逐个分配 ID,性能非常高。

    • 当号段即将耗尽时,异步线程会提前获取下一个号段,确保不会因等待数据库操作导致延迟。

高性能关键点

  • 异步号段加载:Leaf 会在当前号段使用到一定阈值时,提前加载下一个号段,避免因号段耗尽导致阻塞。

  • 并发支持:内存操作是线程安全的,并支持多个线程高并发访问。

优缺点

优点缺点
极高性能,ID 大部分从内存中获取。依赖数据库,存在单点问题(可通过主从备份优化)。
简单实现,全局唯一性强。分布式情况下,需要复杂的分库分表管理。
支持趋势递增的数字 ID,便于业务排序和分析。当 ID 消耗过快,步长设置不合理时可能造成瓶颈。


03
Snowflake 模式(Snowflake Model)


Leaf 提供了一种类似于 Twitter Snowflake 算法的 ID 生成模式,用于高性能分布式环境。

Snowflake 算法原理

Snowflake 的 ID 是一个 64 位的二进制数字,每一部分有固定含义:

0 | timestamp | machine ID | sequence
  • 1 位符号位:固定为 0。

  • 41 位时间戳:当前时间与某个固定起点的毫秒差值,可使用 69 年。

  • 10 位机器 ID:支持最多 1024 个节点。

  • 12 位序列号:每个节点每毫秒生成最多 4096 个 ID。


Leaf 的 Snowflake 模式

  • Leaf 实现了 Snowflake 模式,通过配置机器 ID,保证分布式环境下的唯一性。

  • 适用场景:

    • 高性能分布式系统。

    • 无数据库依赖的场景。

  • 优点:

    • 完全去中心化。

    • 性能极高,每毫秒每节点支持 4096 个 ID。

    • ID 有时间维度,趋势递增。

  • 缺点:

    • 需要配置机器 ID,可能存在分配冲突问题。

    • 时间回拨可能导致重复 ID。


Leaf 的架构设计

系统架构:

Leaf 的整体架构分为:

  • HTTP 接口:对外暴露 API,提供 ID 服务。

  • 服务端:实现 Segment 和 Snowflake 两种模式。

  • 存储层:Segment 模式使用数据库存储号段。


高可用设计:

  • 多机部署:Leaf 可部署多个实例,通过负载均衡实现高可用。

  • Segment 模式数据库主从同步:数据库设置主从架构,避免单点故障。

  • Snowflake 模式容错:支持多节点,部分节点故障不影响整体服务。

04
使用场景对比


模式适用场景优势局限性
Segment趋势递增 ID、需要依赖数据库的场景简单实现,支持全局唯一和趋势递增依赖数据库,延迟较高
Snowflake高性能分布式系统,无数据库依赖无中心化依赖,性能高时间回拨问题,需分配机器 ID


05
总结


美团的 Leaf 提供了灵活的分布式 ID 生成方案:

  • Segment 模式适合依赖数据库的系统,具有趋势递增的特点,适用于订单号等业务。

  • Snowflake 模式适合高性能分布式场景,ID 唯一性强,适用于日志系统、分布式架构等。

Leaf 通过两种模式满足了不同场景下的需求,并结合高可用设计和简单易用的接口,成为一种优秀的分布式 ID 生成服务。

更多知识,请阅读美团文章,本文只做摘要知识讲解。

06
直击面试


6.1 什么是美团的 Leaf ID 生成系统?它的核心原理是什么?

问题解析:考察你对 Leaf 系统的基本理解,尤其是其核心原理。

参考答案:美团的 Leaf 是一个分布式的 ID 生成系统,它支持高并发的全局唯一 ID 生成。Leaf 系统结合了两种方式来生成 ID:

Snowflake 算法:用于生成全局唯一且递增的 ID。Leaf 通过 Snowflake 算法在分布式环境中生成 64 位的唯一 ID,包含时间戳、机器 ID、序列号等部分,能够高效地生成全局唯一的 ID。

数据库自增:Leaf 通过数据库表实现自增 ID 的生成,避免了单点故障的问题。当多个应用需要生成 ID 时,可以通过数据库的自增 ID 快速生成,并且支持主从复制和高可用。

Leaf 通过这两种方式结合使用,既能保证 ID 的唯一性,又能保证高并发、高可用和高性能。


6.2 美团 Leaf 如何保证生成的 ID 在分布式环境中的唯一性?

问题解析:考察你对 Leaf 如何保证全局唯一 ID 的理解,特别是其在分布式系统中的应用。

参考答案:Leaf 生成的 ID 保证唯一性通过以下几个机制:

时间戳:Leaf 使用毫秒级的时间戳,ID 中的时间戳部分是递增的,确保了 ID 在时间上的有序性。

机器 ID:Leaf 为每个节点分配一个唯一的机器 ID(通常是一个小的整数),确保每个节点生成的 ID 不会重复。

数据库自增:Leaf 采用数据库表的自增机制来生成 ID。每次生成 ID 时,数据库表中的一个字段会递增,这样即使在同一机器上生成多个 ID,也能够确保唯一性。

分布式部署:通过配置不同的数据源和分片策略,Leaf 可以支持高并发的 ID 生成,避免冲突。

通过这些设计,Leaf 可以确保在高并发和分布式环境下,生成全局唯一且递增的 ID。


6.3 美团 Leaf 的 ID 生成机制是如何实现高可用性的?

问题解析:考察你对 Leaf 高可用性设计的理解,特别是在分布式环境中的故障处理。

参考答案:Leaf 系统的高可用性设计主要通过以下几个方面来实现:

数据库冗余:Leaf 可以通过数据库的主从复制机制来保证 ID 生成系统的高可用性。在主节点宕机时,从节点可以接管生成 ID 的任务,避免单点故障。

分布式部署:Leaf 支持分布式部署,可以部署多个 ID 生成实例,通过负载均衡将请求分配到不同的实例,从而提高可用性和处理能力。

容错机制:当某个节点无法生成 ID(例如由于网络问题或系统故障),Leaf 会自动进行故障转移,确保服务不中断。

异步更新机制:Leaf 使用异步更新的方式,减少了对数据库的压力,避免了数据库单点故障的风险。

这些机制使得 Leaf 系统能够在分布式环境中保持高可用性,确保服务的持续运行。


6.4 美团 Leaf 使用了哪两种 ID 生成策略?它们分别的优势是什么?

问题解析:考察你对美团 Leaf 系统的设计理念和生成策略的理解。

参考答案:美团 Leaf 采用了两种 ID 生成策略:

数据库自增 ID:

简单、易实现:基于数据库表的自增字段,每次获取一个新的 ID 就是获取数据库的下一个自增值。

高效、快速:在高并发环境下,可以通过数据库的自增特性快速生成唯一 ID。

容错性好:如果使用分布式数据库(主从复制),主从节点可以实现备份,提供高可用性。

Snowflake 算法:

高可扩展性:每个节点都可以生成唯一的 ID,无需集中式存储,能够支持大规模分布式系统。

高性能:每个节点本地生成 ID,避免了网络传输和数据库访问,具有更低的延迟和更高的吞吐量。

全局唯一性:Snowflake 算法保证了全局唯一的 ID,即使在不同的服务器节点上也能生成不重复的 ID。

通过这两种策略的结合使用,Leaf 既能保证在大规模分布式环境下生成全局唯一的 ID,又能在高并发下保证 ID 生成的高效性和稳定性。


6.5 美团 Leaf 是如何处理分布式 ID 生成过程中的性能问题的?

问题解析:考察你对 Leaf 性能优化策略的理解,特别是在高并发情况下。

参考答案:为了提高性能,Leaf 系统采用了以下几种策略:

批量生成 ID:Leaf 支持批量生成 ID,通过一次请求生成多个 ID,减少了网络请求的次数,从而提高了性能。

ID 预分配:Leaf 可以预分配一定范围内的 ID,避免频繁访问数据库,减少了数据库的压力。

本地缓存:Leaf 通过缓存已经分配的 ID,避免每次生成 ID 都需要查询数据库,提升了性能。

数据库优化:使用数据库表的自增方式生成 ID 时,Leaf 会根据数据库的性能进行优化,例如使用索引加速自增字段的查询和插入操作。

异步操作:生成 ID 的请求采用异步处理,减少了等待时间,提高了并发性能。

这些策略使得 Leaf 在高并发情况下仍然能够保持较高的性能,并且避免了数据库成为性能瓶颈。


6.6 美团 Leaf 和传统的数据库自增 ID 方案相比有什么优势和劣势?

问题解析:考察你对美团 Leaf 系统与传统数据库自增 ID 方案的对比理解。

参考答案:

优势:

分布式支持:传统的数据库自增 ID 生成方案通常依赖于单个数据库实例,容易成为性能瓶颈和单点故障的风险。而 Leaf 支持分布式环境,能够在多个节点上并行生成 ID,解决了单点问题。

性能优化:Leaf 系统可以批量生成 ID、预分配 ID 和使用本地缓存,避免了频繁的数据库查询操作,因此性能更高。

全局唯一性:传统的数据库自增 ID 方案在多数据库或多数据中心部署时可能会遇到 ID 冲突问题,而 Leaf 使用了 Snowflake 算法保证全局唯一性。


劣势:

配置和管理复杂性:Leaf 系统需要配置机器 ID、数据中心 ID 等信息,管理较为复杂。而传统的数据库自增 ID 只需要在单一数据库中配置即可。

依赖数据库:尽管 Leaf 支持高可用和高并发,但在某些场景下,依赖数据库来存储 ID 生成信息,可能会成为瓶颈或单点故障。


6.7 美团 Leaf 如何保证分布式系统中的 ID 生成顺序性?

问题解析:考察你对 Leaf 如何保证生成 ID 的顺序性(递增性)的理解。

参考答案:美团 Leaf 通过以下几种方式来保证 ID 生成的顺序性:

时间戳部分:Leaf 使用毫秒级的时间戳来生成 ID,确保生成的 ID 按时间顺序递增。

序列号部分:每个机器(节点)在同一毫秒内生成多个 ID 时,通过序列号来区分不同的 ID,序列号递增,保证同一时间点生成的 ID 有序。

机器 ID:不同机器上的 ID 生成器使用不同的机器 ID,这样可以避免多个机器生成的 ID 相同。

数据库自增:对于数据库自增的 ID 生成,ID 会随着每次请求自动递增,保证 ID 在数据库层面的顺序性。

通过这些设计,Leaf 确保了在高并发的情况下生成的 ID 既是唯一的,又具有顺序性。


6.8 美团 Leaf 是否支持跨数据中心生成 ID?如果支持,如何实现?

问题解析:考察你对跨数据中心部署和 ID 生成的理解。

参考答案:美团 Leaf 支持跨数据中心生成 ID。为了保证跨数据中心的 ID 唯一性,Leaf 采用了以下策略:

数据中心 ID 配置:在跨数据中心部署时,Leaf 为每个数据中心配置一个唯一的 ID。每个数据中心的机器 ID 可以在数据中心内部确保唯一,且不会与其他数据中心发生冲突。

分布式 ID 生成:不同数据中心的节点使用不同的机器 ID,通过配置不同的 ID 范围,确保跨数据中心生成的 ID 不会重复。

同步机制:通过同步配置和分片策略,确保多个数据中心之间的 ID 生成过程不冲突,保证全局唯一性。

这些设计使得 Leaf 在跨数据中心部署时能够高效、稳定地生成全局唯一的 ID。

END


扫码关注

一起积累后端知识
不积跬步,无以至千里
不积小流,无以成江海



喜欢此内容的人还喜欢



谈谈id那些事(四)——雪花 ID(Snowflake ID)


谈谈id那些事(三)——阿里巴巴的 TDDL的ID生成


谈谈id那些事(二)——Redis 自增 ID


谈谈id那些事(一)——数据库的自增ID