谈谈id那些事(三)——阿里巴巴的 TDDL的ID生成

阿里巴巴的 TDDL(Taobao Distributed Data Layer) 是一个分布式数据访问层框架,提供了多种分布式功能,其中包括分布式 ID 的生成机制。TDDL 的分布式 ID 生成主要通过号段模式(Segment Model) 来实现。


01
TDDL 分布式 ID 生成的核心原理


1.1 号段模式(Segment Model)

TDDL 的分布式 ID 通常基于号段模式(Segment Model)。号段模式的核心思想是通过数据库表预先分配一段连续的 ID 范围,然后将这段 ID 缓存到内存中供应用程序使用,避免频繁访问数据库。

初始化 ID 存储表

  • 数据库中建立一个用于管理 ID 的表(例如 id_generator 表),每个业务有一条记录,存储当前分配的最大 ID。

  • 表结构实例:

CREATE TABLE id_generator (    biz_tag VARCHAR(32) PRIMARY KEY, -- 业务标识    max_id BIGINT NOT NULL,          -- 当前最大 ID    step INT NOT NULL,               -- 分配步长    version INT NOT NULL             -- 乐观锁);


分配号段

  • 应用从数据库中取出一个号段(例如:[1000, 1099]),并将 max_id 更新到新的值(1100)。

  • 同时,将号段缓存到应用内存中,供后续 ID 分配。


内存分配 ID

  • 应用程序在内存中从当前号段中逐个分配 ID,直到耗尽。

  • 号段耗尽后再次请求

  • 当号段分配完毕后,再次从数据库中获取新的号段,重复上述步骤。


1.2 关键点说明

高性能:由于号段被缓存在内存中,ID 分配无需频繁访问数据库,从而实现高性能。

分布式支持:多实例可以通过业务标识(biz_tag)和步长(step)参数,确保不同实例分配不同的号段,避免冲突。

安全性(防止并发冲突):

  • 使用数据库的乐观锁(version 字段),在更新 max_id 时检查版本号,确保并发情况下的唯一性。

  • 示例 SQL:

UPDATE id_generatorSET max_id = max_id + step, version = version + 1WHERE biz_tag = 'order' AND version = current_version;


灵活性:通过调整步长(step),可以平衡号段的长度和数据库访问频率。例如:

  • 小步长:减少 ID 浪费,但增加数据库访问频率。

  • 大步长:提高性能,但可能导致部分 ID 浪费。


02
优缺点:


优点:

  • 高性能:绝大部分 ID 分配操作都在内存中完成,只有号段分配时访问数据库。

  • 分布式支持:通过配置不同的 biz_tag 或分库分表策略,可实现多实例支持。

  • 全局唯一性:基于数据库的号段分配方式,可以保证全局唯一性。

  • 实现简单:基于数据库,不依赖额外的组件,便于维护和管理。

缺点

  • 数据库单点问题:

    • 依赖单一数据库表存储号段信息,如果数据库故障会导致 ID 无法分配。

    • 需要结合主从架构或其他高可用方案进行优化。

  • 可能导致 ID 间隙:

    • 若一个号段未使用完就发生重启或故障,可能导致部分 ID 间隙。

  • 分库分表复杂度:

    • 在多数据中心或大规模分库分表情况下,需要考虑如何同步 id_generator 表的数据。

03
TDDL 的实现细节(伪代码)


以下是基于 TDDL 号段模式的 ID 生成示例:

数据库初始化

CREATE TABLE id_generator (    biz_tag VARCHAR(32) PRIMARY KEY,    max_id BIGINT NOT NULL,    step INT NOT NULL,    version INT NOT NULL);INSERT INTO id_generator (biz_tag, max_id, step, version) VALUES ('order', 1000, 100, 0);


Java 实现


import java.sql.*;public class IdGenerator {    private String bizTag;    private int step;    private long currentMaxId;    private long currentMinId;    public IdGenerator(String bizTag, int step) {        this.bizTag = bizTag;        this.step = step;        this.currentMaxId = 0;        this.currentMinId = 0;    }    // 获取下一个 ID    public synchronized long getNextId() throws Exception {        if (currentMinId >= currentMaxId) {            fetchNextSegment();        }        return currentMinId++;    }    // 从数据库获取号段    private void fetchNextSegment() throws Exception {        Connection conn = DriverManager.getConnection("jdbc:mysql://localhost:3306/test", "user", "password");        String sql = "UPDATE id_generator SET max_id = max_id + step, version = version + 1 " +                     "WHERE biz_tag = ? AND version = ?";        PreparedStatement ps = conn.prepareStatement(sql);        // 获取当前最大 ID 和版本号        String query = "SELECT max_id, step, version FROM id_generator WHERE biz_tag = ?";        PreparedStatement queryPs = conn.prepareStatement(query);        queryPs.setString(1, bizTag);        ResultSet rs = queryPs.executeQuery();        if (rs.next()) {            long maxId = rs.getLong("max_id");            int dbStep = rs.getInt("step");            int version = rs.getInt("version");            // 更新号段            ps.setString(1, bizTag);            ps.setInt(2, version);            int updatedRows = ps.executeUpdate();            if (updatedRows > 0) {                currentMinId = maxId + 1;                currentMaxId = maxId + dbStep;            } else {                throw new RuntimeException("Failed to fetch ID segment, concurrent update detected.");            }        }        conn.close();    }}



04
对比雪花算法


号段模式


  • 依赖数据库,生成趋势递增的 ID。

  • 性能依赖于数据库。

  • 简单实现,适用于中小规模场景。

雪花算法

  • 无数据库依赖,分布式节点各自生成 ID。

  • 生成的 ID 含时间戳,具有趋势递增性。

  • 实现复杂,但性能更高,适用于大规模分布式系统。


05
总结


TDDL 的号段模式是一种高效的分布式 ID 生成方式,通过数据库分配号段,并结合内存缓存,实现了高性能和全局唯一性。虽然依赖数据库存在一定的单点风险,但其实现简单、易于维护,适用于中小型分布式系统或业务规模不大的场景。在大规模分布式环境中,可以结合雪花算法或 Redis 等方案进一步优化。


06
直击面试


6.1 TDDL 是如何生成分布式 ID 的?

问题解析:考察你对 TDDL 的分布式 ID 生成原理的理解。

参考答案:TDDL 在生成分布式 ID 时,借鉴了 Snowflake(雪花算法) 的思想,采用了以下几个组件来生成全局唯一的 ID:

  • 时间戳:用于表示生成 ID 的时间。通过时间戳,可以保证 ID 的递增性。

  • 机器 ID:分布式环境下,需要保证每个机器(节点)生成的 ID 唯一,因此会为每个机器分配一个唯一的机器 ID。

  • 数据中心 ID:如果 TDDL 部署在多个数据中心时,可能还会使用数据中心 ID 来避免跨数据中心的 ID 冲突。

  • 序列号:每秒生成的 ID 数量有限制(例如,1024 或 4096),当同一毫秒内请求超过该限制时,序列号会增加。

TDDL 会根据这些元素生成一个 64 位的 ID,其中:

  • 高位是时间戳,表示生成 ID 的时间。

  • 中间部分是机器 ID、数据中心 ID 和其他元数据。

  • 低位是自增序列号。

这种结构保证了在高并发的情况下,也能够高效地生成全局唯一的 ID。


6.2 TDDL 的 ID 生成策略如何保证分布式环境下的全局唯一性?

问题解析:考察你对 TDDL 分布式 ID 生成全局唯一性的设计原理的理解。

参考答案:TDDL 通过以下方式确保在分布式环境中生成全局唯一的 ID:

  • 机器 ID 和数据中心 ID:通过在每个节点上配置唯一的机器 ID 和数据中心 ID,确保不同机器和数据中心生成的 ID 不会冲突。每个机器(或者每个分片)都有一个唯一的标识符。

  • 时间戳:ID 的生成是基于当前时间戳的,并且时间戳部分足够精确(毫秒级别),能够保证生成的 ID 有序,且不会发生时序错误。

  • 序列号:TDDL 会在同一毫秒内生成多个 ID 时,通过自增序列号来避免冲突。每个节点都会有一个自增的序列号,并且每个节点的 ID 生成不依赖于其他节点。

通过这些设计,TDDL 可以确保在多个节点和数据中心的分布式环境下生成全局唯一且递增的 ID。


6.3 TDDL 生成 ID 时如何保证高可用性和容错性?

问题解析:考察你对 TDDL 高可用性和容错性设计的理解,特别是在生成 ID 时的容错机制。

参考答案:TDDL 在生成 ID 时,为了保证高可用性和容错性,通常会采用以下策略:

  • 高可用架构:TDDL 可以通过 主从复制 和 故障转移 来保证在某个节点不可用时,仍然能够继续生成 ID。主节点和从节点会共享相同的生成策略,当主节点故障时,从节点可以接管生成 ID 的任务。

  • 节点隔离:通过将不同的业务和不同的数据库分配到不同的节点,TDDL 可以避免单一节点的故障影响整个系统。每个节点都能够独立地生成 ID,不依赖于其他节点。

  • 容错机制:如果一个节点无法生成 ID(例如由于时钟回拨或系统故障),TDDL 会通过从备份节点或其他健康节点获取最新的 ID 值来恢复服务。


6.4 TDDL 生成 ID 过程中如何处理时钟回拨问题?

问题解析:时钟回拨是分布式系统中常见的问题,考察你对时钟回拨及其处理方式的理解。

参考答案:在分布式系统中,时钟回拨会导致 ID 的生成出现不连续或重复的问题,因为 ID 的生成依赖于时间戳。如果时间戳回拨,可能会导致生成的 ID 无法保证递增。

TDDL 通过以下几种方式来处理时钟回拨:

  • 监测时钟回拨:TDDL 会监测系统时间是否发生回拨。如果发现时钟回拨,系统会拒绝生成新的 ID,避免生成的 ID 值不连续。

  • 等待机制:如果时钟回拨,TDDL 会进入等待状态,直到系统时间恢复正常后再继续生成 ID。这样可以避免在时间回拨期间生成重复的 ID。

  • 回退机制:当时钟回拨时,TDDL 可以将 ID 生成回退到一个安全的时间点,确保生成的 ID 不会与之前的冲突。

通过这些机制,TDDL 能够有效避免时钟回拨对 ID 生成的影响,确保 ID 的全局唯一性和递增性。


6.5 TDDL 如何与分库分表策略结合使用?

问题解析:考察你对 TDDL 在分布式数据库中的应用,尤其是与分库分表策略结合时的设计思路。

参考答案:TDDL 本身是一个分布式数据库中间件,支持分库分表策略。在生成分布式 ID 时,TDDL 会考虑到分库分表的需求:

  • 分库策略:根据业务需求,TDDL 会将不同的数据分散到不同的数据库实例中。生成的 ID 会根据分库策略确保每个库的数据独立且互不冲突。

  • 分表策略:在同一个库中,TDDL 会根据分表策略(例如基于哈希、范围等)将数据分散到不同的表中。TDDL 会根据分表的策略为每个表分配唯一的机器 ID 或分片 ID,确保每个表的 ID 生成不重复。

  • ID 生成与分库分表关联:TDDL 的 ID 生成策略与分库分表策略是紧密结合的。生成的 ID 会考虑到分库分表的因素,确保每个分片或分表的 ID 都是唯一的,而不会发生冲突。

在 TDDL 中,分库分表和 ID 生成是一个整体的设计,能够确保在分布式环境中生成全局唯一的 ID,并且不影响系统的可扩展性。


6.6 TDDL 和 Snowflake 算法的区别是什么?

问题解析:考察你对 TDDL 和 Snowflake 算法的对比理解。

参考答案:TDDL 和 Snowflake 算法 都是用于生成分布式唯一 ID 的解决方案,二者的主要区别如下:

  • 设计目标:

    • Snowflake 算法主要通过时间戳、机器 ID、数据中心 ID 和自增序列号来生成全局唯一的 ID,广泛应用于分布式环境中,具有良好的性能和有序性。

    • TDDL在 Snowflake 算法的基础上,结合了分库分表的策略,除了确保全局唯一的 ID 生成外,还支持多数据中心和大规模分布式部署。

  • 分布式支持:

    • Snowflake 算法需要依赖机器 ID、数据中心 ID 和节点 ID 进行分布式部署,保证唯一性,但并没有涉及分库分表的策略。

    • TDDL除了支持 Snowflake 类似的 ID 生成机制外,还将分库分表策略考虑进来,确保每个节点或表都可以独立生成唯一 ID。

  • 容错机制:

    • Snowflake依赖于机器时钟,如果出现时钟回拨,可能会导致 ID 不连续或冲突。Snowflake 算法通常不具备时钟回拨的容错机制。

    • TDDL具有更强的容错能力,能够处理时钟回拨等问题,并且通过高可用架构(如主从复制)来保证 ID 的可靠性。




扫码关注

一起积累后端知识
不积跬步,无以至千里
不积小流,无以成江海



喜欢此内容的人还喜欢

谈谈id那些事(二)——Redis 自增 ID


谈谈id那些事(一)——数据库的自增ID