面试可能存在的坑:是大表JOIN小表还是小表JOIN大表?

你好,我是风一样的树懒,一个工作十多年的后端开发,曾就职京东、阿里等多家互联网头部企业。

点击下方👇关注公众号,带你一起复习后端技术,看看面试考点,补充积累技术知识,每天都为面试准备积累


在 SQL 查询中,JOIN 大表和小表的顺序对性能有很大的影响,尤其是在涉及到索引和数据扫描的场景中。通常,小表 JOIN 大表 的方式会更高效,但具体情况还需根据数据库引擎的执行计划和优化器的选择来判断。以下是


01
小表JION大表的优势


避免大表的全表扫描:

  • 小表通常包含的数据量较少,因此它可以被更有效地加载到内存中。

  • 如果小表出现在 JOIN 操作的左边,数据库可以利用小表的索引或者直接使用小表的数据来查询大表,从而减少大表的扫描量。

减少大表的访问次数:

  • 在 JOIN 操作时,如果小表在前,数据库引擎可以先通过小表的行来限制大表的扫描范围。例如,数据库在执行查询时会先通过小表的主键或索引来过滤大表中的数据,从而减少大表的扫描量。

  • 反之,如果大表在前,数据库需要扫描大表的所有行,然后再用这些结果去匹配小表,效率较低。

利用索引的优势:

  • 如果小表有索引(例如主键索引),并且小表的查询结果很小,数据库在 JOIN 时可以利用索引快速过滤出匹配的记录。

  • 对大表来说,索引可以帮助加速查找,但索引的大小和扫描的行数仍然可能导致性能瓶颈,尤其是在数据量非常大的时候。


02
大表 JOIN 小表


尽管通常推荐小表 JOIN 大表,但在某些情况下,大表放在左边也有可能是优化的策略,特别是以下情况:

大表的过滤条件:

  • 如果你在 JOIN 之前通过 WHERE 子句对大表进行了过滤,使得大表的扫描量显著减少,那么将大表放在前面也是合适的。

  • 例如,如果大表已经有条件过滤,并且你通过索引快速找到了相关记录,再连接小表时不会有太大性能影响。

小表数据量非常少:

  • 如果小表非常小,甚至可以完全加载到内存中,数据库可能会选择全表扫描小表,然后与大表进行连接。在这种情况下,JOIN 顺序的影响较小。

查询优化器的选择:

  • 在某些数据库引擎中(如 MySQL 的查询优化器),即使你写的是大表 JOIN 小表,数据库引擎会自动选择最佳的执行计划。例如,查询优化器会在内存足够的情况下将小表加载到内存中并与大表进行连接。


03
JOIN 的顺序如何影响执行计划


查询优化器:大部分现代数据库系统(如 MySQL、PostgreSQL、Oracle 等)都有查询优化器,它会在执行查询时根据表的数据量、索引、统计信息等自动决定最佳的执行计划。

  • 数据库通常会选择基于表的大小、索引的可用性和查询条件的执行计划。

  • 如果大表在前,而该表没有有效的索引,查询优化器可能会自动选择反向执行 JOIN 操作,首先扫描小表,然后限制大表的扫描范围。


04
具体情况的选择


小表 JOIN 大表的情况:

  • 小表的数据量小,且有合适的索引。

  • 查询需要对大表进行大范围的过滤,使用小表来限制大表的数据。

  • 数据库优化器决定将小表放在前面。

大表 JOIN 小表的情况:

  • 大表的扫描结果已经通过过滤条件被限制。

  • 小表极小,完全可以放到内存中。

  • 查询优化器选择了大表 JOIN 小表作为最佳方案。


05
示例分析


假设有两个表:

  • 大表 orders:包含百万条记录。

  • 小表 customers:包含几千条记录。

查询 1:小表 JOIN 大表

SELECT o.order_id, c.customer_nameFROM customers cJOIN orders o ON c.customer_id = o.customer_id;

在这个查询中,customers 表是小表,orders 表是大表。数据库会根据 customers 表的 customer_id 快速查找每个客户的订单,并仅返回与之匹配的记录,减少了大表 orders 的扫描量。

查询 2:大表 JOIN 小表

SELECT o.order_id, c.customer_nameFROM orders oJOIN customers c ON o.customer_id = c.customer_id;

在这个查询中,如果 orders 表非常大,而 customers 表非常小,数据库也有可能通过优化器自动调整执行计划,在内存中查找 customers 表的数据,然后限制 orders 表的扫描。


06
总结


  • 通常情况下,优先将小表放在 JOIN 的左边,因为它可以利用小表的行来限制大表的扫描范围,从而提高查询效率。

  • 然而,查询优化器的选择、表的大小、过滤条件和索引的使用情况都会影响最终的执行计划,因此有时会根据具体的场景来决定 JOIN 顺序。

  • 你可以使用 EXPLAIN 语句查看 MySQL 查询的执行计划,从而了解数据库是如何执行 JOIN 操作的,并根据执行计划来进一步优化查询。

所以这个问题当面试的时候被问到的时候,一定要小心里面的坑,要分情况说明,通常情况与特殊情况,所以你答对了么?

今天的内容就分享到这儿,喜欢的朋友可以关注,点赞。有什么不足的地方欢迎留言指出,您的关注是我前进的动力!

END


扫码关注

一起积累后端知识
不积跬步,无以至千里
不积小流,无以成江海

喜欢此内容的人还喜欢

谈谈id那些事(五)——美团的 Leaf 的ID生成


一个阿里二面面试官必问的问题


谈谈id那些事(三)——阿里巴巴的 TDDL的ID生成


分享面试:mysql数据库索引失效的情况


面试常被忽略的问题——内存区域划分