图解B-/B+树看MySQL索引结构

Java技术架构 06-07 3075

前言：

现时你们对“mysql 树结构”都比较注意，姐妹们都想要知道一些“mysql 树结构”的相关知识。那么小编也在网上汇集了一些关于“mysql 树结构””的相关文章，希望各位老铁们能喜欢，看官们一起来学习一下吧！

专注于Java领域优质技术号，欢迎关注

作者：似水牛年

B-树

B-树,这里的 B 表示 balance( 平衡的意思),B-树是一种多路自平衡的搜索树。

它类似普通的平衡二叉树，不同的一点是B-树允许每个节点有更多的子节点。

下图是 B-树的简化图：

B-树

B-树有如下特点:

所有键值分布在整颗树中；任何一个关键字出现且只出现在一个结点中；搜索有可能在非叶子结点结束；在关键字全集内做一次查找,性能逼近二分查找；B+ 树

B+树是B-树的变体，也是一种多路搜索树, 它与 B- 树的不同之处在于：

所有关键字存储在叶子节点出现，内部节点（非叶子节点）并不存储真正的 data为所有叶子结点增加了一个链指针

简化 B+树如下图：

B+树

为什么使用B-/B+ 树

红黑树等数据结构也可以用来实现索引，但是文件系统及数据库系统普遍采用B-/+Tree作为索引结构。

MySQL 是基于磁盘的数据库系统,索引往往以索引文件的形式存储的磁盘上，索引查找过程中就要产生磁盘I/O消耗，相对于内存存取，I/O存取的消耗要高几个数量级,索引的结构组织要尽量减少查找过程中磁盘I/O的存取次数。

为什么使用B-/+Tree，还跟磁盘存取原理有关。

局部性原理与磁盘预读

由于磁盘的存取速度与内存之间效率差异比较大，为了提高效率，要尽量减少磁盘I/O，磁盘往往不是严格按需读取，而是每次都会预读，磁盘读取完需要的数据，会顺序向后读一定长度的数据放入内存。而这样做的理论依据是计算机科学中著名的局部性原理：

当一个数据被用到时，其附近的数据也通常会马上被使用，程序运行期间所需要的数据通常比较集中

由于磁盘顺序读取的效率很高(不需要寻道时间，只需很少的旋转时间)，因此对于具有局部性的程序来说，预读可以提高I/O效率.预读的长度一般为页(page)的整倍数。

MySQL(使用InnoDB引擎),将记录按照页的方式进行管理,每页大小默认为16K(这个值可以修改).linux 默认页大小为4K

使用B+树的优势

B+树更适合外部存储,由于内节点无 data 域,一个结点可以存储更多的内结点,每个节点能索引的范围更大更精确,也意味着 B+树单次磁盘IO的信息量大于B-树,I/O效率更高。Mysql是一种关系型数据库，区间访问是常见的一种情况，B+树叶节点增加的链指针,加强了区间访问性，可使用在范围区间查询等，而B-树每个节点 key 和 data 在一起，则无法区间查找。MySQL索引实现

MySQL存在多种存储引擎的选择，不同存储引擎对索引的实现是不同的，下面对常见存储引擎InnoDB和MyISAM存储引擎的索引实现进行讨论

InnoDB索引实现

使用B+树作为索引结构，数据文件本身就是索引文件。数据文件按照B+树的结构进行组织，叶节点的data域存储完整的数据记录，索引的key即为表的主键。

下图为主键索引示意图。

InnoDB主索引

可以看到叶节点包含了完整的数据记录，这种索引叫做聚集索引，聚集索引使得搜索主键非常高效。

因为InnoDB的数据文件本身要按主键聚集，所以InnoDB要求表必须有主键（MyISAM可以没有），如果没有显式指定，则MySQL系统会自动选择一个可以唯一标识数据记录的列作为主键，如果不存在这种列，则MySQL自动为InnoDB表生成一个隐含字段作为主键，这个字段长度为6个字节，类型为长整形。

下图为辅助索引示意图，InnoDB辅助索引的data域存储的是主键的值。搜索辅助索引需要先根据辅助索引获取到主键值，再根据主键到主索引中获取到对应的数据记录。

InnoDB辅助索引

MyISAM索引实现

MyISAM引擎使用B+Tree作为索引结构，叶节点的data域存放的是数据记录的地址。下图是MyISAM索引的原理图：

MyISAM主索引