当前位置：首页 > 数码 > 正文内容

InnoDB-MySQL-页兼并与页决裂揭秘 (innodb存储引擎)

admin2年前 (2024-04-20)数码284

不论是页决裂还是页兼并，InnoDB都会在索引树上加写锁（x-latch）。在操作频繁的系统中这会是在隐患，或许会造成索引的锁竞争（indexlatchcontention）。假设表中没有兼并和决裂操作（也就是写操作），称之为失望（optimistic）更新，只须要经常使用读锁（S）。带有兼并或许决裂的操作称之为失望（pessimistic）更新，经常使用写锁（X）。

本文为摘录文章，如有失误，请斧正。文章是以5.7版本启动说明，和现有版本或许会有必定差距，但是数据页的设计基本没有出现过变动，因此，可以作为学习参考。原文为2017年宣布的一篇文章：《InnoDBPageMergingandPageSplitting-Percona> data/windmills/wmills.ibdwmills.frm

要素是从MySQL5.6开局innodb_file_per_table参数自动设置为1，即：每个表都会独自作为一个文件存储（假设有分区，或许有多个文件）。假设性能为0，则一切的表都是写入公共表空间。

图片

2根、分支和叶子(Roots,BranchesandLeaves)

每个页（逻辑上指的是主键索引的叶子节点）蕴含2-N行数据行，依据主键陈列，树有着不凡的页区治理不同的分支，即外部节点（INodes）。示例如下：

图片

ROOTNODE#3:4records,68bytesNODEPOINTERRECORD≥(id=2)→#197INTERNALNODE#197:464records,7888bytesNODEPOINTERRECORD≥(id=2)→#5LEAFNODE#5:57records,7524bytesRECORD:(id=2)→(uuid="884e471c-0e82-11e7-8bf6-08002734ed50",millid=139,kwatts_s=1956,,spatterntosucceedingmen.Yetdothy",active=1,,)

表结构为：

CREATETABLE`wmills`(`id`bigint(11)NOTNULLAUTO_INCREMENT,`uuid`char(36)COLLATEutf8_binNOTNULL,`millid`smallint(6)NOTNULL,`kwatts_s`int(11)NOTNULL,`date`dateNOTNULL,`location`varchar(50)COLLATEutf8_binDEFAULTNULL,`active`tinyint(2)NOTNULLDEFAULT'1',`time`timestampNOTNULLDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMP,`strrecordtype`char(3)COLLATEutf8_binNOTNULL,PRIMARYKEY(`id`),KEY`IDX_millid`(`millid`))ENGINE=InnoDB;

B+树的根节点就是查问的根节点，如图的#3就是根节点。根节点（页）蕴含了索引ID、INodes数量等消息。INodes页蕴含了关于页自身的消息、值的范畴等。最后还有叶子节点，存储着详细的数据行的所有数据。在示例中，叶子节点#5有57行记载，共7524bytes。这行消息是详细的记载，可以看到数据行内容。

因此，经常使用InnoDB治理表和行，InnoDB会将数据以分支、页和记载方式启动组织。InnoDB可操的最小粒度是页，页加载进内存后才会经过扫描页失掉行数据（即示例中的record）。

3页的外部原理(pageinternals)

数据页的数据会依照主键的顺序来排序，这也是咱们在设计表主键时设置为AUTO_INCREMENT的要素，这样在频繁拔出时，写入的数据尽或许的写入相反的页，写满后刷盘也可以是顺序写。

图片

但是假设页的数据比拟小，就会造成磁盘和内存空间的糜费，因此，假设页的数据大小/页大小小于必定比例，就会做页兼并，这个值咱们称之为MERGE_THRESHOLD，自动值为50%。

图片

当本页数据写满后，就会从内存中放开新页（next）启动写入。

图片

每个叶子节点都有着一个指向蕴含下一条（顺序）记载的页的指针，这也是InnoDB可以成功自顶向下的遍历和叶子节点顺序范畴扫描的才干基础。

4页兼并（pagemerging）

当口头数据行删除时，并没有物理删除，而是将改行数据标志（flaged）为删除，准许被其余记载申明经常使用。

图片

当页中删除的记载到达MERGE_THRESHOLD（自动页体积的50%），InnoDB确认最接近的前后页能否页到达MERGE_THRESHOLD，假设也曾经在限定值之下，可以将两个页启动兼并优化空间经常使用。如上图，当page#5数据小于50%时，由于page#6数据量也是小于50%，因此会启动页兼并，兼并后，page#6就会变为空页，可以接管新数据。

图片

在delete/update语句操作中都或许会诱发页兼并的出现，关联到以后页的相邻页。假设页兼并成功，在INFOMATION_SCHEMA.INNODB_METRICS中的index_page_merge_successful将会参与。

5页决裂（PageSplits)

假定有如下场景，page#10曾经被填满时，继续拔出数据，#10没有足够空间去容纳新的记载，依据下一页逻辑，记载应该由page#11担任，但是页#11也曾经满了。

图片

这时刻的简化逻辑为：

图片

新的页#12被创立。

图片

此时的页与页之间的相关为：

这样，B+树水平方向的逻辑分歧性依然满足，但是在物理存储上页或许是乱序的，大略率会落到不同的区。

不太清楚这里能否会有不懂，page#10和page#11只管都曾经写满，但是或许曾经存在page#12，并且还有少量残余空间，为什么不做数据迁徙呢？这样不就可以不拔出新页而造成少量的空间糜费了吗？

只管从通常上是可行的，但是在实操中，这时刻InnoDB就须要先遍历确认nextpage能否有空余位置，甚至是继续遍历直至找到有空余位置的页，而后启动数据迁徙，这个操作或许带来少量遍历的期间复杂度以及数据复制的IO操作，因此，打算无法行。

因此，咱们可以总结：页决裂或许出当初口头拔出或许更新时，但是或许也会形成页的错位（dislocation），即落入不同的区。

InnoDB用INFORMATION_SCHEMA.INNODB_METRICS表来跟踪页的决裂数。可以检查其中的index_page_splits和index_page_reorg_attempts/successful统计。

当page#12和page#10的数据都低于MERGE_THRESHOLD时，这时刻可以经过页兼并将数据兼并回来。

另一种方式是经常使用OPTIMIZE从新整顿表，可以将少量散布在不同区的页理顺，因此，也是一个很重量级和耗时的环节。

同时，不论是页决裂还是页兼并，InnoDB都会在索引树上加写锁（x-latch）。在操作频繁的系统中这会是在隐患，或许会造成索引的锁竞争（indexlatchcontention）。假设表中没有兼并和决裂操作（也就是写操作），称之为失望（optimistic）更新，只须要经常使用读锁（S）。带有兼并或许决裂的操作称之为失望（pessimistic）更新，经常使用写锁（X）。

mysql 中InnoDB和MyISAM的区别分析小结

InnoDB和MyISAM是在使用MySQL最常用的两个表类型，各有优缺点，视具体应用而定。下面是已知的两者之间的差别，仅供参考。 innodbInnoDB 给 MySQL 提供了具有事务(commit)、回滚(rollback)和崩溃修复能力(crash recovery capabilities)的事务安全(transaction-safe (ACID compliant))型表。 InnoDB 提供了行锁(locking on row level)，提供与 Oracle 类型一致的不加锁读取(non-lockingread in SELECTs)。这些特性均提高了多用户并发操作的性能表现。在InnoDB表中不需要扩大锁定(lock escalation)，因为 InnoDB 的列锁定(row levellocks)适宜非常小的空间。 InnoDB 是 MySQL 上第一个提供外键约束(FOREIGN KEYconstraints)的表引擎。 InnoDB 的设计目标是处理大容量数据库系统，它的 CPU 利用率是其它基于磁盘的关系数据库引擎所不能比的。在技术上，InnoDB 是一套放在 MySQL 后台的完整数据库系统，InnoDB 在主内存中建立其专用的缓冲池用于高速缓冲数据和索引。 InnoDB 把数据和索引存放在表空间里，可能包含多个文件，这与其它的不一样，举例来说，在 MyISAM 中，表被存放在单独的文件中。 InnoDB 表的大小只受限于操作系统的文件大小，一般为 2 GB。 InnoDB所有的表都保存在同一个数据文件 ibdata1 中（也可能是多个文件，或者是独立的表空间文件）,相对来说比较不好备份，免费的方案可以是拷贝数据文件、备份 binlog，或者用 mysqldump。 MyISAMMyISAM 是MySQL缺省存贮引擎 .每张MyISAM 表被存放在三个文件。 frm 文件存放表格定义。数据文件是MYD (MYData) 。索引文件是MYI (MYIndex) 引伸。因为MyISAM相对简单所以在效率上要优于InnoDB..小型应用使用MyISAM是不错的选择表是保存成文件的形式,在跨平台的数据转移中使用MyISAM存储会省去不少的麻烦MyISAM是ISAM表的新版本，有如下扩展：·二进制层次的可移植性。 ·NULL列索引。 ·对变长行比ISAM表有更少的碎片。 ·支持大文件。 ·更好的索引压缩。 ·更好的键吗统计分布。 ·更好和更快的auto_increment处理。以下是一些细节和具体实现的差别：◆不支持FULLTEXT类型的索引。 ◆ 中不保存表的具体行数，也就是说，执行select count(*) from table时，InnoDB要扫描一遍整个表来计算有多少行，但是MyISAM只要简单的读出保存好的行数即可。注意的是，当count(*)语句包含 where条件时，两种表的操作是一样的。 ◆3.对于AUTO_INCREMENT类型的字段，InnoDB中必须包含只有该字段的索引，但是在MyISAM表中，可以和其他字段一起建立联合索引。 ◆ FROM table时，InnoDB不会重新建立表，而是一行一行的删除。 ◆ TABLE FROM MASTER操作对InnoDB是不起作用的，解决方法是首先把InnoDB表改成MyISAM表，导入数据后再改成InnoDB表，但是对于使用的额外的InnoDB特性（例如外键）的表不适用。 ◆MyISAM类型的二进制数据文件可以在不同操作系统中迁移。另外，InnoDB表的行锁也不是绝对的，假如在执行一个SQL语句时MySQL不能确定要扫描的范围，InnoDB表同样会锁全表，例如update table set num=1 where name like “%aaa%”再另外，使用两种的选择：如果你的数据执行大量的INSERT或UPDATE，出于性能方面的考虑，应该使用InnoDB表。如果执行大量的SELECT，MyISAM是更好的选择。若需要使用事务处理，但是原来的数据表使用的是myisam，就需要改为bdb或者innodb，这样基于myisam的程序，将类型改为innodb后，其程序不用改动……综上所述，任何一种表都不是万能的，只有恰当的针对业务类型来选择合适的表类型，才能最大的发挥MySQL的性能优势。 MyISAM和InnoDB优化：key_buffer_size - 这对MyISAM表来说非常重要。如果只是使用MyISAM表，可以把它设置为可用内存的 30-40%。合理的值取决于索引大小、数据量以及负载 -- 记住，MyISAM表会使用操作系统的缓存来缓存数据，因此需要留出部分内存给它们，很多情况下数据比索引大多了。尽管如此，需要总是检查是否所有的 key_buffer 都被利用了 -- 文件只有 1GB，而 key_buffer 却设置为 4GB 的情况是非常少的。这么做太浪费了。如果你很少使用MyISAM表，那么也保留低于 16-32MB 的 key_buffer_size 以适应给予磁盘的临时表索引所需。 innodb_buffer_pool_size - 这对Innodb表来说非常重要。 Innodb相比MyISAM表对缓冲更为敏感。 MyISAM可以在默认的 key_buffer_size 设置下运行的可以，然而Innodb在默认的innodb_buffer_pool_size 设置下却跟蜗牛似的。由于Innodb把数据和索引都缓存起来，无需留给操作系统太多的内存，因此如果只需要用Innodb的话则可以设置它高达 70-80% 的可用内存。一些应用于 key_buffer 的规则有 -- 如果你的数据量不大，并且不会暴增，那么无需把innodb_additional_pool_size - 这个选项对性能影响并不太多，至少在有差不多足够内存可分配的操作系统上是这样。不过如果你仍然想设置为 20MB(或者更大)，因此就需要看一下Innodb其他需要分配的内存有多少。 innodb_log_file_size 在高写入负载尤其是大数据集的情况下很重要。这个值越大则性能相对越高，但是要注意到可能会增加恢复时间。我经常设置为 64-512MB，跟据服务器大小而异。 innodb_log_buffer_size 默认的设置在中等强度写入负载以及较短事务的情况下，服务器性能还可以。如果存在更新操作峰值或者负载较大，就应该考虑加大它的值了。如果它的值设置太高了，可能会浪费内存 -- 它每秒都会刷新一次，因此无需设置超过1秒所需的内存空间。通常 8-16MB 就足够了。越小的系统它的值越小。 innodb_flush_logs_at_trx_commit 是否为Innodb比MyISAM慢1000倍而头大？看来也许你忘了修改这个参数了。默认值是 1，这意味着每次提交的更新事务（或者每个事务之外的语句）都会刷新到磁盘中，而这相当耗费资源，尤其是没有电池备用缓存时。很多应用程序，尤其是从 MyISAM转变过来的那些，把它的值设置为 2 就可以了，也就是不把日志刷新到磁盘上，而只刷新到操作系统的缓存上。日志仍然会每秒刷新到磁盘中去，因此通常不会丢失每秒1-2次更新的消耗。如果设置为 0 就快很多了，不过也相对不安全了 -- MySQL服务器崩溃时就会丢失一些事务。设置为 2 指挥丢失刷新到操作系统缓存的那部分事务。 table_cache -- 打开一个表的开销可能很大。例如MyISAM把MYI文件头标志该表正在使用中。你肯定不希望这种操作太频繁，所以通常要加大缓存数量，使得足以最大限度地缓存打开的表。它需要用到操作系统的资源以及内存，对当前的硬件配置来说当然不是什么问题了。如果你有200多个表的话，那么设置为 1024 也许比较合适（每个线程都需要打开表），如果连接数比较大那么就加大它的值。我曾经见过设置为 100,000 的情况。 thread_cache -- 线程的创建和销毁的开销可能很大，因为每个线程的连接/断开都需要。我通常至少设置为 16。如果应用程序中有大量的跳跃并发连接并且 Threads_Created 的值也比较大，那么我就会加大它的值。它的目的是在通常的操作中无需创建新线程。 query_cache -- 如果你的应用程序有大量读，而且没有应用程序级别的缓存，那么这很有用。不要把它设置太大了，因为想要维护它也需要不少开销，这会导致MySQL变慢。通常设置为 32-512Mb。设置完之后最好是跟踪一段时间，查看是否运行良好。在一定的负载压力下，如果缓存命中率太低了，就启用它。 sort_buffer_size --如果你只有一些简单的查询，那么就无需增加它的值了，尽管你有64GB 的内存。搞不好也许会降低性能

MYSQL 两张表数据怎么合并

MySQL InnoDB 表数据页或者二级索引页（简称数据页或者索引页）的合并与分裂对 InnoDB 表整体性能影响很大；数据页的这类操作越多，对 InnoDB 表数据写入的影响越大。 MySQL 提供了一个数据页合并临界值（MERGE_THRESHOLD），在某些场景下，可以人为介入，减少数据页的合并与分裂。在 InnoDB 表里，每个数据页默认16K 大小，默认 MERGE_THRESHOLD 值为 50，取值范围从 1 到 50，默认值即是最大值。也就是当页面记录数占比小于 50% 时，MySQL 会把这页和相邻的页面进行合并，保证数据页的紧凑，避免太多浪费。

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: MySQL