InnoDB-MySQL-页兼并与页决裂揭秘 (innodb存储引擎)
本文为摘录文章,如有失误,请斧正。文章是以5.7版本启动说明,和现有版本或许会有必定差距,但是数据页的设计基本没有出现过变动,因此,可以作为学习参考。原文为2017年宣布的一篇文章:《InnoDBPageMergingandPageSplitting-Percona>
data/windmills/wmills.ibdwmills.frm
要素是从MySQL5.6开局innodb_file_per_table参数自动设置为1,即:每个表都会独自作为一个文件存储(假设有分区,或许有多个文件)。假设性能为0,则一切的表都是写入公共表空间。
图片
2根、分支和叶子(Roots,BranchesandLeaves)
每个页(逻辑上指的是主键索引的叶子节点)蕴含2-N行数据行,依据主键陈列,树有着不凡的页区治理不同的分支,即外部节点(INodes)。示例如下:
图片
ROOTNODE#3:4records,68bytesNODEPOINTERRECORD≥(id=2)→#197INTERNALNODE#197:464records,7888bytesNODEPOINTERRECORD≥(id=2)→#5LEAFNODE#5:57records,7524bytesRECORD:(id=2)→(uuid="884e471c-0e82-11e7-8bf6-08002734ed50",millid=139,kwatts_s=1956,,spatterntosucceedingmen.Yetdothy",active=1,,)
表结构为:
CREATETABLE`wmills`(`id`bigint(11)NOTNULLAUTO_INCREMENT,`uuid`char(36)COLLATEutf8_binNOTNULL,`millid`smallint(6)NOTNULL,`kwatts_s`int(11)NOTNULL,`date`dateNOTNULL,`location`varchar(50)COLLATEutf8_binDEFAULTNULL,`active`tinyint(2)NOTNULLDEFAULT'1',`time`timestampNOTNULLDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMP,`strrecordtype`char(3)COLLATEutf8_binNOTNULL,PRIMARYKEY(`id`),KEY`IDX_millid`(`millid`))ENGINE=InnoDB;
B+树的根节点就是查问的根节点,如图的#3就是根节点。根节点(页)蕴含了索引ID、INodes数量等消息。INodes页蕴含了关于页自身的消息、值的范畴等。最后还有叶子节点,存储着详细的数据行的所有数据。在示例中,叶子节点#5有57行记载,共7524bytes。这行消息是详细的记载,可以看到数据行内容。
因此,经常使用InnoDB治理表和行,InnoDB会将数据以分支、页和记载方式启动组织。InnoDB可操的最小粒度是页,页加载进内存后才会经过扫描页失掉行数据(即示例中的record)。
3页的外部原理(pageinternals)
数据页的数据会依照主键的顺序来排序,这也是咱们在设计表主键时设置为AUTO_INCREMENT的要素,这样在频繁拔出时,写入的数据尽或许的写入相反的页,写满后刷盘也可以是顺序写。
图片
但是假设页的数据比拟小,就会造成磁盘和内存空间的糜费,因此,假设页的数据大小/页大小小于必定比例,就会做页兼并,这个值咱们称之为MERGE_THRESHOLD,自动值为50%。
图片
当本页数据写满后,就会从内存中放开新页(next)启动写入。
图片
每个叶子节点都有着一个指向蕴含下一条(顺序)记载的页的指针,这也是InnoDB可以成功自顶向下的遍历和叶子节点顺序范畴扫描的才干基础。
4页兼并(pagemerging)
当口头数据行删除时,并没有物理删除,而是将改行数据标志(flaged)为删除,准许被其余记载申明经常使用。
图片
当页中删除的记载到达MERGE_THRESHOLD(自动页体积的50%),InnoDB确认最接近的前后页能否页到达MERGE_THRESHOLD,假设也曾经在限定值之下,可以将两个页启动兼并优化空间经常使用。如上图,当page#5数据小于50%时,由于page#6数据量也是小于50%,因此会启动页兼并,兼并后,page#6就会变为空页,可以接管新数据。
图片
图片
在delete/update语句操作中都或许会诱发页兼并的出现,关联到以后页的相邻页。假设页兼并成功,在INFOMATION_SCHEMA.INNODB_METRICS中的index_page_merge_successful将会参与。
5页决裂(PageSplits)
假定有如下场景,page#10曾经被填满时,继续拔出数据,#10没有足够空间去容纳新的记载,依据下一页逻辑,记载应该由page#11担任,但是页#11也曾经满了。
图片
图片
这时刻的简化逻辑为:
图片
新的页#12被创立。
图片
此时的页与页之间的相关为:
这样,B+树水平方向的逻辑分歧性依然满足,但是在物理存储上页或许是乱序的,大略率会落到不同的区。
不太清楚这里能否会有不懂,page#10和page#11只管都曾经写满,但是或许曾经存在page#12,并且还有少量残余空间,为什么不做数据迁徙呢?这样不就可以不拔出新页而造成少量的空间糜费了吗?
只管从通常上是可行的,但是在实操中,这时刻InnoDB就须要先遍历确认nextpage能否有空余位置,甚至是继续遍历直至找到有空余位置的页,而后启动数据迁徙,这个操作或许带来少量遍历的期间复杂度以及数据复制的IO操作,因此,打算无法行。
因此,咱们可以总结:页决裂或许出当初口头拔出或许更新时,但是或许也会形成页的错位(dislocation),即落入不同的区。
InnoDB用INFORMATION_SCHEMA.INNODB_METRICS表来跟踪页的决裂数。可以检查其中的index_page_splits和index_page_reorg_attempts/successful统计。
当page#12和page#10的数据都低于MERGE_THRESHOLD时,这时刻可以经过页兼并将数据兼并回来。
另一种方式是经常使用OPTIMIZE从新整顿表,可以将少量散布在不同区的页理顺,因此,也是一个很重量级和耗时的环节。
同时,不论是页决裂还是页兼并,InnoDB都会在索引树上加写锁(x-latch)。在操作频繁的系统中这会是在隐患,或许会造成索引的锁竞争(indexlatchcontention)。假设表中没有兼并和决裂操作(也就是写操作),称之为失望(optimistic)更新,只须要经常使用读锁(S)。带有兼并或许决裂的操作称之为失望(pessimistic)更新,经常使用写锁(X)。
mysql 中InnoDB和MyISAM的区别分析小结
InnoDB和MyISAM是在使用MySQL最常用的两个表类型,各有优缺点,视具体应用而定。 下面是已知的两者之间的差别,仅供参考。 innodbInnoDB 给 MySQL 提供了具有事务(commit)、回滚(rollback)和崩溃修复能力(crash recovery capabilities)的事务安全(transaction-safe (ACID compliant))型表。 InnoDB 提供了行锁(locking on row level),提供与 Oracle 类型一致的不加锁读取(non-lockingread in SELECTs)。 这些特性均提高了多用户并发操作的性能表现。 在InnoDB表中不需要扩大锁定(lock escalation),因为 InnoDB 的列锁定(row levellocks)适宜非常小的空间。 InnoDB 是 MySQL 上第一个提供外键约束(FOREIGN KEYconstraints)的表引擎。 InnoDB 的设计目标是处理大容量数据库系统,它的 CPU 利用率是其它基于磁盘的关系数据库引擎所不能比的。 在技术上,InnoDB 是一套放在 MySQL 后台的完整数据库系统,InnoDB 在主内存中建立其专用的缓冲池用于高速缓冲数据和索引。 InnoDB 把数据和索引存放在表空间里,可能包含多个文件,这与其它的不一样,举例来说,在 MyISAM 中,表被存放在单独的文件中。 InnoDB 表的大小只受限于操作系统的文件大小,一般为 2 GB。 InnoDB所有的表都保存在同一个数据文件 ibdata1 中(也可能是多个文件,或者是独立的表空间文件),相对来说比较不好备份,免费的方案可以是拷贝数据文件、备份 binlog,或者用 mysqldump。 MyISAMMyISAM 是MySQL缺省存贮引擎 .每张MyISAM 表被存放在三个文件 。 frm 文件存放表格定义。 数据文件是MYD (MYData) 。 索引文件是MYI (MYIndex) 引伸。 因为MyISAM相对简单所以在效率上要优于InnoDB..小型应用使用MyISAM是不错的选择表是保存成文件的形式,在跨平台的数据转移中使用MyISAM存储会省去不少的麻烦MyISAM是ISAM表的新版本,有如下扩展:·二进制层次的可移植性。 ·NULL列索引。 ·对变长行比ISAM表有更少的碎片。 ·支持大文件。 ·更好的索引压缩。 ·更好的键吗统计分布。 ·更好和更快的auto_increment处理。 以下是一些细节和具体实现的差别:◆不支持FULLTEXT类型的索引。 ◆ 中不保存表的具体行数,也就是说,执行select count(*) from table时,InnoDB要扫描一遍整个表来计算有多少行,但是MyISAM只要简单的读出保存好的行数即可。 注意的是,当count(*)语句包含 where条件时,两种表的操作是一样的。 ◆3.对于AUTO_INCREMENT类型的字段,InnoDB中必须包含只有该字段的索引,但是在MyISAM表中,可以和其他字段一起建立联合索引。 ◆ FROM table时,InnoDB不会重新建立表,而是一行一行的删除。 ◆ TABLE FROM MASTER操作对InnoDB是不起作用的,解决方法是首先把InnoDB表改成MyISAM表,导入数据后再改成InnoDB表,但是对于使用的额外的InnoDB特性(例如外键)的表不适用。 ◆MyISAM类型的二进制数据文件可以在不同操作系统中迁移。 另外,InnoDB表的行锁也不是绝对的,假如在执行一个SQL语句时MySQL不能确定要扫描的范围,InnoDB表同样会锁全表,例如update table set num=1 where name like “%aaa%”再另外,使用两种的选择:如果你的数据执行大量的INSERT或UPDATE,出于性能方面的考虑,应该使用InnoDB表。 如果执行大量的SELECT,MyISAM是更好的选择。 若需要使用事务处理,但是原来的数据表使用的是myisam,就需要改为bdb或者innodb,这样基于myisam的程序,将类型改为innodb后,其程序不用改动……综上所述,任何一种表都不是万能的,只有恰当的针对业务类型来选择合适的表类型,才能最大的发挥MySQL的性能优势。 MyISAM和InnoDB优化:key_buffer_size - 这对MyISAM表来说非常重要。 如果只是使用MyISAM表,可以把它设置为可用内存的 30-40%。 合理的值取决于索引大小、数据量以及负载 -- 记住,MyISAM表会使用操作系统的缓存来缓存数据,因此需要留出部分内存给它们,很多情况下数据比索引大多了。 尽管如此,需要总是检查是否所有的 key_buffer 都被利用了 -- 文件只有 1GB,而 key_buffer 却设置为 4GB 的情况是非常少的。 这么做太浪费了。 如果你很少使用MyISAM表,那么也保留低于 16-32MB 的 key_buffer_size 以适应给予磁盘的临时表索引所需。 innodb_buffer_pool_size - 这对Innodb表来说非常重要。 Innodb相比MyISAM表对缓冲更为敏感。 MyISAM可以在默认的 key_buffer_size 设置下运行的可以,然而Innodb在默认的innodb_buffer_pool_size 设置下却跟蜗牛似的。 由于Innodb把数据和索引都缓存起来,无需留给操作系统太多的内存,因此如果只需要用Innodb的话则可以设置它高达 70-80% 的可用内存。 一些应用于 key_buffer 的规则有 -- 如果你的数据量不大,并且不会暴增,那么无需把innodb_additional_pool_size - 这个选项对性能影响并不太多,至少在有差不多足够内存可分配的操作系统上是这样。 不过如果你仍然想设置为 20MB(或者更大),因此就需要看一下Innodb其他需要分配的内存有多少。 innodb_log_file_size 在高写入负载尤其是大数据集的情况下很重要。 这个值越大则性能相对越高,但是要注意到可能会增加恢复时间。 我经常设置为 64-512MB,跟据服务器大小而异。 innodb_log_buffer_size 默认的设置在中等强度写入负载以及较短事务的情况下,服务器性能还可以。 如果存在更新操作峰值或者负载较大,就应该考虑加大它的值了。 如果它的值设置太高了,可能会浪费内存 -- 它每秒都会刷新一次,因此无需设置超过1秒所需的内存空间。 通常 8-16MB 就足够了。 越小的系统它的值越小。 innodb_flush_logs_at_trx_commit 是否为Innodb比MyISAM慢1000倍而头大?看来也许你忘了修改这个参数了。 默认值是 1,这意味着每次提交的更新事务(或者每个事务之外的语句)都会刷新到磁盘中,而这相当耗费资源,尤其是没有电池备用缓存时。 很多应用程序,尤其是从 MyISAM转变过来的那些,把它的值设置为 2 就可以了,也就是不把日志刷新到磁盘上,而只刷新到操作系统的缓存上。 日志仍然会每秒刷新到磁盘中去,因此通常不会丢失每秒1-2次更新的消耗。 如果设置为 0 就快很多了,不过也相对不安全了 -- MySQL服务器崩溃时就会丢失一些事务。 设置为 2 指挥丢失刷新到操作系统缓存的那部分事务。 table_cache -- 打开一个表的开销可能很大。 例如MyISAM把MYI文件头标志该表正在使用中。 你肯定不希望这种操作太频繁,所以通常要加大缓存数量,使得足以最大限度地缓存打开的表。 它需要用到操作系统的资源以及内存,对当前的硬件配置来说当然不是什么问题了。 如果你有200多个表的话,那么设置为 1024 也许比较合适(每个线程都需要打开表),如果连接数比较大那么就加大它的值。 我曾经见过设置为 100,000 的情况。 thread_cache -- 线程的创建和销毁的开销可能很大,因为每个线程的连接/断开都需要。 我通常至少设置为 16。 如果应用程序中有大量的跳跃并发连接并且 Threads_Created 的值也比较大,那么我就会加大它的值。 它的目的是在通常的操作中无需创建新线程。 query_cache -- 如果你的应用程序有大量读,而且没有应用程序级别的缓存,那么这很有用。 不要把它设置太大了,因为想要维护它也需要不少开销,这会导致MySQL变慢。 通常设置为 32-512Mb。 设置完之后最好是跟踪一段时间,查看是否运行良好。 在一定的负载压力下,如果缓存命中率太低了,就启用它。 sort_buffer_size --如果你只有一些简单的查询,那么就无需增加它的值了,尽管你有64GB 的内存。 搞不好也许会降低性能
MYSQL 两张表数据怎么合并
MySQL InnoDB 表数据页或者二级索引页(简称数据页或者索引页)的合并与分裂对 InnoDB 表整体性能影响很大;数据页的这类操作越多,对 InnoDB 表数据写入的影响越大。 MySQL 提供了一个数据页合并临界值(MERGE_THRESHOLD),在某些场景下,可以人为介入,减少数据页的合并与分裂。 在 InnoDB 表里,每个数据页默认16K 大小,默认 MERGE_THRESHOLD 值为 50,取值范围从 1 到 50,默认值即是最大值。 也就是当页面记录数占比小于 50% 时,MySQL 会把这页和相邻的页面进行合并,保证数据页的紧凑,避免太多浪费。
免责声明:本文转载或采集自网络,版权归原作者所有。本网站刊发此文旨在传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题,请联系本网,我们将在第一时间删除。同时,本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证,请读者仅作参考,并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失,本网站不承担任何责任。