当前位置：首页 > 数码 > 正文内容

MySQL-实现非中断亿级数据处理的秘密 (mysql-bin文件可以删除吗)

admin2年前 (2024-04-15)数码538

MySQL 在海量数据管理方面表现得非常出色，能够存储上亿级别的数据，同时还具有极高的数据可靠性，几乎不会发生数据丢失的情况。这一强大的特性离不开 MySQL 的两大日志系统：binlog 和 redolog。本文将深入解析这两个日志的写入机制，揭示 MySQL 数据不丢失的秘密。

binlog 写入机制

写入原则

binlog 的写入遵循以下原则：

事务执行过程中，首先将日志写入 binlogcache。
事务提交时，再将 binlogcache 写入 binlog 文件。
一个事务的binlog 不得拆分写入，确保一次性完整写入。

事务完全提交或至少达到 PREPARE 状态时，binlog 才具备写入条件。如果将事务的 binlog 拆分写入，备库执行时可能处理尚未提交的事务，导致主备数据不一致。

系统为每个线程分配一块 binlogcache，由参数 binlog_cache_size 控制其大小。当 binlogcache 超过该限制时，将临时存储到磁盘中。使用命令 showstatuslike Binlog_cache_disk_use; 可以查看 binlogcache 是否足够，如果返回值远大于 0，需要增加 binlog_cache_size 的值。

事务提交后，执行器将完整的 binlogcache 内容写入 binlog 文件，并清空 binlogcache。注意，事务在达到 PREPARE 状态时，就可以将 binlogcache 写入 binlog，即使之后发生故障，数据也能恢复。

写入流程

binlog 的写入流程如下：

事务在执行过程中，不断将变更记录写入 binlogcache。
事务提交后，执行器从 binlogcache 中取出完整事务写入 binlog 文件。
如果参数 sync_binlog 设置为非 0，则会调用 fsync 函数将 binlog 文件内容同步到磁盘。

sync_binlog 参数控制着 fsync 的调用时机，其行为类似于参数 innodb_flush_log_at_trx_commit。一般情况下，建议将 sync_binlog 设置为 100~1000，以兼顾数据安全性与性能。将 sync_binlog 设置为 0 存在丢失最近 N 个事务 binlog 的风险。

redolog 机制

redolog 的三种状态

redolog 具有三种状态：

prepared：内存中存在，但未同步到磁盘。
committed：已同步到磁盘上的 redolog 文件中。
flushed：已同步到磁盘上的数据文件中。

fsync 函数负责将内存中的修改数据同步到持久存储设备。对文件的 write 操作通常只更新内存中的 pagecache，而不会立即写入磁盘。

redolog 的写入流程

redolog 的写入流程如下：

事务执行过程中，变更记录会先写入 redolog 缓冲。
事务提交时，将 redolog 缓冲中的内容写入 redolog 文件。
redolog 文件写入完成后，调用 fsync 函数将 redolog 文件的内容同步到磁盘。
数据库引擎在合适时机将 redolog 中的变更应用到数据文件中。

InnoDB redolog 的特点

与 binlog 相比，InnoDB redolog 具有以下特点：

循环写入：redolog 文件采用循环写入的方式，当写到文件末尾时，会自动回到开头继续写入。
多线程写入：每个线程都有自己的 redolog 缓冲，可以并行写入 redolog 文件。
大小固定：redolog 文件大小固定，不会自动增长。

数据不丢失的保障

要保证 MySQL 数据不丢失，需要同时确保 binlog 和 redolog 都持久化到磁盘。如果 binlog 或 redolog 丢失，都会导致数据无法恢复。

binlog 负责记录所有事务的变更内容，而 redolog 负责记录数据页的变更内容。两者相互配合，共同保障了数据的完整性和一致性。

合理设置 binlog_cache_size 和 sync_binlog 参数，以及使用双 redolog 机制，可以进一步提升数据的安全性，降低数据丢失的风险。

结语

通过深入了解 binlog 和 redolog 的写入机制，我们可以理解 MySQL 数据不丢失的秘密。通过保证这两个日志的持久化，MySQL 可以确保在各种故障场景下，数据都能得到恢复。

掌握 MySQL 日志系统的原理，对于保障数据库的可靠性至关重要。通过优化 binlog 和 redolog 的配置，可以进一步提高数据的安全性，为企业业务的稳定运行保驾护航。

如何设计一个能够高效查询的千万级MySQL数据库？

我们先探讨非高并发量的实现。

对于查询频次较高的字段，加上索引。

加索引注意事项：1.对那些字符内容较长的最好不要加索引2.按照官方文档，单表加的索引不要超过16个，索引的长度不要超过256个字节。随意加索引，会给数据维护增加负担

其实，可以引入分区。

分区注意事项：1.常见的分区类型有range，list，hash，key等。用的比较多的就是range分区。2.对于初始建立索引的时候，我们往往会忽视一个前提条件，导致添加失败报错。这里的前提是，如果表是有主键的，分区的键和主键不是同一个，那么分区的键也必须是主键。

引入分区后，数据写入时，数据库会自动判断写入哪个分区

对于并发量较高的，我们除了做上面的操作外，就要考虑分库分表或者采用一主多从的方式。

未来我相信这类问题需要采用NewSQl这类数据库来解决，如TiDb等，此时，我们将不必考虑数据分区的问题，而且可以做到数据水平无限扩展，和热点数据的动态分布。

MySQL innodb引擎深入讲解

表空间(ibd文件),一个MySQL实例可以对应多个表空间，用于存储记录，索引等数据。

段，分为数据段、索引段、回滚段，innodb是索引组织表，数据段就是B+Tree的叶子节点，索引段为非叶子节点，段用来管理多个区。

区，表空间的单元结构，每个区的大小为1M,默认情况下，innodb存储引擎页大小为16K，即一个区中一共有64个连续的页。

页，是innodb存储引擎磁盘管理的最小单元，每个页的大小为16K，为了保证页的连续性，innodb存储引擎每次从磁盘申请4~5个区。

行，innodb存储引擎数据是按行进行存储的。Trx_id 最后一次事务操作的id、roll_pointer滚动指针。

i nnodb的内存结构，由Buffer Pool、Change Buffer和Log Buffer组成。

Buffer Pool : 缓冲池是主内存中的一个区域，里面可以缓存磁盘上经常操作的真实数据，在执行增删改查操作时，先操作缓冲池中的数据(若缓冲池么有数据，则从磁盘加载并缓存)，然后再以一定频率刷新磁盘，从而减少磁盘IO，加快处理速度。

缓冲池以page页为单位，底层采用链表数据结构管理page，根据状态，将page分为三种类型:

1、free page 即空闲page，未被使用。

2、clean page 被使用page，数据没有被修改过。

3、dirty page 脏页，被使用page，数据被修改过，这个page当中的数据和磁盘当中的数据不一致。说得简单点就是缓冲池中的数据改了，磁盘中的没改，因为还没刷写到磁盘。

Change Buffer ：更改缓冲区(针对于非唯一二级索引页)，在执行DML语句时，如果这些数据page没有在Buffer Pool中，不会直接操作磁盘，而会将数据变更存在更改缓冲区Change Buffer中，在未来数据被读取时。再将数据合并恢复到Buffer Pool中，再将合并后的数据刷新到磁盘中。

二级索引通常是非唯一的，并且以相对随机的顺序插入二级索引页，同样，删除和更新可能会影响索引树中不相邻的二级索引页。如果每一次都操作磁盘，会造成大量磁盘IO，有了Change Buffer之后，我们可以在缓冲池中进行合并处理，减少磁盘IO。

Adaptive Hash Index：自适应hash索引，用于优化对Buffer Pool数据的查询，InnoDB存储引擎会监控对表上各索引页的查询，如果观察到hash索引可以提升速度，则建立hash索引，称之为自适应hash索引。无需人工干预，系统根据情况自动完成。

参数：innodb_adaptive_hash_index

Log Buffer: 日志缓冲区，用来保存要写入到磁盘中的log日志数据(redo log、undo log)，默认大小为16M，日志缓冲区的日志会定期刷新到磁盘中，如果需要更新，插入或删除许多行的事务，增加日志缓冲区的大小可以节省磁盘IO。

参数: innodb_log_buffer_size 缓冲区大小

innodb_flush_log_at_trx_commit 日志刷新到磁盘时机

innodb_flush_log_at_trx_commit=1 表示日志在每次事务提交时写入并刷新到磁盘

2 表示日志在每次事务提交后写入，并每秒刷新到磁盘一次

0 表示每秒将日志写入并刷新到磁盘一次。

InnoDB 的磁盘结构，由系统表空间(ibdata1)，独立表空间(*),通用表空间，撤销表空间(undo tablespaces), 临时表空间(Temporary Tablespaces), 双写缓冲区(Doublewrite Buffer files), 重做日志(Redo Log).

系统表空间(ibdata1)：系统表空间是更改缓冲区的存储区域，如果表是在系统表空间而不是每个表文件或者通用表空间中创建的，它也可能包含表和索引数据。

参数为: innodb_data_file_path

独立表空间(*): 每个表的文件表空间包含单个innodb表的数据和索引，并存储在文件系统上的单个数据文件中。参数: innodb_file_per_table

通用表空间: 需要通过create tablespace 语法创建，创建表时可以指定该表空间。

create tablespace xxx add datafile file_name engine=engine_name

create table table_name .... tablespace xxx

撤销表空间(undo tablespaces): MySQL实例在初始化时会自动创建两个默认的undo表空间(初始大小16K，undo_001,undo_002)，用于存储undo log 日志

临时表空间(Temporary Tablespaces)： innodb使用会话临时表空和全局表空间，存储用户创建的临时表等数据。

双写缓冲区(Doublewrite Buffer files)： innodb引擎将数据页从Buffer Pool刷新到磁盘前，先将数据页写入缓冲区文件中，便于系统异常时恢复数据。

重做日志(Redo Log)：是用来实现事务的持久性，该日志文件由两部分组成，重做日志缓冲区(redo log buffer)以及重做日志文件(redo log)，前者是在内存中，后者在磁盘中，当事务提交之后会把修改信息都会存储到该日志中，用于在刷新脏页到磁盘时，发送错误时，进行数据恢复使用。以循环方式写入重做日志文件，涉及两个文件ib_logfile0,ib_logfile1。

那内存结构中的数据是如何刷新到磁盘中的? 在MySQL中有4个线程负责刷新日志到磁盘。

1、Master Thread， mysql核心后台线程，负责调度其它线程，还负责将缓冲池中的数据异步刷新到磁盘中，保持数据的一致性，还包括脏页的刷新，合并插入缓冲、undo页的回收。

2、IO Thread，在innodb存储引擎中大量使用了AIO来处理IO请求，这样可以极大地提高数据库的性能，而IO Thead主要负责这些IO请求的回调。

4个读线程 Read thread负责读操作

4个写线程write thread负责写操作

1个Log thread线程负责将日志缓冲区刷新到磁盘

1个insert buffer线程负责将写入缓冲区内容刷新到磁盘

3、Purge Thread，主要用于回收事务已经提交了的undo log，在事务提交之后，undo log 可能不用了，就用它来回收。

4、Page Cleaner Thread，协助Master Thread 刷新脏页到磁盘的线程，它可以减轻主线程的压力，减少阻塞。

事务就是一组操作的集合，它是一个不可分割的工作单位，事务会把所有的操作作为一个整体一起向系统提交或撤销操作请求，即这些操作要么同时成功，要么同时失效。

事务的4大特性分为:

如何保证事务的4大特性，原子性，一致性和持久性是由innodb存储引擎底层的两份日志来保证的，分别是redo log和undo log。对于隔离性是由锁机制和MVCC(多版本并发控制)来实现的。

redo log，称为重做日志，记录的是事务提交时数据页的物理修改，是用来实现事务的持久性。该日志文件由两部分组成: 重做日志缓冲redo log buffer及重做日志文件redo log file，前者是在内存中，后者是在磁盘中，当事务提交之后会把所有修改信息都存到该日志文件中，用于在刷新脏页到磁盘，发送错误时，进行数据的恢复使用，从而保证事务的持久性。

具体的操作流程是：

1、客户端发起事务操作，包含多条DML语句。首先去innodb中的buffer pool中的数据页去查找有没有我们要更新的这些数据，如果没有则通过后台线程从磁盘中加载到buffer pool对应的数据页中，然后就可以在缓冲池中进行数据操作了。

2、此时缓冲池中的数据页发生了变更，还没刷写到磁盘，这个数据页称为脏页。脏页不是实时刷新到磁盘的，而是根据你配置的刷写策略进行刷写到磁盘的（innodb_flush_log_at_trx_commit，0,1,2三个值）。如果脏页在往磁盘刷新的时候出现了故障，会丢失数据，导致事务的持久性得不到保证。为了避免这种现象，当对缓冲池中的数据进行增删改操作时，会把增删改记录到redo log buffer当中，redo log buffer会把数据页的物理变更持久化到磁盘文件中(ib_logfile0/ib_logfile1)。如果脏页刷新失败，就可以通过这两个日志文件进行恢复。

undo log，它是用来解决事务的原子性的，也称为回滚日志。用于记录数据被修改前的信息，作用包括:提供回滚和MVCC多版本并发控制。

undo log和redo log的记录物理日志不一样，它是逻辑日志。可以认为当delete一条记录时，undo log中会记录一条对应的insert记录，当update一条记录时，它记录一条对应相反的update记录，当执行rollback时，就可以从undo log中的逻辑记录读取到相应的内容并进行回滚。

undo log销毁: undo log 在事务执行时产生，事务提交时，并不会立即删除undo log，因为这些日子可能用于MVCC。

undo log存储: undo log 采用段的方式进行管理和记录，存放在前面介绍的rollback segment回滚段中，内部包含1024个undo log segment。

mvcc(multi-Version Concurrency Control),多版本并发控制，指维护一个数据的多个版本，使得读写操作没有冲突，快照读为MySQL实现MVCC提供了一个非阻塞读功能，MVCC的具体实现，还需要依赖于数据库记录中的三个隐式字段，undo log日志、readView。

read committed 每次select 都生成一个快照读

repeatable read 开启事务后第一个select语句才是快照读的地方

serializable 快照读会退化为当前读。

mvcc的实现原理

DB_TRX_ID: 最近修改事务ID，记录插入这条记录或最后一次修改该记录的事务ID

DB_ROLL_PTR: 回滚指针，指向这条记录的上一个版本，用于配合undo log，指向上一个版本

DB_ROW_ID: 隐藏主键，如果表结构没有指定主键，将会生成该隐藏字段。

m_ids当前活跃的事务ID集合

min_trx_id: 最小活跃事务id

max_trx_id: 预分配事务ID，当前最大事务id+1，因为事务id是自增的

creator_trx_id: ReadView创建者的事务ID

版本链数据访问规则:

trx_id: 表示当前的事务ID

1、trx_id == creator_trx_id? 可以访问读版本-->成立的话,说明数据是当前这个事务更改的

2、trx_id 成立,说明数据已经提交了。

3、trx_id>max_trx_id？不可用访问读版本-> 成立的话，说明该事务是在ReadView生成后才开启的。

4、min_trx_id

免责声明：本文转载或采集自网络，版权归原作者所有。本网站刊发此文旨在传递更多信息，并不代表本网赞同其观点和对其真实性负责。如涉及版权、内容等问题，请联系本网，我们将在第一时间删除。同时，本网站不对所刊发内容的准确性、真实性、完整性、及时性、原创性等进行保证，请读者仅作参考，并请自行核实相关内容。对于因使用或依赖本文内容所产生的任何直接或间接损失，本网站不承担任何责任。

标签: MySQL