PostgreSQL pg_rewind 执行过程分析

发表于： 2021-11-23 10:16:09
分类： PostgreSQL源码分析
浏览：浏览(518)

1. pg_rewind 功能描述

pg_rewind 是 PostgreSQL 提供的一个工具，在主库故障切换后，用于修复旧主的流复制。PG 主备切换后，流复制的时间线会发生变化，在异步复制场景下，旧主产生的 WAL 日志可能有部分未同步到备库，此时做故障切换，就会导致新的主库丢失一部分数据，而旧主恢复后，也无法与新主库建立复制关系，因为旧主有一些事务需要回滚，然后才能与新主建立复制关系。pg_rewind 工具能够自动将旧主多出的事务数据进行回滚，并与新主建立复制关系。

2. pg_rewind 实现细节

以下分析基于 PG 13 源码。

旧主库称之为 target，新主库称之为 source。

如果 target 的时间线与 source 的时间线相同，则无需做 pg_rewind，直接就可以建立流复制。时间线通过 global/pg_control 获取。其对应的源码结构如下：

struct ControlFileData
{
    ...
    CheckPoint	checkPointCopy; /* copy of last check point record */
    ...
}

if (ControlFile_target.checkPointCopy.ThisTimeLineID == ControlFile_source.checkPointCopy.ThisTimeLineID)
{
    pg_log_info("source and target cluster are on the same timeline");
    rewind_needed = false;
}

如果 target 的时间线与 source 的时间线不同，则需要根据分叉点（divergerec）与 target 最后一条 wal 记录的 lsn（target_wal_endrec）进行对比，如果 target_wal_endrec 大于 divergerec，则需要进行 pg_rewind 回滚事务。

获取分叉点

通过函数 findCommonAncestorTimeline() 来获取分叉点和最新的共同时间线，主要逻辑是对比 pg_wal 目录下的 xxxxxxxx.history 文件，比如 00000003.history，找到最后一次共同的时间线以及分叉点。注意 .history 文件只有在发生主备切换后才会产生。

如果不需要回滚事务，直接写 recovery.conf 或者 postgresql.auto.conf 就可建立流复制，pg_rewind 结束。如果需要进行事务回滚，则进入下面的流程。

获取checkpoint

checkpoint 和 checkpoint record 是两个不同的概念，checkpoint 是 checkpoint 操作的开始点，当 checkpoint 操作结束时，会往 wal 里面写一条记录，称之为 checkpoint record。PG 做崩溃恢复是从 checkpoint 点开始，而不是 checkpoint record 点。

# checkpoint 与 checkpoint record 的关系，
# 其中 A,B,C,D,E 为普通的 wal 记录，checkpoint 指向一条普通的 wal 记录，这里就是 A
# checkpoint record 本身也是一条 wal 记录，它里面有个字段指向了 checkpoint 位置

--checkpoint--A--B--C-checkpoint record--D--E--

pg_rewind 调用函数 findLastCheckpoint()，获取分叉点之前最近一次的 checkpoint record 以及 checkpoint 位置。

对比 target 和 source 数据目录

pg_rewind 要将 target 多出的事务进行回滚，因此需要对比分叉点之后 target 与 source 之间的数据变化，使用 source 的数据对 target 进行覆盖或者删减，然后使用 source 的 wal 日志进行恢复。上述过程是 pg_rewind 中最为复杂的一步。

获取 source 数据目录下的所有文件信息，通过如下 SQL 获取：

WITH RECURSIVE files (path, filename, size, isdir) AS (
	SELECT '' AS path, filename, size, isdir FROM
	(SELECT pg_ls_dir('.', true, false) AS filename) AS fn,
	    pg_stat_file(fn.filename, true) AS this
	UNION ALL
	SELECT parent.path || parent.filename || '/' AS path,
	    fn, this.size, this.isdir
	  FROM files AS parent,
	       pg_ls_dir(parent.path || parent.filename, true, false) AS fn,
	       pg_stat_file(parent.path || parent.filename || '/' || fn, true) AS this
	       WHERE parent.isdir = 't'\n"
	)\n"
	SELECT path || filename, size, isdir,
	       pg_tablespace_location(pg_tablespace.oid) AS link_target
	FROM files\n"
	LEFT OUTER JOIN pg_tablespace ON files.path = 'pg_tblspc/'
	                             AND oid::text = files.filename;

对比 source 数据目录与本地 target 数据目录下的文件，如果目录不存在，则要创建，如果文件不存在，则要拷贝，如果文件大小不一致，则需要在文件末尾添加或者删减。如果本地 target 文件存在，而 source 侧不存在，则需要删除。将这些差异信息作为一个 file_entry_t 对象记录下来。

解析 target 从分叉点前的 checkpoint 开始，一直到最后的 wal lsn，这期间修改的所有 page 块信息，并进行记录，这些修改的块在下一步将从 source 进行拷贝并覆盖到 target。

调用 executeFileMap() 函数，从 source 拷贝修改的文件并应用到 target 数据目录中，从这一步开始，pg_rewind 不能再回头了。

更详细的过程，可参考文章：

https://developer.aliyun.com/article/772222

之后创建备份标志 backup_label，更新控制文件 global/pg_control，写入恢复配置文件，recovery.conf/postgresql.auto.conf。

3. 限制

pg_rewind 是基于 PG 物理流复制实现的，使用 source 的数据 page 页修复 target 时，可能导致 page 数据不一致，在做 recovery 时需要依赖 wal 的 full page write 机制，因此必须设置 full_page_write=on。

赞(0)
踩(0)
打赏

文章评论

共0条评论