[PostgreSQL 9.6] Visibility Map 내의 FROZEN 비트를 이용한 Vacuum 성능 향상에 대한 고찰

이전 포스팅: [PostgreSQL] 아무도 자세히 알려주지 않았던 Autovacuum의 위험성

1. Vacuum 성능 향상을 위해 9.6에 추가된 기능


이 포스팅은 이전 포스팅과 연결된 내용이므로, 이전 포스팅을 읽고 오시는 것이 좋습니다. 이번 시간에는 9.6의 향상된 Vacuum 성능에 대해서 설명합니다. 9.6은 Visibility Map 내의 Frozen Bit를 이용해서 Vacuum 대상 페이지를 선별하는 알고리즘을 적용했습니다. 즉, 해당 페이지가 ‘frozen 상태’라면 베큠 대상에서 제외한다는 것입니다. 아이디어는 간단하지만 그 효과는 매우 뛰어납니다. (그림-1~그림-3 참조)

그림-1. 1월 파티션에 20만건 입력 및 Autovacuum 수행 후

pg3-1

그림-2. 2월 파티션에 16만건 입력 및 Autovacuum 수행 후

pg3-2

그림-3. 3월 파티션에 16만건 입력 및 Autovacuum 수행 후

pg3-3

Note
XID Wraparound 문제를 해결하기 위한 다양한 알고리즘이 개발되고 있는 이유는 XMIN/XMAX 값이 4바이트 정수 형이기 때문입니다. 만일 8바이트 정수형을 적용했다면 Anti-Wraparound를 위한 Vacuum은 사실상 필요가 없습니다. (초당 1천 TPS인 경우, 6억년 이후에 Wraparound 발생) 하지만 8바이트 정수형을 적용할 경우, 레코드 크기가 현재보다 8바이트만큼 커지므로 테이블 크기가 크게 증가하게 됩니다. 이러한 이유로 8바이트 정수형을 적용하는 것은 논의에서 배제된 것 같습니다. 또 하나 생각해볼 수 있는 방법은 오라클의 Undo와 같이 Wrap#를 이용하는 것입니다. 즉, wraparound가 발생할 때 마다 Wrap#를 1 증가시키고, XID를 비교할 때 “Wrap# + XMIN”의 조합을 이용하는 방법입니다. Wrap#를 2바이트 정수형으로 사용할 경우, 초당 1천 TPS인 환경에서 대략 9천년 이후에나 Wraparound가 발생합니다. 8바이트 정수형을 사용하는 것에 비해서는 비교적 크기 증가가 적은 방법입니다. 어떤 방법이던 PostgreSQL의 향후 버전에는 Anti-Wraparound를 위한 Vacuum 자체가 완전히 사라지기를 기대해봅니다.

2. FROZEN 비트를 이용한 알고리즘 소개


알고리즘 자체는 아주 단순합니다. 블록 내에 모든 레코드들의 XMIN 값이 테이블의 FrozenXID 값보다 작다면, Visibility Map 내의 해당 페이지에 대한 “Frozen Bit”를 1 (True)로 설정하는 것입니다. 따라서 향후 수행되는 Vacuum은 “frozen bit”가 0 (False)인 페이지만을 대상으로 하면 됩니다 (그림-4 참조)
그림-4. FROZEN 비트를 이용한 알고리즘 개요

pg3-4

3. 테스트 세부 내역


테스트 세부 내역은 다음과 같습니다. 이전 포스팅과 거의 유사합니다만, Frozen Bit를 확인하는 부분이 추가되었으므로 해당 부분만 주의 깊게 보시면 될 것 같습니다.

3-1. 파라미터 설정

-- 파라미터 수정 (/opt/PostgreSQL/9.6/data/postgresql.conf)
autovacuum_freeze_max_age=200000 # <-- (2억)
vacuum_freeze_min_age=40000      # <-- (5천만)
vacuum_freeze_table_age=140000   # <-- (1억5천만)
log_autovacuum_min_duration=0    # <--(-1)
log_rotation_size=200MB          # <--(10MB)

3-2. 마스터 테이블 및 파티션 테이블 생성

-- 마스터 테이블 생성
create table p1
(
    c1       integer ,
    logdate  date,
    dummy    char(2000)
);

-- 파티션 테이블 생성
create table p1_y201601 (CHECK ( logdate >= DATE '2016-01-01' AND logdate < DATE '2016-02-01' )) inherits (p1); create table p1_y201602 (CHECK ( logdate >= DATE '2016-02-01' AND logdate < DATE '2016-03-01' )) inherits (p1); create table p1_y201603 (CHECK ( logdate >= DATE '2016-03-01' AND logdate < DATE '2016-04-01' )) inherits (p1); create table p1_y201604 (CHECK ( logdate >= DATE '2016-04-01' AND logdate < DATE '2016-05-01' )) inherits (p1); create table p1_y201605 (CHECK ( logdate >= DATE '2016-05-01' AND logdate < DATE '2016-06-01' )) inherits (p1); create table p1_y201606 (CHECK ( logdate >= DATE '2016-06-01' AND logdate < DATE '2016-07-01' )) inherits (p1); create table p1_y201607 (CHECK ( logdate >= DATE '2016-07-01' AND logdate < DATE '2016-08-01' )) inherits (p1); create table p1_y201608 (CHECK ( logdate >= DATE '2016-08-01' AND logdate < DATE '2016-09-01' )) inherits (p1); create table p1_y201609 (CHECK ( logdate >= DATE '2016-09-01' AND logdate < DATE '2016-10-01' )) inherits (p1); create table p1_y201610 (CHECK ( logdate >= DATE '2016-10-01' AND logdate < DATE '2016-11-01' )) inherits (p1); create table p1_y201611 (CHECK ( logdate >= DATE '2016-11-01' AND logdate < DATE '2016-12-01' )) inherits (p1); create table p1_y201612 (CHECK ( logdate >= DATE '2016-12-01' AND logdate < DATE '2017-01-01' )) inherits (p1);

3-3. 트리거 함수 및 트리거 생성

-- 트리거 함수 생성
CREATE OR REPLACE FUNCTION p1_insert_trigger()
RETURNS TRIGGER AS $$
BEGIN
    IF    ( NEW.logdate >= DATE '2016-01-01' AND NEW.logdate <  DATE '2016-02-01') THEN INSERT INTO p1_y201601 VALUES (NEW.*);     ELSIF ( NEW.logdate >= DATE '2016-02-01' AND NEW.logdate <  DATE '2016-03-01') THEN INSERT INTO p1_y201602 VALUES (NEW.*);     ELSIF ( NEW.logdate >= DATE '2016-03-01' AND NEW.logdate <  DATE '2016-04-01') THEN INSERT INTO p1_y201603 VALUES (NEW.*);     ELSIF ( NEW.logdate >= DATE '2016-04-01' AND NEW.logdate <  DATE '2016-05-01') THEN INSERT INTO p1_y201604 VALUES (NEW.*);     ELSIF ( NEW.logdate >= DATE '2016-05-01' AND NEW.logdate <  DATE '2016-06-01') THEN INSERT INTO p1_y201605 VALUES (NEW.*);     ELSIF ( NEW.logdate >= DATE '2016-06-01' AND NEW.logdate <  DATE '2016-07-01') THEN INSERT INTO p1_y201606 VALUES (NEW.*);     ELSIF ( NEW.logdate >= DATE '2016-07-01' AND NEW.logdate <  DATE '2016-08-01') THEN INSERT INTO p1_y201607 VALUES (NEW.*);     ELSIF ( NEW.logdate >= DATE '2016-08-01' AND NEW.logdate <  DATE '2016-09-01') THEN INSERT INTO p1_y201608 VALUES (NEW.*);     ELSIF ( NEW.logdate >= DATE '2016-09-01' AND NEW.logdate <  DATE '2016-10-01') THEN INSERT INTO p1_y201609 VALUES (NEW.*);     ELSIF ( NEW.logdate >= DATE '2016-10-01' AND NEW.logdate <  DATE '2016-11-01') THEN INSERT INTO p1_y201610 VALUES (NEW.*);     ELSIF ( NEW.logdate >= DATE '2016-11-01' AND NEW.logdate <  DATE '2016-12-01') THEN INSERT INTO p1_y201611 VALUES (NEW.*);     ELSIF ( NEW.logdate >= DATE '2016-12-01' AND NEW.logdate <  DATE '2017-01-01') THEN INSERT INTO p1_y201612 VALUES (NEW.*);
    ELSE
        RAISE EXCEPTION 'Date out of range.  Fix the p1_insert_trigger() function!';
    END IF;
    RETURN NULL;
END;
$$
LANGUAGE plpgsql;

3-4. TXID 증가를 위해 DBLINK를 이용한 LOOP COMMIT 프로시저 생성

-- INSERT 트리거 생성
CREATE TRIGGER insert_p1_trigger
    BEFORE INSERT ON p1
    FOR EACH ROW EXECUTE PROCEDURE p1_insert_trigger();

-- insert_p1 프로시저 생성
CREATE OR REPLACE FUNCTION insert_p1(v_c1 integer, v_logdate date, v_dummy char) RETURNS VOID AS $$
BEGIN
       PERFORM dblink('myconn','INSERT INTO P1 VALUES ('||''''||v_c1||''''||','||''''||v_logdate||''''||','||''''||v_dummy||''''||')');

       PERFORM dblink('myconn','COMMIT;');
END;
$$ LANGUAGE plpgsql;

-- loop_insert_p1 프로시저 생성
CREATE or replace FUNCTION loop_insert_p1(v_logdate date, v_end integer) RETURNS VOID AS $$
BEGIN
    insert into p1 select generate_series(1,5000000), v_logdate, 'dummy';
    FOR i in 1..v_end LOOP
        PERFORM insert_p1(i, v_logdate, 'dummy');
    END LOOP;
END;
$$ LANGUAGE plpgsql;

3-5. 익스텐션 설치

-- DBLINK 익스텐션 설치
create extension dblink;

-- PG_VISIBILITY 익스텐션 설치
create extension pg_visibility;

3-6. 1월 파티션에 20만건 입력

-- 현재 시점에서 테이블 나이 확인
$ get_time.sh
 txid_current
--------------
        1,784

-- 현재 테이블 나이 확인
$ get_info.sh
  relname   | age | relfrozenxid | reltuples |  size   | last_autoanalze | last_autovacuum
------------+-----+--------------+-----------+---------+-----------------+-----------------
 p1_y201601 |  26 |        1,759 |         0 | 0 bytes |                 |
 p1_y201602 |  25 |        1,760 |         0 | 0 bytes |                 |
 p1_y201603 |  24 |        1,761 |         0 | 0 bytes |                 |
 p1_y201604 |  23 |        1,762 |         0 | 0 bytes |                 |
 p1_y201605 |  22 |        1,763 |         0 | 0 bytes |                 |
 p1_y201606 |  21 |        1,764 |         0 | 0 bytes |                 |
 p1_y201607 |  20 |        1,765 |         0 | 0 bytes |                 |
 p1_y201608 |  19 |        1,766 |         0 | 0 bytes |                 |
 p1_y201609 |  18 |        1,767 |         0 | 0 bytes |                 |
 p1_y201610 |  17 |        1,768 |         0 | 0 bytes |                 |
 p1_y201611 |  16 |        1,769 |         0 | 0 bytes |                 |
 p1_y201612 |  15 |        1,770 |         0 | 0 bytes |                 |

-- 20만건 입력
select dblink_connect('myconn','dbname=test port=5436 user=postgres password=oracle');
select loop_insert_p1('2016-01-02 00:00:00', 200000);

-- 20만건 입력 후 TXID_CURRENT 확인
$ get_time.sh
 txid_current
--------------
      201,790

-- Autovacuum 수행 종료 후 테이블 나이 및 TXID_CURRENT() 확인
$ get_info.sh
  relname   |  age   | relfrozenxid | reltuples |  size   |   last_autoanalze   |   last_autovacuum
------------+--------+--------------+-----------+---------+---------------------+---------------------
 p1_y201601 | 40,001 |      161,790 |   5.2e+06 | 380 MB  | 2016-09-06 12:21:55 | 2016-09-06 12:25:15
 p1_y201602 | 40,000 |      161,791 |         0 | 0 bytes |                     | 2016-09-06 12:23:03
 p1_y201603 | 40,000 |      161,791 |         0 | 0 bytes |                     | 2016-09-06 12:23:03
 p1_y201604 | 40,000 |      161,791 |         0 | 0 bytes |                     | 2016-09-06 12:23:03
 p1_y201605 | 40,000 |      161,791 |         0 | 0 bytes |                     | 2016-09-06 12:23:03
 p1_y201606 | 40,000 |      161,791 |         0 | 0 bytes |                     | 2016-09-06 12:23:03
 p1_y201607 | 40,000 |      161,791 |         0 | 0 bytes |                     | 2016-09-06 12:23:03
 p1_y201608 | 40,000 |      161,791 |         0 | 0 bytes |                     | 2016-09-06 12:23:03
 p1_y201609 | 40,000 |      161,791 |         0 | 0 bytes |                     | 2016-09-06 12:23:03
 p1_y201610 | 40,000 |      161,791 |         0 | 0 bytes |                     | 2016-09-06 12:23:03
 p1_y201611 | 40,000 |      161,791 |         0 | 0 bytes |                     | 2016-09-06 12:23:03
 p1_y201612 | 40,000 |      161,791 |         0 | 0 bytes |                     | 2016-09-06 12:23:03

$ get_time.sh
 txid_current
--------------
      201,791

-- Autovacuum 수행 시간 확인
2016-09-06 12:21:55 KST LOG:  automatic analyze of table "test.public.p1_y201601" system usage: CPU 0.07s/0.29u sec elapsed 21.81 sec
2016-09-06 12:25:15 KST LOG:  automatic vacuum of table "test.public.p1_y201601": index scans: 0
        pages: 0 removed, 48599 remain, 0 skipped due to pins, 0 skipped frozen
        tuples: 0 removed, 5200000 remain, 0 are dead but not yet removable
        buffer usage: 63817 hits, 33441 misses, 48604 dirtied
        avg read rate: 1.609 MB/s, avg write rate: 2.339 MB/s
        system usage: CPU 1.35s/0.34u sec elapsed 162.35 sec

-- FROZEN 여부 확인
-- 0~48223 블록까지 "frozen" 상태가 됨
-- 48224~48598 블록은 "frozen" 상태가 아님
-- 이렇게 일부가 "unfrozen" 상태인 이유는 vacuum_freeze_min_age=4만으로 설정했기 때문 임
-- 만일 해당 파라미터 값을 0으로 설정하면 모든 블록이 "frozen" 상태가 됨
select * from pg_visibility_map_summary('p1_y201601');
 all_visible | all_frozen
-------------+------------
       48599 |      48224

-- 블록 별로 Frozen 여부를 확인한 결과, 48224~48598 블록은 unfrozen    상태인 것을 알 수 있음
select * from pg_visibility_map('p1_y201601') where all_frozen='f';
 blkno | all_visible | all_frozen
-------+-------------+------------
 48224 | t           | f
...
 48598 | t           | f

-- 48224 블록 내부를 확인한 결과,
-- 해당 페이지의 XMIN 값 중에서 테이블의 RelfrozenXID 보다 큰 값이 존재하는 것을 확인함
select t_ctid,
       case lp_flags
           when 0 then 'Unused'
           when 1 then 'Normal'
           when 2 then 'Redirect to ' || lp_off
           when 3 then 'Dead'
        end,
        t_xmin,
        t_xmax
from    heap_page_items(get_raw_page('p1_y201601',48224));

   t_ctid    |  case  | t_xmin | t_xmax
-------------+--------+--------+--------
 (48224,1)   | Normal | 161757 |      0
 (48224,2)   | Normal | 161758 |      0
 (48224,3)   | Normal | 161759 |      0
...
 (48224,34)  | Normal | 161790 |      0     --------------> 해당 테이블의 relfrozenxid
 (48224,35)  | Normal | 161791 |      0
...
 (48224,105) | Normal | 161861 |      0
 (48224,106) | Normal | 161862 |      0
 (48224,107) | Normal | 161863 |      0

3-7. 2월 파티션에 16만건 입력

-- 16만건 입력
select loop_insert_p1('2016-02-02 00:00:00', 160000);

-- 16만건 입력 후 TXID_CURRENT() 확인
$ get_time.sh
 txid_current
--------------
      361,796

-- Autovacuum 수행 종료 후 테이블 나이 및 TXID_CURRENT() 확인
$ get_info.sh
  relname   |  age   | relfrozenxid |  reltuples  |  size   |   last_autoanalze   |   last_autovacuum
------------+--------+--------------+-------------+---------+---------------------+---------------------
 p1_y201601 | 40,001 |      321,797 | 5.19991e+06 | 380 MB  | 2016-09-06 12:21:55 | 2016-09-06 13:07:25
 p1_y201602 | 40,001 |      321,797 | 5.15997e+06 | 377 MB  | 2016-09-06 13:10:05 | 2016-09-06 13:09:38
 p1_y201603 | 40,001 |      321,797 |           0 | 0 bytes |                     | 2016-09-06 13:07:39
 p1_y201604 | 40,001 |      321,797 |           0 | 0 bytes |                     | 2016-09-06 13:07:39
 p1_y201605 | 40,001 |      321,797 |           0 | 0 bytes |                     | 2016-09-06 13:07:39
 p1_y201606 | 40,001 |      321,797 |           0 | 0 bytes |                     | 2016-09-06 13:07:39
 p1_y201607 | 40,001 |      321,797 |           0 | 0 bytes |                     | 2016-09-06 13:07:39
 p1_y201608 | 40,001 |      321,797 |           0 | 0 bytes |                     | 2016-09-06 13:07:39
 p1_y201609 | 40,001 |      321,797 |           0 | 0 bytes |                     | 2016-09-06 13:07:39
 p1_y201610 | 40,001 |      321,797 |           0 | 0 bytes |                     | 2016-09-06 13:07:39
 p1_y201611 | 40,001 |      321,797 |           0 | 0 bytes |                     | 2016-09-06 13:07:39
 p1_y201612 | 40,001 |      321,797 |           0 | 0 bytes |                     | 2016-09-06 13:07:39

$ get_time.sh
 txid_current
--------------
      361,798

-- Autovacuum 수행 시간 확인
2016-09-06 13:07:25 KST LOG:  automatic vacuum of table "test.public.p1_y201601": index scans: 0
        pages: 0 removed, 48599 remain, 0 skipped due to pins, 48224 skipped frozen
        tuples: 0 removed, 5199908 remain, 0 are dead but not yet removable
        buffer usage: 407 hits, 392 misses, 376 dirtied
        avg read rate: 2.407 MB/s, avg write rate: 2.308 MB/s
        system usage: CPU 0.01s/0.00u sec elapsed 1.27 sec

2016-09-06 13:09:38 KST LOG:  automatic vacuum of table "test.public.p1_y201602": index scans: 0
        pages: 0 removed, 48225 remain, 0 skipped due to pins, 0 skipped frozen
        tuples: 0 removed, 5160000 remain, 0 are dead but not yet removable
        buffer usage: 63862 hits, 32619 misses, 40725 dirtied
        avg read rate: 1.915 MB/s, avg write rate: 2.391 MB/s
        system usage: CPU 0.82s/0.79u sec elapsed 133.06 sec

2016-09-06 13:10:05 KST LOG:  automatic analyze of table "test.public.p1_y201602" system usage: CPU 0.02s/0.23u sec elapsed 26.47 sec

-- FROZEN 여부 확인
select * from pg_visibility_map_summary('p1_y201601');
 all_visible | all_frozen
-------------+------------
       48599 |      48599

select * from pg_visibility_map_summary('p1_y201602');
 all_visible | all_frozen
-------------+------------
       48225 |      47850

3-8. 3월 파티션에 16만건 입력

-- 16만건 입력
select loop_insert_p1('2016-03-02 00:00:00', 160000);

-- 16만건 입력 후 TXID_CURRENT() 확인
$ get_time.sh
 txid_current
--------------
      521,802

-- Autovacuum 수행 종료 후 테이블 나이 및 TXID_CURRENT() 확인
$ get_info.sh
  relname   |  age   | relfrozenxid |  reltuples  |  size   |   last_autoanalze   |   last_autovacuum
------------+--------+--------------+-------------+---------+---------------------+---------------------
 p1_y201601 | 40,003 |      481,802 | 5.19982e+06 | 380 MB  | 2016-09-06 12:21:55 | 2016-09-06 13:18:54
 p1_y201602 | 40,003 |      481,802 |  5.1599e+06 | 377 MB  | 2016-09-06 13:10:05 | 2016-09-06 13:18:55
 p1_y201603 | 40,003 |      481,802 | 5.15997e+06 | 377 MB  | 2016-09-06 13:21:53 | 2016-09-06 13:21:30
 p1_y201604 | 40,003 |      481,802 |           0 | 0 bytes |                     | 2016-09-06 13:19:09
 p1_y201605 | 40,003 |      481,802 |           0 | 0 bytes |                     | 2016-09-06 13:19:09
 p1_y201606 | 40,003 |      481,802 |           0 | 0 bytes |                     | 2016-09-06 13:19:09
 p1_y201607 | 40,003 |      481,802 |           0 | 0 bytes |                     | 2016-09-06 13:19:09
 p1_y201608 | 40,003 |      481,802 |           0 | 0 bytes |                     | 2016-09-06 13:18:55
 p1_y201609 | 40,003 |      481,802 |           0 | 0 bytes |                     | 2016-09-06 13:19:09
 p1_y201610 | 40,003 |      481,802 |           0 | 0 bytes |                     | 2016-09-06 13:19:09
 p1_y201611 | 40,003 |      481,802 |           0 | 0 bytes |                     | 2016-09-06 13:19:09
 p1_y201612 | 40,003 |      481,802 |           0 | 0 bytes |                     | 2016-09-06 13:19:09

$ get_time.sh
 txid_current
--------------
      521,805

-- Autovacuum 수행 시간 확인
2016-09-06 13:18:54 KST LOG:  automatic vacuum of table "test.public.p1_y201601": index scans: 0
        pages: 0 removed, 48599 remain, 0 skipped due to pins, 48598 skipped frozen
        tuples: 0 removed, 5199815 remain, 0 are dead but not yet removable
        buffer usage: 30 hits, 21 misses, 0 dirtied
        avg read rate: 54.706 MB/s, avg write rate: 0.000 MB/s
        system usage: CPU 0.00s/0.00u sec elapsed 0.00 sec

2016-09-06 13:18:55 KST LOG:  automatic vacuum of table "test.public.p1_y201602": index scans: 0
        pages: 0 removed, 48225 remain, 0 skipped due to pins, 47850 skipped frozen
        tuples: 0 removed, 5159898 remain, 0 are dead but not yet removable
        buffer usage: 386 hits, 392 misses, 378 dirtied
        avg read rate: 2.539 MB/s, avg write rate: 2.448 MB/s
        system usage: CPU 0.01s/0.00u sec elapsed 1.20 sec

2016-09-06 13:21:30 KST LOG:  automatic vacuum of table "test.public.p1_y201603": index scans: 0
        pages: 0 removed, 48225 remain, 0 skipped due to pins, 0 skipped frozen
        tuples: 0 removed, 5160000 remain, 0 are dead but not yet removable
        buffer usage: 63699 hits, 32780 misses, 48230 dirtied
        avg read rate: 1.658 MB/s, avg write rate: 2.439 MB/s
        system usage: CPU 0.82s/0.72u sec elapsed 154.49 sec

2016-09-06 13:21:53 KST LOG:  automatic analyze of table "test.public.p1_y201603" system usage: CPU 0.00s/0.30u sec elapsed 23.45 sec

-- FROZEN 여부 확인
select * from pg_visibility_map_summary('p1_y201601');
 all_visible | all_frozen
-------------+------------
       48599 |      48599

select * from pg_visibility_map_summary('p1_y201602');
 all_visible | all_frozen
-------------+------------
       48225 |      48225

select * from pg_visibility_map_summary('p1_y201603');
 all_visible | all_frozen
-------------+------------
       48225 |      47850

 

글을 마치며


이제 Vacuum에 대해서 하나의 수수께끼만이 남았습니다. XMIN 값이 4바이트 정수의 범위를 넘어서면, 다시 말해 wraparound가 발생하면 XMIN 값이 FROZEN XID (2)로 변경될까요? 이 문제를 풀기위해서 1주일간 테스트를 진행했지만 원하는 결과를 얻지 못했습니다. 이 부분이 정리되면 Vacuum 로직에 대해서 깔끔히 정리할 예정입니다.

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s