Cách MySQL replication full xử lý lỗi máy slave

Slave lưu lại vị trí binlog (log file + position) cuối cùng đã áp dụng

Slave ghi lại checkpoint trong table mysql.slave_master_info hoặc trong file (tuỳ config).
Khi slave bị tạm ngưng, nó biết mình đã apply đến đâu.

Khi slave kết nối lại với master

Nếu slave bị lỗi lâu, master vẫn giữ binlog đủ lâu để slave lấy lại dữ liệu

Cần config expire_logs_days hoặc binlog_expire_logs_seconds sao cho đủ lớn, tránh bị xoá binlog quá sớm.
Nếu binlog cũ bị xoá trước khi slave kịp lấy, slave sẽ không thể đồng bộ và cần resync toàn bộ (ví dụ dump lại DB master sang slave).

Nếu slave bị mất dữ liệu hoặc crash nặng

Phải làm resync full:
- Tạo bản dump mới từ master (ví dụ mysqldump) hoặc snapshot.
- Restore lên slave.
- Slave bắt đầu replication lại từ đầu (hoặc vị trí mới).

Tóm lại:

Trường hợp lỗi trên slave	Cách xử lý MySQL replication
Tạm mất kết nối, máy slave restart	Slave tự động reconnect, tiếp tục lấy binlog từ vị trí cuối đã apply
Lỗi nhẹ, slave chậm áp dụng binlog	Slave sẽ dần "bắt kịp" khi có kết nối lại
Binlog cũ trên master bị xoá trước khi slave lấy	Cần resync full lại slave bằng dump master
Slave mất dữ liệu, hỏng bảng	Resync full lại slave bằng dump master

Lời khuyên vận hành

Luôn monitor replication lag (thời gian trễ giữa master và slave).

Tăng expire_logs_days đủ lâu để slave không bị mất dữ liệu binlog.

Backup định kỳ, chuẩn bị kịch bản resync full.

Có thể dùng GTID-based replication để quản lý checkpoint dễ hơn và chính xác hơn.

Cảnh Hồ

Tóm lại: