Bài 45: Checklist vận hành production

Chốt ý nhanh

Chủ đề	Điểm cần nhớ
Checklist vận hành production	Giúp biến kinh nghiệm rời rạc thành quy trình lặp lại, giảm phụ thuộc vào trí nhớ cá nhân.
Giá trị thật	Nằm ở việc giảm sai sót khi deploy, xử lý sự cố, backup, monitoring và bảo trì định kỳ.
Tư duy đúng	Checklist không phải giấy tờ hình thức; nó là guardrail cho lúc con người mệt, vội hoặc áp lực.

Phần thực hành mở rộng: biến production checklist thành công cụ sống còn của đội vận hành

Khi hệ thống còn nhỏ, nhiều người dựa vào trí nhớ. Nhưng càng về sau, chính những việc tưởng nhỏ như quên health check sau deploy hay quên test restore định kỳ mới gây ra sự cố khó chịu. Checklist tốt giúp đội vận hành giữ chất lượng tối thiểu ngay cả trong ngày bận nhất.

Lab 1: Tạo checklist trước deploy

xác nhận version/commit
đọc diff thay đổi
backup hoặc snapshot nếu cần
xác nhận cửa sổ triển khai và người chịu trách nhiệm

Bài tập này giúp người học thấy deploy tốt bắt đầu trước khi gõ lệnh.

Lab 2: Tạo checklist sau deploy

service đã lên chưa
log có lỗi mới không
health endpoint có pass không
dashboard/alert có tín hiệu bất thường không

Nhiều sự cố xảy ra không phải do deploy fail hoàn toàn, mà do deploy xong nhưng không ai nhìn lại.

Lab 3: Tạo checklist backup và restore drill

backup job có chạy không
file backup có hợp lệ không
đã restore test gần đây chưa
backup lưu ngoài máy chính chưa

Đây là phần bắt buộc nếu muốn checklist thật sự có giá trị với production.

Lab 4: Tạo checklist bảo trì định kỳ hàng tuần/tháng

cập nhật bảo mật
kiểm tra dung lượng disk
rà alert nhiễu
review user/quyền truy cập
đánh giá xu hướng tài nguyên

Qua đây anh có thể gom những thói quen tốt thành lịch vận hành rõ ràng.

Lab 5: Viết checklist khi có incident

xác nhận sự cố thật hay giả
ghi timeline
chỉ định người điều phối
ưu tiên mitigation trước
mở postmortem sau khi ổn định

Tình huống thực tế

Một đội rất giỏi kỹ thuật nhưng mỗi người làm theo kiểu riêng. Lúc bình thường vẫn ổn, nhưng khi deploy đêm hoặc incident áp lực cao, việc thiếu checklist khiến cùng một lỗi nhỏ lặp đi lặp lại: quên backup, quên kiểm tra endpoint, quên ghi timeline, quên rollback path.

Lỗi phổ biến

Checklist dài quá nên không ai dùng.
Viết checklist một lần rồi không cập nhật theo thực tế.
Checklist không gắn với người chịu trách nhiệm và thời điểm rõ ràng.
Xem checklist như thủ tục thay vì công cụ giảm rủi ro.

Kết bài

Kết thúc phase 5, anh đã đi thêm một chặng rất thực chiến: từ networking, storage, security và GitOps trong Kubernetes, sang vận hành Ceph, MinIO, OpenStack, tuning Linux, security audit và cuối cùng là checklist production. Nếu chuỗi bài này được học nghiêm túc, người học sẽ bắt đầu có dáng của một người vận hành hệ thống biết nhìn rủi ro, biết chuẩn bị trước và biết làm việc có kỷ luật hơn nhiều.