Bài 45: Checklist vận hành production

Bài 45: Checklist vận hành production

Bài này chi tiết hóa Production Operations Checklist theo hướng thực hành chuyên sâu: có lệnh kiểm tra, tình huống production, checklist và bài tập.

Sau bài này anh sẽ biết:

  • Production Operations Checklist nằm ở đâu trong hạ tầng production.
  • Các thành phần và lệnh kiểm tra quan trọng.
  • Cách debug khi có lỗi thực tế.
  • Checklist an toàn trước khi thao tác.

1. Bối cảnh thực tế

Production Operations Checklist là nhóm kiến thức chuyên sâu hơn. Mục tiêu không phải học thuộc lệnh, mà là biết kiểm tra đúng lớp, đọc đúng trạng thái và tránh thao tác gây mất dữ liệu hoặc downtime.

2. Khái niệm cần nắm

  • Control plane / data plane: phần điều khiển và phần chạy tải thật.
  • Stateful vs stateless: ứng dụng có dữ liệu bền vững cần xử lý cẩn thận hơn.
  • Health: trạng thái tổng thể phải nhìn từ nhiều nguồn: service, log, metric, endpoint.
  • Blast radius: phạm vi ảnh hưởng nếu thao tác sai.

3. Lab thực hành / lệnh kiểm tra

Mục tiêu: dùng lệnh để quan sát trạng thái, không sửa production khi chưa hiểu.
systemctl --failed
df -h
free -h
ss -tulpn
journalctl -p err --since "24 hours ago"
certbot certificates 2>/dev/null || true
crontab -l
# kiểm tra backup/monitoring tùy hệ thống

4. Tình huống thực tế

Trước khi bàn giao hệ thống, anh cần tài liệu service, port, backup, restore, monitoring, alert, quyền truy cập và quy trình rollback.

5. Quy trình debug an toàn

  1. Xác định triệu chứng: lỗi gì, xảy ra từ khi nào, ảnh hưởng ai.
  2. Kiểm tra trạng thái tổng quan bằng lệnh read-only trước.
  3. Đọc event/log liên quan.
  4. Khoanh vùng: network, storage, compute, config hay application.
  5. Chỉ thay đổi một thứ tại một thời điểm.
  6. Kiểm tra lại health sau mỗi thay đổi.
  7. Ghi lại nguyên nhân và bài học.

6. Lỗi thường gặp

  • Thấy cảnh báo là chạy lệnh sửa ngay mà không đọc nguyên nhân.
  • Không phân biệt lỗi control plane và lỗi workload.
  • Xóa resource/volume/secret khi chưa backup.
  • Không kiểm tra quyền truy cập và audit log.
Lưu ý production: Với Kubernetes, storage, cloud và security, lệnh xóa/sửa sai có thể ảnh hưởng nhiều workload. Ưu tiên lệnh xem trạng thái trước.

7. Checklist

  • Đã dùng lệnh read-only để kiểm tra.
  • Đã xác định resource/service bị ảnh hưởng.
  • Đã đọc log/event trước khi sửa.
  • Đã có backup/snapshot nếu liên quan dữ liệu.
  • Đã có phương án rollback hoặc escalation.

8. Bài tập

  1. Dựng lab hoặc dùng môi trường test.
  2. Chạy các lệnh kiểm tra trong bài.
  3. Ghi lại output bình thường.
  4. Mô phỏng một lỗi nhỏ nếu an toàn.
  5. Viết runbook 5 bước cho sự cố tương tự.

Tác giả: Mạnh Hoàng

Tôi là Hoàng Mạnh, người sáng lập blog SysadminSkills.com. Tôi viết về quản trị hệ thống, bảo mật máy chủ, DevOps và cách ứng dụng AI để tự động hóa công việc IT. Blog này là nơi tôi chia sẻ những gì đã học được từ thực tế – đơn giản, ngắn gọn và áp dụng được ngay.

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *