Bài 15: Monitoring và alert cơ bản
Bài này giúp anh hiểu cần monitor gì trên server, alert thế nào cho hữu ích và cách kiểm tra nhanh khi có cảnh báo.
Sau bài này anh sẽ biết:
- Monitoring khác alert như thế nào.
- Những metric cơ bản cần theo dõi.
- Alert nào nên có cho server/web/database.
- Checklist phản ứng khi có cảnh báo.
1. Monitoring là gì?
Monitoring là theo dõi hệ thống qua metric/log/health check. Alert là cảnh báo khi chỉ số vượt ngưỡng cần hành động.
2. Metric cơ bản cần theo dõi
| Nhóm | Metric | Vì sao quan trọng |
|---|---|---|
| CPU | usage, load | Server quá tải |
| RAM | used, available, swap | App có thể bị OOM |
| Disk | used %, inode | Disk đầy làm service lỗi |
| Network | traffic, error | Debug nghẽn mạng |
| Service | up/down, HTTP status | User có truy cập được không |
3. Lệnh kiểm tra thủ công
uptime free -h df -h df -i systemctl --failed curl -I https://example.com journalctl -p err --since "1 hour ago"
4. Alert nên có cho server nhỏ
- Disk used > 85% trong 10 phút.
- Service Nginx/App/Database down.
- HTTP health check fail.
- SSL certificate sắp hết hạn.
- Backup job fail.
5. Tình huống thực tế
Alert disk 90%. Anh kiểm tra
df -h, tìm thư mục lớn bằng du, xác định log/backup/upload tăng bất thường, xử lý tạm thời rồi thêm logrotate/retention.6. Alert tốt và alert xấu
Alert tốt cần có hành động rõ. Ví dụ “Disk /var còn dưới 15%, xem runbook link”. Alert xấu là cảnh báo quá nhiều, không rõ cần làm gì.
7. Checklist khi nhận alert
- Xác nhận alert thật hay false positive.
- Xác định mức ảnh hưởng user.
- Kiểm tra metric/log liên quan.
- Khôi phục dịch vụ nếu cần.
- Ghi lại nguyên nhân và hành động phòng ngừa.
8. Lỗi thường gặp
- Chỉ có dashboard, không có alert.
- Alert quá nhạy gây nhiễu.
- Không monitor backup/SSL.
- Không có người nhận cảnh báo rõ ràng.
Lưu ý production: Alert mà không có runbook thì người trực vẫn phải đoán. Mỗi alert quan trọng nên có hướng xử lý.
9. Bài tập
- Viết danh sách 5 alert cần có cho một website.
- Chạy các lệnh kiểm tra CPU/RAM/disk/service.
- Viết runbook ngắn cho alert disk 90%.
Hoàn thành Giai đoạn 2: Anh đã có nền tảng network, dịch vụ hệ thống, backup và monitoring để bước sang production readiness.
