Quản lý và Vận hành Ceph Cluster

Trong các hệ thống lưu trữ phân tán hiện đại, Ceph là một trong những giải pháp mạnh mẽ và phổ biến nhất nhờ khả năng mở rộng, độ tin cậy và hiệu năng vượt trội. Tuy nhiên, sau khi triển khai thành công, bài toán quản lý và vận hành Ceph Cluster lại là thử thách lớn hơn nhiều.

Bài viết này sẽ giúp bạn nắm rõ cách giám sát, quản lý, mở rộng và xử lý sự cố trong Ceph, đảm bảo hệ thống hoạt động ổn định và bền vững.

Mục tiêu của quản lý Ceph Cluster

Đảm bảo tính sẵn sàng (availability) của hệ thống.
Giữ cho dữ liệu an toàn và toàn vẹn (data integrity).
Duy trì hiệu năng ổn định ngay cả khi hệ thống mở rộng.
Phát hiện và xử lý sự cố kịp thời.
Lập kế hoạch mở rộng dung lượng và tài nguyên.

Giám sát Ceph Cluster

1. Công cụ giám sát mặc định của Ceph

Ceph status (ceph -s): Cung cấp trạng thái tổng quan của cluster.
Ceph health detail (ceph health detail): Hiển thị chi tiết cảnh báo, lỗi.
Ceph osd tree (ceph osd tree): Kiểm tra cấu trúc OSD và CRUSH Map.

Ví dụ:

ceph -s
ceph osd df tree
ceph df

2. Dashboard Web UI

Ceph cung cấp Ceph Dashboard, một giao diện web trực quan giúp:

Theo dõi OSD, MON, MGR, MDS, RGW.
Giám sát IO, dung lượng, pool, và health status.
Quản lý user, pool và các tác vụ cơ bản.

Cài đặt Dashboard:

ceph mgr module enable dashboard
ceph dashboard create-self-signed-cert
ceph dashboard set-login-credentials admin mypassword

3. Kết hợp với hệ thống giám sát bên ngoài

Prometheus + Grafana: Thu thập metrics từ Ceph và hiển thị trên dashboard trực quan.
Alertmanager: Tự động cảnh báo qua email, Slack, Telegram khi cluster gặp sự cố.

Quản lý tài nguyên Ceph

1. Quản lý OSD (Object Storage Daemon)

Thêm OSD mới:

ceph-volume lvm create --data /dev/sdX

Thay thế OSD hỏng:
- Mark OSD out → Remove OSD → Add OSD mới.
Theo dõi trạng thái OSD:

ceph osd tree
ceph osd df

✅ 2. Quản lý Pool

Tạo Pool:

ceph osd pool create mypool 128

Đặt Replication hoặc EC (Erasure Coding):

ceph osd pool set mypool size 3
ceph osd pool create ecpool 128 erasure

Xem thông tin Pool:

ceph osd pool ls detail

✅ 3. Quản lý RADOS Gateway (RGW)

Tạo user S3/Swift:

radosgw-admin user create --uid="user1" --display-name="User One"

Quản lý bucket, quota, access key.

✅ 4. Quản lý Metadata Server (MDS)

MDS quan trọng cho CephFS.
Khởi tạo MDS:

ceph-deploy mds create ceph-node1

Theo dõi trạng thái:

ceph fs status

Mở rộng Ceph Cluster

1. Thêm node mới

Cài đặt Ceph packages lên node mới.
Thêm node vào cluster:

ceph-deploy install new-node
ceph-deploy admin new-node

2. Thêm OSD

Gắn thêm ổ cứng mới vào node.
Dùng ceph-volume để tạo OSD.

3. Mở rộng MON/MGR

Để tăng tính sẵn sàng, thêm nhiều MON và MGR.

ceph-deploy mon add ceph-node2
ceph-deploy mgr create ceph-node2

4. Mở rộng RGW

Triển khai nhiều RGW để cân bằng tải.
Sử dụng HAProxy hoặc Nginx làm load balancer.

Bảo trì và xử lý sự cố

1. Thay thế OSD hỏng

ceph osd out osd.X
ceph osd crush remove osd.X
ceph auth del osd.X
ceph osd rm osd.X

2. Khôi phục dữ liệu khi OSD out

Ceph sẽ tự động replicate dữ liệu sang OSD khác.
Có thể kiểm tra tiến trình recovery:

ceph -s
ceph health detail

3. Xử lý MON bị mất

Nếu mất quorum, cần dựng lại MON từ backup hoặc từ keyring.
Khôi phục:

ceph-mon -i mon1 --mkfs --keyring /etc/ceph/ceph.mon.keyring

4. Kiểm tra log khi sự cố

Log Ceph: /var/log/ceph/
Log dịch vụ: systemctl status ceph-osd@X

Bảo mật và tối ưu Ceph Cluster

1. Bảo mật

Sử dụng cephx authentication để bảo mật client–cluster.
Kích hoạt SSL/TLS cho RGW và Dashboard.
Phân quyền user cụ thể khi truy cập pool.

2. Tối ưu hiệu năng

Sử dụng SSD/NVMe cho journal/WAL/DB.
Dùng EC (Erasure Coding) cho dữ liệu ít truy cập.
Dùng replication cho dữ liệu quan trọng, cần tốc độ.
Tối ưu CRUSH Map để dữ liệu phân bố đồng đều.

3. Backup và DR (Disaster Recovery)

Snapshot pool:

rados mksnap mysnap

Sử dụng RBD mirroring để replicate block device sang cluster khác.
Replication RGW qua multisite.

Kinh nghiệm vận hành thực tế

Luôn đảm bảo monitoring hoạt động (Prometheus + Grafana).
Đặt ngưỡng cảnh báo CPU, RAM, Disk I/O.
Chạy thử nghiệm recovery để kiểm tra tính ổn định.
Lập kế hoạch mở rộng cluster theo nhu cầu tăng trưởng.
Định kỳ kiểm tra PG (Placement Group) để tránh mất cân bằng.

Kết luận

Quản lý và vận hành Ceph Cluster là một công việc phức tạp, đòi hỏi sự am hiểu về kiến trúc, giám sát liên tục, bảo mật và xử lý sự cố nhanh chóng. Khi nắm rõ các công cụ và quy trình trên, bạn có thể đảm bảo hệ thống Ceph hoạt động ổn định – an toàn – hiệu quả trong môi trường sản xuất.