Hướng dẫn triển khai Proxmox VE Multi-Tenancy với Ceph, SDN và HA
Tài liệu hướng dẫn triển khai Proxmox VE 3 node theo mô hình multi-tenancy, có cluster, VLAN-aware bridge, SDN, Ceph, HA, Pool, User và Permission cho từng tenant.
Mục tiêu bài viết
- Triển khai cụm Proxmox VE 3 node cho môi trường multi-tenancy.
- Cấu hình cluster, bridge VLAN-aware, SDN, Ceph, HA.
- Tách tenant RAPBANK/TELTEC bằng Pool, User, Permission, SDN Zone và Storage.
- Có checklist nghiệm thu và lưu ý lỗi thường gặp.
1. Cài Proxmox VE cho 3 node
Mô hình tham chiếu dùng 3 node Proxmox:
| Node | Hostname | IP MGMT | Gateway |
|---|---|---|---|
| Node 01 | node1.xroad.local | 172.16.50.20/24 | 172.16.50.1 |
| Node 02 | node2.xroad.local | 172.16.50.21/24 | 172.16.50.1 |
| Node 03 | node3.xroad.local | 172.16.50.22/24 | 172.16.50.1 |
- Gắn ISO Proxmox VE 9.x qua iLO hoặc USB boot.
- Chọn Install Proxmox VE.
- Chọn đúng SSD dành cho OS. Không chọn nhầm ổ Ceph SSD/HDD.
- Filesystem: ext4 để ổn định, hoặc ZFS RAID0 nếu muốn snapshot tốt hơn.
- Đặt root password đủ mạnh và email quản trị.
- Cấu hình hostname/IP/gateway theo bảng trên.
- Cài xong reboot và đăng nhập console bằng root.
Cấu hình bridge VLAN-aware cho management
auto lo
iface lo inet loopback
iface nic0 inet manual
auto vmbr0
iface vmbr0 inet manual
bridge-ports nic0
bridge-stp off
bridge-fd 0
bridge-vlan-aware yes
bridge-vids 2-4094
auto vmbr0.50
iface vmbr0.50 inet static
address 172.16.50.20/24
gateway 172.16.50.1
Với node2/node3, đổi IP thành 172.16.50.21 và 172.16.50.22.
ping -c 4 172.16.50.1 # Web UI https://172.16.50.20:8006
2. Tạo Proxmox Cluster
- Trên node1 vào Datacenter → Cluster.
- Chọn Create Cluster.
- Cluster Name:
XROAD. - Cluster Network: chọn mạng MGMT. Production nên có đường dự phòng cho HA/corosync nếu thiết kế cho phép.
- Sau khi tạo xong, vào Join Information và copy thông tin join.
- Trên node2/node3 vào Datacenter → Cluster → Join Cluster.
- Nhập password node1 và chọn IP MGMT của từng node.
- Join xong reload node1, thấy 3 host dưới Datacenter là thành công.
Lưu ý: Trước khi join cluster, hostname, IP, DNS/NTP giữa các node phải ổn định. Lỗi time/DNS có thể làm cluster hoạt động không ổn định.
3. Cấu hình Network, VLAN và SDN
Cấu hình LACP uplink và bridge VLAN-aware
# LACP uplink
auto bond0
iface bond0 inet manual
bond-slaves nic1 nic2
bond-miimon 100
bond-mode 802.3ad
# Bridge VLAN-aware
auto vmbr1
iface vmbr1 inet manual
bridge-ports bond0
bridge-stp off
bridge-fd 0
bridge-vlan-aware yes
bridge-vids 10 20 30 40 50
# Ceph public network
auto bond0.10
iface bond0.10 inet static
address 172.16.10.22/24
VLAN mapping tham chiếu
| VLAN | Proxmox | Mục đích |
|---|---|---|
| 50 | vmbr0 | MGMT |
| 10 | vmbr1.10 | Ceph Public |
| 20 | vmbr1.20 | Ceph Rebalance/Cluster |
| 30 | vmbr1.30 | RAPBANK |
| 40 | vmbr1.40 | TELTEC |
Tạo SDN Zone và vNET
- Vào Datacenter → SDN → Zones → Create.
- Tạo zone:
RAPBANKvàTELTEC. - Vào Datacenter → SDN → vNET → Create.
- Ví dụ: Name
RBvLAN30, AliasAPP, ZoneRAPBANK, Tag30. - Tạo tương tự các VLAN còn lại cho RAPBANK/TELTEC.
Không được trùng VLAN tag giữa các tenant nếu thiết kế yêu cầu tách biệt.
4. Cài và cấu hình Ceph
- Trên từng node vào Node → Ceph → Install.
- Chọn repository no-subscription nếu môi trường không dùng enterprise repo.
- Vào Datacenter → Ceph → Configuration → Init.
- Public Network:
172.16.10.0/24. - Cluster Network:
172.16.20.0/24. - Tạo MON và MGR trên node2/node3 để đủ HA.
Chuẩn bị disk trước khi tạo OSD
# kiểm tra disk lsblk # nếu disk từng dùng, cần clean cẩn thận wipefs -a /dev/sdX sgdisk --zap-all /dev/sdX # verify lại lsblk -f
Cực kỳ cẩn thận: Không chọn nhầm ổ OS khi tạo OSD. Trước khi wipe disk phải xác nhận bằng serial/size/bay.
Tạo pool SSD/HDD và add storage
- Tạo CRUSH rule cho SSD và HDD nếu cần tách loại ổ.
- Tạo pool
pool-ssd: size 2, min size 1, PG 128, crush rule SSD. - Tạo pool
pool-hdd: size 2, min size 1, PG 128, crush rule HDD. - Vào Datacenter → Storage → Add → RBD.
- Add
pool-ssdvàpool-hdd.
Tạo CephFS để lưu image/ISO nếu cần
- Node1 → Ceph → CephFS.
- Tạo Metadata Server trên 3 node.
- Create CephFS.
- Datacenter → Storage → Add → CephFS.
5. Bật HA
- Vào Datacenter → HA.
- Enable HA.
- Add VM quan trọng vào HA.
- Kiểm tra VM có thể restart trên node khác khi node lỗi.
HA chỉ có ý nghĩa khi storage/network/cluster hoạt động ổn định. Đừng bật HA khi Ceph health đang lỗi.
6. Multi-tenancy trên Proxmox
Tạo Resource Pool
- Vào Datacenter → Pools.
- Create Pool:
RAPBANK. - Create Pool:
TELTEC.
Tạo user local
- Vào Datacenter → Permissions → Users.
- Add user:
user_rb@pve. - Add user:
user_tt@pve.
Gán quyền theo Pool
| Path | User | Role | Ý nghĩa |
|---|---|---|---|
| /pool/RAPBANK | user_rb@pve | PVEVMAdmin | Quản trị VM trong Pool RAPBANK |
| /pool/TELTEC | user_tt@pve | PVEVMAdmin | Quản trị VM trong Pool TELTEC |
| /storage/local hoặc ISO storage | User tenant | PVEDatastoreUser | Dùng ISO/tạo disk theo phạm vi |
| /sdn/zone/RAPBANK | user_rb@pve | PVESDNUser | Dùng SDN zone RAPBANK |
| /sdn/zone/TELTEC | user_tt@pve | PVESDNUser | Dùng SDN zone TELTEC |
Đưa VM vào Pool
- Chọn VM cần gán.
- Vào Options.
- Dòng Pool → Edit → chọn RAPBANK hoặc TELTEC.
- Đăng nhập bằng user tenant để kiểm tra VM có hiện đúng phạm vi không.
7. Bài test nghiệm thu
- Đăng nhập
user_rb@pve, xác nhận chỉ thấy VM/Pool RAPBANK. - Tạo VM test trong RAPBANK, chọn đúng SDN/vNET RAPBANK.
- Làm tương tự với TELTEC.
- Kiểm tra user RB không dùng được zone TELTEC.
- Kiểm tra storage permission: user chỉ dùng storage được cấp.
- Di chuyển/tắt node để kiểm tra HA với VM test.
- Kiểm tra Ceph health sau test:
ceph -s.
8. Checklist triển khai
- Cài Proxmox VE trên 3 node, không chọn nhầm ổ Ceph.
- Cấu hình IP MGMT và bridge VLAN-aware.
- Tạo cluster XROAD và join node2/node3.
- Cấu hình bond/LACP/trunk VLAN trên switch và Proxmox.
- Tạo SDN Zone/vNET cho RAPBANK và TELTEC.
- Cài Ceph trên cả 3 node.
- Init Ceph với public/cluster network đúng.
- Tạo MON/MGR đủ 3 node.
- Clean disk đúng cách và tạo OSD.
- Tạo pool SSD/HDD, add RBD storage.
- Tạo CephFS nếu cần lưu ISO/image.
- Bật HA và add VM quan trọng.
- Tạo Pool/User/Permission cho tenant.
- Chạy bài test nghiệm thu quyền, network, storage, HA.
9. Lỗi thường gặp
| Lỗi | Biểu hiện | Cách xử lý |
|---|---|---|
| Chọn nhầm disk | Mất OS hoặc OSD sai | Đối chiếu serial/size/bay trước khi wipe/add OSD |
| Sai VLAN/LACP | VM/SDN/Ceph không thông | Kiểm tra trunk switch, bond, bridge-vlan-aware |
| Ceph network sai | Ceph health warn, rebalance chậm | Kiểm tra public/cluster network và route |
| Quyền tenant quá rộng | User thấy VM/storage không thuộc tenant | Rà lại path permission và role |
| HA bật khi storage lỗi | Failover không ổn định | Ổn định Ceph trước khi bật HA |
