您现在的位置是:首页 > 经验记录>服务器相关>ceph-记一次OSD坏盘测试 网站首页 服务器相关
ceph-记一次OSD坏盘测试
一:坏盘测试
处理:1.14服务器直接拔掉3块硬盘
测试前状态:
对象存储内文件如下
块存储内文件如下
Pool池及对象存储桶状态如下:
Down掉3个osd,
如果看不到上图这个监控网站数据,可以如下这么操作↓:
方法一:
1:到换盘的服务器 lsblk 查看当前硬盘
2:使用 ll /var/lib/ceph/osd/ceph-*/block 查看osd挂载配置对比找到挂掉的osd是哪几个
方法二:
ceph osd tree | grep -i down 查看down掉的osd
(1)停止数据均衡
[root@ceph113 my-cluster]# for i in noout nobackfill norecover noscrub nodeep-scrub;do ceph osd set $i;done
(2)定位i故障盘
[root@ceph113 my-cluster]# ceph osd tree | grep -i down
13 hdd 5.45749 osd.13 down 0 1.00000
22 hdd 5.45749 osd.22 down 0 1.00000
31 hdd 5.45749 osd.31 down 0 1.00000
(3)卸载故障的节点
[root@ceph113 my-cluster]# umount /var/lib/ceph/osd/ceph-13
[root@ceph113 my-cluster]# umount /var/lib/ceph/osd/ceph-22
[root@ceph113 my-cluster]# umount /var/lib/ceph/osd/ceph-31
(4)从crush map 中移除osd
[root@ceph113 my-cluster]# ceph osd crush remove osd.13
removed item id 13 name 'osd.13' from crush map
[root@ceph113 my-cluster]# ceph osd crush remove osd.22
removed item id 22 name 'osd.22' from crush map
[root@ceph113 my-cluster]# ceph osd crush remove osd.31
removed item id 31 name 'osd.31' from crush map
(5)删除故障osd的密钥
[root@ceph113 my-cluster]# ceph auth del osd.13
updated
[root@ceph113 my-cluster]# ceph auth del osd.22
updated
[root@ceph113 my-cluster]# ceph auth del osd.31
updated
(6)删除故障osd
[root@ceph113 my-cluster]# ceph osd rm 13
removed osd.13
[root@ceph113 my-cluster]# ceph osd rm 22
removed osd.22
[root@ceph113 my-cluster]# ceph osd rm 31
removed osd.31
[root@ceph113 my-cluster]# ceph osd tree //查看是否已卸载down掉的osd
(7)删除故障osd文件
[root@ceph113 my-cluster]# sudo rm -rf /var/lib/ceph/osd/ceph-13
[root@ceph113 my-cluster]# sudo rm -rf /var/lib/ceph/osd/ceph-22
[root@ceph113 my-cluster]# sudo rm -rf /var/lib/ceph/osd/ceph-31
(8)检测数据是否有缺少/缺损
这一次的3块磁盘拔除没有造成数据丢失,但是不确认再多拔几块盘是否会有数据丢失,如果作为正式使用且数据比较重要的话,麻烦请专业的ceph维护人员进行处理
二:raid foreign clear测试/跳过