您现在的位置是:首页 > 经验记录>服务器相关>ceph-记一次OSD坏盘测试 网站首页 服务器相关

ceph-记一次OSD坏盘测试

一:坏盘测试

处理:1.14服务器直接拔掉3块硬盘

测试前状态:

image.png

对象存储内文件如下

image.png

image.png

块存储内文件如下

image.png

Pool池及对象存储桶状态如下:

image.png

 

Down掉3个osd,

image.png

如果看不到上图这个监控网站数据,可以如下这么操作

方法一:

1:到换盘的服务器 lsblk 查看当前硬盘

2:使用 ll /var/lib/ceph/osd/ceph-*/block 查看osd挂载配置对比找到挂掉的osd是哪几个

方法二:

ceph osd tree | grep -i down 查看down掉的osd

 

1)停止数据均衡
[root@ceph113 my-cluster]#  for i in noout nobackfill norecover noscrub nodeep-scrub;do ceph osd set $i;done

2)定位i故障盘
[root@ceph113 my-cluster]#  ceph osd tree | grep -i down
13   hdd   5.45749         osd.13     down        0 1.00000

22   hdd   5.45749         osd.22     down        0 1.00000

31   hdd   5.45749         osd.31     down        0 1.00000

3)卸载故障的节点
[root@ceph113 my-cluster]#  umount /var/lib/ceph/osd/ceph-13
[root@ceph113 my-cluster]# umount /var/lib/ceph/osd/ceph-22

[root@ceph113 my-cluster]# umount /var/lib/ceph/osd/ceph-31

4)从crush map 中移除osd
[root@ceph113 my-cluster]# ceph osd crush remove osd.13
removed item id 13 name 'osd.13' from crush map
[root@ceph113 my-cluster]# ceph osd crush remove osd.22
removed item id 22 name 'osd.22' from crush map

[root@ceph113 my-cluster]# ceph osd crush remove osd.31
removed item id 31 name 'osd.31' from crush map

 

5)删除故障osd的密钥
[root@ceph113 my-cluster]# ceph auth del osd.13
updated
[root@ceph113 my-cluster]# ceph auth del osd.22
updated

[root@ceph113 my-cluster]# ceph auth del osd.31
updated

 

6)删除故障osd

[root@ceph113 my-cluster]# ceph osd rm 13

removed osd.13

[root@ceph113 my-cluster]# ceph osd rm 22

removed osd.22

[root@ceph113 my-cluster]# ceph osd rm 31

removed osd.31

 

[root@ceph113 my-cluster]# ceph osd tree //查看是否已卸载down掉的osd

 

(7)删除故障osd文件

[root@ceph113 my-cluster]# sudo rm -rf /var/lib/ceph/osd/ceph-13

 

[root@ceph113 my-cluster]# sudo rm -rf /var/lib/ceph/osd/ceph-22

 

[root@ceph113 my-cluster]# sudo rm -rf /var/lib/ceph/osd/ceph-31

 

  (8)检测数据是否有缺少/缺损

这一次的3块磁盘拔除没有造成数据丢失,但是不确认再多拔几块盘是否会有数据丢失,如果作为正式使用且数据比较重要的话,麻烦请专业的ceph维护人员进行处理

 

 

二:raid foreign clear测试/跳过

 



文章评论

未开放
Top