Good case
精彩案例

四块SCSI硬盘RAID1+0阵列组成功恢复


        客户送来4块盘SCSI硬盘,客户说做了两组raid1,现在raid状态里显示有3块盘offline。


        检测发现如果两组盘分别作RAID1,现在也应该有一组逻辑盘可以正常工作,但是事实并不是这样。把每块硬盘单独接到阵列卡上,比较之后发现1、3号盘及2、4号盘每组都有相同性,但后面有大量不一致的数据。1号盘及2号盘里有分区表,每个分区表里的描述都大约指出原逻辑盘分区总和大约68G。莫非是两组RAID0?但1、3号及2、4号均有部分完全相同的数据,这不科学。那就是RAID1+0(即两两做RAID1,再做RAID0,这种安全级别高,客户是集成商做的,可能性最大),一段时间内,两组RAID1中先后都有一块硬盘离线(此后就相当于RAID0,再不能提供任何冗余)。再后来,又有一块硬盘离线,系统崩溃。这种情况非常符合RAID里的表现。也有可能是RAID0+1(即两两做RAID0,再做RAID1,这种不太好,推断可能性不大)。这样一来的话除1、3组成的RAID,没有任何错误,重组数据发现分区都在、文件访问也正常。奇葩的是当验证的时候出现了问题,这都是两年前的数据!!!


        难道是用户做了RAID0+1,结果组成RAID1中的其中一组RAID0中有一块盘离线(应该为1或3),导致整个RAID0离线(两块离线了),之后一直以单RAID0的方式工作(想起来竟然两年有余,汗!够粗心的),直到最近,剩下的一组RAID0中有一块盘离线,RAID彻底瘫痪。而且用户使用的RAID卡比较低端,无法安全缓冲数据,最后离线时,因数据部分未写入等原因导致文件系统一致性有问题。当重新组织3及5号盘,修正错误后数据完美恢复出来了,这次数据恢复可谓是一波三折。


温馨提示:


        RAID因硬盘离线,或其他原因导致不能工作时,在数据恢复服务之前,应该如何紧急应对,避免数据风险?


        RAID的损坏有时候是不可避免的,那出现问题后,该如何做紧急应对对于每个存储管理员而言是至关重要的。


通常出现此类问题后,需要:


        1、不可频繁开机,试图激活RAID。


        2、不可进入RAID管理程序,随意进行强制上    线、重建(REBUILD)、初始化等操作。


        3、不可随意重新拔插硬盘,试图激活RAID。


        4、出现阵列故障开机后,发现RAID里所有硬盘或大多数硬盘读写指示灯忙灯,且有异于平常,需要尽快断电,不可再贸然开机。


        5、尽可能断电后,将所有硬盘按原盘次序标号,然后参考“RAID损坏后 对数据的完整备份”一文进行安全备份。


        6、寻求专业数据恢复机构帮助(哈尔滨海鹏数据恢复中心)。