服务器存储瘫痪数据恢复成功案例-服务器数据恢复_服务器

服务器存储瘫痪数据恢复成功案例-服务器数据恢复

一、服务器数据恢复失败描述

机房突然停电导致整个存储瘫痪，加电后存储无法使用。经用户工程师诊断，认为存储阵列因断电损坏。

整个存储是由12块日立硬盘(3TSAS硬盘)组成的RAID-6磁盘阵列，分成一个卷，分配给多个VmwareESXI主机共享存储。全卷存储了大量的Windows虚拟机，虚拟机基本都是模板创建的，所以系统盘都统一到160G。数据磁盘大小不确定，所有数据磁盘都处于精简模式。

二。服务器数据恢复备份数据

将故障存储的所有磁盘和备份sss数据的目标磁盘连接到WindowsServer2008服务器。所有磁盘都设置为离线(只读)状态，连接状态如下图WinHex(专业工具)下所示:(HD1-HD12为目标备份磁盘，HD13-HD24为源故障磁盘，型号为HUS723030ALS640):

图1:

使用WinHex在底层模式下读取HD13-HD24的扇区，发现了大量损坏的扇区。初步判断可能是这个硬盘的读取机制和普通硬盘不一样。试着换 *** 作主机，HBA卡，扩展柜，Linux *** 作系统，都显示同样的故障。联系用户的工程师，对方回应这个控制器对磁盘没有特殊要求。

用专业工具检测损坏硬盘扇区的分布规律，发现如下规律:

1.损坏扇区的分布是256个扇区。2.除了损坏扇区段的起始位置不固定之外，以下损坏扇区由2816个扇区分隔。

磁盘所有损坏的扇区分布在下表中(仅列出前3个损坏的扇区):

临时编写了一个小程序来绕过每个磁盘的损坏扇区。使用此程序镜像所有磁盘数据。

三。服务器数据恢复故障分析

1.分析损坏的扇区。

对损坏扇区的仔细分析表明，损坏扇区有规律地出现。

-每个受损扇区的总面积为256。-损坏的扇区分布在固定区域中，并且每11个跳过的256个扇区遇到一个坏的256个扇区。-损坏扇区的位置总是存在于RAID的P-check或Q-check区域。-只有第10块硬盘有自然坏道。

2.分析分区大小。

通过分析HD13、HD23、HD24的0-2扇区可以看出，分区大小为52735352798扇区，按照RAID-6模式计算，除以9，等于5859483644扇区，与1049524的物理硬盘大小和DS800控制器中预留的RAID信息区一致。同时根据物理硬盘底层性能，分区表大小为512字节，后面没有8字节校验，大量0扇区也没有8字节校验。所以存储中常用的DA技术(520字节扇区)在原存储中没有启用。

分区大小如下图所示(GPT分区表条目最底层显示，彩色部分显示分区大小，单位为512字节扇区，64bit):

图2:

四。正在重组RAID

1.分析RAID结构。

采用标准的RAID-6阵列进行存储，然后只需要分析RAID成员的数量和RAID的趋势就可以重组RAID。

-分析RAID条带大小

整个存储被划分为一个大卷，并分布到多个ESXI进行共享存储，因此该卷的文件系统必须是VMFS文件系统。此外，大量Windows虚拟机存储在VMFS卷中。Windows虚拟机大多使用NTFS文件系统，所以可以根据NTFS中MFT的顺序来分析RAID条带的大小和RAID的走向。

-分析RAID中是否有丢弃的磁盘。

镜像所有磁盘。发现最后一块硬盘没有其他硬盘坏轨多。有大量未损坏的扇区，大部分都是0。所以可以判断这个硬盘是热备盘。

2.重组突袭

根据分析出来的RAID结构重组RAID，就可以看到目录结构了。但我不确定是不是最新的状态。测试了几个虚拟机，发现有些虚拟机是正常的，但是很多虚拟机有数据异常。初步判断RAID中有掉盘，然后依次踢出RAID中的每个磁盘，然后检查刚才的数据异常，但是失败。仔细分析底层数据后，发现问题不在RAID级别，而在VMFS文件系统。如果VMFS文件系统大于16TB，还会有一些其他记录的信息，所以在构建RAID时需要跳过这些记录的信息。重新整理一遍RAID，检查一下之前数据异常的地方，就可以匹配了。其中一个虚拟机已通过验证。将所有磁盘添加到RIAD后，可以启动这个虚拟机，但是当磁盘丢失时会出现问题。所以最好判断整个RAID处于不缺盘的状态。

验证数据

1.验证虚拟机；验证用户的重要虚拟机，发现大部分虚拟机都可以开启，可以进入登录界面。有些虚拟机有启动蓝屏或启动检测盘，但都可以在光盘修复后启动。一些虚拟机现象按如下方式打开:

图3:

2.验证数据库；验证重要虚拟机中的数据库，发现所有数据库都正常。其中一个数据库，根据用户的描述，缺少了一些数据，但是仔细查了一下，发现数据库中并不存在这些数据。通过查询主数据库中的系统视图，我们可以找到所有原始数据库信息，如下所示:

图4:

3.检查整个VMFS卷是否完整；由于虚拟机数量众多，如果每个都进行验证，将需要很长时间，因此我们测试整个VMFS卷。在检测VMFS卷的过程中，发现部分虚拟机或虚拟机文件损坏。该列表如下:

图5:

六。正在恢复数据

1.生成数据；天下数据工程师与客户沟通，描述了目前的恢复情况。用户验证了几个重要的虚拟机后，用户反应恢复的数据可以接受，然后世界数据工程师马上开始准备恢复所有数据。

首先准备好目标磁盘，用一个dellMD1200和11个3T硬盘组成RAID阵列。然后，重组后的RAID数据会镜像到目标阵列上。然后，使用专业工具UFS对整个VMFS文件系统进行分析。

2.尝试装入恢复的VMFS卷；将恢复的VMFS卷连接到我们虚拟化环境中的ESXI5.5主机，并尝试将其装载到ESXI5.5环境中。但是，由于版本原因(客户的ESXI主机版本为5.0)或VMFS本身损坏，VMFS装载不成功。尝试使用ESXI命令装载VMFS卷失败，因此放弃了VMFS卷。

七。数据移交

由于时间紧迫，我们将安排来自世界各地的数据工程师将MD1200阵列上的数据带到用户现场。然后使用专业工具“UFS”依次导出VMFS卷中的虚拟机。

1.通过HBA卡将MD1200阵列上的数据连接到用户的VCenterserver。

2.在VCenterserver上安装“UFS”工具，然后使用“UFS”工具解释VMFS卷。

3.使用“UFS”工具将VMFS卷中的虚拟机导入VCenterserver。

4.使用VCenter的上传功能将虚拟机上传到ESXI的存储。

5.然后，将上传的虚拟机添加到列表中，并引导它进行验证。

6.如果存在虚拟机启动问题，请尝试使用命令行模式修复它。或者重建虚拟机并复制恢复的虚拟机磁盘(即VMDK文件)。

7.有些虚拟机的数据磁盘非常大，但数据却很少。在这种情况下，您可以直接导出数据，然后创建新的虚拟磁盘，最后将导出的数据复制到新的虚拟磁盘。

算上整个存储的虚拟机数量，大概有200台左右。目前，我们只能通过上述方式将恢复的虚拟机逐个恢复到用户的ESXI。因为是通过网络传输的，所以网络是整个迁移过程中的一个瓶颈。经过不断的调试和主机更换，还是达不到理想的状态。由于时间限制，我们最终决定在当前环境中迁移数据。

八。数据恢复摘要

1、故障总结；磁盘上所有坏磁道的规则如下:

经过仔细分析，不良轨道的结论如下:

-除了sn:yhj6leud上的一个自然坏磁道外，其他所有坏磁道都分布在RAID-6的q校验块中。

-大多数坏磁道区域显示完整的256个扇区，这正好是创建RAID-6时完整RAID块的大小。

-活动区域显示坏磁道，非活动区域的坏磁道可能不会出现。例如，如果热备盘的联机时间少于10%，坏磁道的数量将少于其他联机磁盘(热备盘的镜像将需要4个小时，其他有坏磁道的磁盘将需要大约40个小时)。

-其他非Q检查区域状况良好，无任何故障。

结论:

一般从上述坏轨规则的表现可以推断出，坏轨对控制器产生Q校验，当IO指令下发到硬盘时，可能是非标准指令，硬盘内部处理异常，导致有规律的坏轨。

2.数据恢复概要；数据恢复过程中坏磁道太多，备份数据需要很长时间。整体存储是因为坏磁道导致最终恢复的数据部分破坏，但不影响整体数据，最终结果在可接受范围内。

整个恢复过程中，用户要求紧急，我们也安排工程师加班加点，最终在最短的时间内恢复数据。在后续的数据迁移过程中，我们的工程师和用户的工程师会配合完成。

本文地址:https://www.pccv.com/servernews/11001920.html

部分内容和图片来自互联网。如有侵权，请联系删除。QQ:228866015

欢迎分享，转载请注明来源：内存溢出

原文地址: https://www.outofmemory.cn/zz/752328.html

服务器存储瘫痪数据恢复成功案例-服务器数据恢复

发表评论

评论列表（0条）