身边有一套没什么人用的系统,后端采用了 Hadoop 一式三份存储数据文件。
某日,Ambari 报其中一台 Datanode 的 Heartbeat lost,且不论通过任何方式远程连接均报 Connect refused,多次尝试无果后前往机房,发现硬盘 0 闪红灯,经核对厂商说明,并重新启动服务器看阵列卡报告,确认该硬盘已故障掉盘。
由于集群尚有另外两台 Datanode 在线,且重要文件亦有本地备份,决定采取重装系统并重新同步所有文件的形式进行维护。
本文是给自己的笔记,不是教程,由于本文记述的是摸索过程,如果您有相似的情况需要处理,请不要直接按照本文步骤进行操作。
远嚣 Comment