¿Sobrevivimos al simulacro de fallas?

Para nosotros, los sysadmin, tener la seguridad de que si algo falla, podremos recuperarnos sin problemas mayores, es algo fundamental (sobre todo cuando salimos de vacaciones :D)

Por esto, insistimos siempre en estar al día con las actualizaciones de los equipos de trabajo, y realizar periódicamente las copias de seguridad. Además de estas dos simples medidas en materia software, también aplicamos medidas de seguridad físicas, como mantener siempre el Datacenter (sala de servidores) a una temperatura adecuada (22° C), mantener las computadoras apagadas cuando no se están usando y checkear de manera periódica el correcto funcionamiento del Hardware (componente físicos de la computadora).

Al menos una vez al año, realizamos simulacros de falla de componentes. Para esto, una de las herramientas que utilizamos es el RAID.

Estas siglas son el acrónimo de Redundant Array of Independent Disks, es decir, “conjunto redundante de discos independientes”. Sí, suena complicado, pero dejame simplificarlo (explicarlo en cristiano, como diría mi abuela):

El RAID es un sistema que nos permite utilizar varios dispositivos de almacenamiento a la vez, con el objetivo de conseguir mayor espacio de almacenamiento, proteger la información y conseguir una tolerancia a fallos de discos mayor (si un disco sufre algún daño, no perdemos los datos que contiene el mismo).

Algo conveniente de la utilización del RAID es que, al combinar los dispositivos de almacenamiento, se forma un solo “almacén”, mucho más resistente que un solo dispositivo de almacenamiento de gran capacidad.

En materia de seguridad, el RAID permite que, cuando un disco falla, no se pierdan datos.

Nuestra experiencia

El primer sábado de este año, realizamos un simulacro de falla de discos de uno de nuestros principales servidores.

alt

Para esto, es necesario saber que tenemos dos discos duros en un servidor, uno de ellos de más de 2 años de funcionamiento continuo.

Nuestro objetivo: En caso de que uno falle, se debe poder iniciar el sistema con el otro, sin perder datos. Así también, cuando se vuelva a conectar un disco duro, se deben sincronizar los datos al mismo.

¿Qué hicimos?

1- Con el servidor apagado (desconectado de la corriente eléctrica, por seguridad), desconectamos el Disco 1. Esto simula el fallo del primer disco

2- Encendimos de nuevo el servidor, y nos aseguramos de que el sistema inició sin problemas solo con el Disco 2 conectado

3- Cuando confirmamos el paso anterior, volvimos a apagar el servidor, para reconectar el Disco 1.

4- Nos aseguramos de que el RAID copie (o sincronice) al Disco 1 los datos almacenados en el Disco 2, durante el tiempo que el Disco 1 estuvo desconectado

5- Una vez terminada la sincronización, que duró aproximadamente 2 horas, el RAID nos mostró que ambos Discos están en buen estado.

6- Repetimos el proceso, pero desconectando el Disco 2.

Resultados

En nuestro caso, al simular el fallo de ambos discos, confirmamos que el RAID y los discos de nuestro servidor están funcionando correctamente. Aun así, unas horas más tarde realizamos el backup semanal del servidor. You never know what could happen!

Fomentando la cultura Open Source, creamos una guía para la comunidad informática, con los pasos y detalles del proceso en Joko Wiki.