Configuraciones RAID del servidor para la protección de datos

Configuraciones RAID del servidor para la protección de datos con InMotion Hosting

RAID (matriz redundante de discos independientes) es uno de los temas más malinterpretados en el almacenamiento de servidores. Aparece con frecuencia en las especificaciones de alojamiento sin explicación alguna, y el malentendido más común, que RAID sustituye a las copias de seguridad, conduce a la pérdida de datos en situaciones en las que la configuración no ofrece protección.

Los servidores InMotion Hosting utilizan RAID 1 (duplicación) de software mdadm en NVMe dualescomo configuración predeterminada. En este artículo se explica qué significa esto, contra qué protege, contra qué no protege y cuándo conviene utilizar diferentes configuraciones RAID para diferentes cargas de trabajo.

Fundamentos de RAID

Qué hace y qué no hace RAID

RAID distribuye los datos entre varias unidades físicas para lograr uno o ambos de estos objetivos: mejora del rendimiento mediante el paralelismo y tolerancia a fallos mediante la redundancia. El nivel de RAID determina cuál de estos objetivos tiene prioridad.

Lo que RAID no hace: proteger contra el borrado accidental, la corrupción del software, el ransomware o los fallos de hardware que afectan a varias unidades simultáneamente (incendios, inundaciones o subidas de tensión que dañan ambas unidades). Estos modos de fallo requieren una copia de seguridad, no RAID.

Niveles RAID en NVMe duales

RAID 0: Distribución

RAID 0 divide los datos entre ambas unidades en bloques alternos. Una escritura de 100 MB se convierte en 50 MB en la unidad 1 y 50 MB en la unidad 2 simultáneamente, completándose en aproximadamente la mitad del tiempo que una escritura en una sola unidad.

  • Capacidad útil: Capacidad total combinada (7,68 TB en dos unidades de 3,84 TB).
  • Rendimiento de lectura: hasta el doble de rendimiento en lectura secuencial.
  • Rendimiento de escritura: hasta el doble de rendimiento en escritura secuencial.
  • Redundancia: Ninguna . Un solo fallo en la unidad destruye todos los datos de la matriz.

RAID 0 es adecuado para almacenamiento temporal, cachés de renderizado y datos temporales no críticos en los que es importante obtener el máximo rendimiento y los datos se pueden regenerar. No es adecuado para bases de datos de producción, datos de aplicaciones ni ningún dato que no se pueda reconstruir a partir de una fuente externa.

RAID 1: Duplicación (InMotion Hosting )

RAID 1 escribe datos idénticos en ambas unidades simultáneamente. Ambas unidades contienen una copia completa de todos los datos. Si una unidad falla, la matriz continúa funcionando desde la unidad que sigue funcionando sin pérdida de datos.

  • Capacidad útil: el 50 % de la capacidad total (3,84 TB con dos discos de 3,84 TB).
  • Rendimiento en lectura: Puede leer desde cualquiera de las unidades; el RAID por software puede distribuir las lecturas para lograr una mejora moderada.
  • Rendimiento de escritura: Debe escribir en ambas unidades; el rendimiento de escritura se limita a la velocidad de escritura de una sola unidad.
  • Redundancia: Soporta un fallo completo de la unidad sin pérdida de datos.

RAID 1 es la configuración predeterminada InMotion Hostingpara servidores dedicados con NVMe duales. Para bases de datos de producción, datos de aplicaciones y cualquier carga de trabajo en la que la pérdida de datos sea inaceptable, RAID 1 proporciona la protección básica adecuada. La pérdida del 50 % de capacidad es el coste de la redundancia.

RAID 10: Espejos distribuidos

RAID 10 requiere cuatro o más unidades: las unidades se emparejan en espejos RAID 1 y, a continuación, esos espejos se distribuyen en RAID 0. Esto combina el rendimiento de la distribución con la redundancia del espejado.

  • Capacidad útil: el 50 % de la capacidad total de todas las unidades.
  • Rendimiento de lectura: doble rendimiento de lectura secuencial (distribución en bandas entre pares de espejos).
  • Rendimiento de escritura: iguala la velocidad de escritura de una sola unidad (hay que escribir en pares de discos en espejo).
  • Redundancia: Soporta el fallo de un disco por cada par de espejos; puede soportar múltiples fallos si estos se producen en pares diferentes.

RAID 10 en InMotion Hosting requeriría cuatro NVMe , lo que no es la configuración estándar de doble unidad. Para cargas de trabajo que requieren tanto un rendimiento máximo como redundancia, una arquitectura multiservidor con replicación a nivel de aplicación (base de datos primaria/réplica) suele ofrecer mejores resultados que un único servidor con cuatro unidades.

RAID por software frente a RAID por hardware

Cómo funciona el RAID mdadm de InMotion

InMotion Hosting mdadm (Multiple Device Administration), la implementación RAID de software del kernel de Linux. Esta es una diferencia fundamental con respecto a los controladores RAID de hardware, que utilizan un procesador dedicado en una tarjeta controladora RAID para gestionar las operaciones de la matriz.

Las operaciones de RAID por software (cálculo de paridad para RAID 5/6, escrituras en espejo para RAID 1) se ejecutan en la CPU principal del servidor. En los procesadores multinúcleo modernos, esta sobrecarga es mínima para RAID 1: una escritura en espejo RAID 1 no requiere cálculo de paridad, solo escribir en dos dispositivos simultáneamente. La sobrecarga de la CPU para mdadm RAID 1 en una NVMe suele ser inferior al 1 % en un procesador AMD EPYC de 16 núcleos.

Ventajas del RAID por software

  • Sin modo de fallo del controlador: los controladores RAID de hardware pueden fallar. Cuando falla un controlador RAID propietario, la matriz suele ser ilegible sin un controlador de sustitución idéntico. Las matrices mdadm se pueden leer en cualquier sistema Linux con la misma versión de mdadm.
  • No se requiere caché de escritura con batería: los controladores RAID de hardware utilizan caché de escritura con batería para retrasar de forma segura las escrituras en el disco. Esta caché es un punto de fallo. mdadm RAID 1 escribe directamente en NVMe, que tiene protección contra pérdida de energía (PLP) integrada en NVMe de nivel empresarial.
  • Portabilidad: una matriz RAID 1 mdadm se puede trasladar a otro servidor y volver a montar. Los metadatos de la unidad hacen que el remontaje sea automático.

Ventajas del RAID por hardware (y por qué son menos importantes en NVMe)

Los controladores RAID de hardware siempre han ofrecido dos ventajas con respecto al RAID de software: caché de escritura con batería para una aceleración segura de la escritura y procesamiento dedicado para evitar la sobrecarga de la CPU en niveles RAID complejos (RAID 5, RAID 6).

NVMe con protección contra pérdida de energía ( NVMe empresarial, que utiliza InMotion) tienen condensadores integrados que vacían los búferes de escritura en un almacenamiento no volátil en caso de pérdida de energía. Esto elimina la principal preocupación de seguridad que abordaba la caché RAID respaldada por batería. Y el argumento de la sobrecarga de la CPU era relevante cuando los servidores funcionaban con procesadores de un solo núcleo o de doble núcleo que realizaban grandes cálculos de paridad. En un EPYC de 16 núcleos con RAID 1, la sobrecarga es insignificante.

Características de rendimiento NVMe

ConfiguraciónLectura secuencialEscritura secuencialIOPS de lectura aleatoriaTolerancia a fallos
NVMe único de 3,84 TB~5500 MB/s~4000 MB/s~500,000Ninguno
RAID 0 (2x 3,84 TB NVMe)~7000 MB/s~6000 MB/s~800,000Ninguno
RAID 1 (2x 3,84 TB NVMe)~5500 MB/s~4000 MB/s~500,000Fallo de una sola unidad

El rendimiento de lectura secuencial de RAID 1 puede ser ligeramente superior al de una sola unidad si el controlador RAID de software distribuye las lecturas consecutivas entre ambas unidades. En la práctica, el rendimiento de lectura de mdadm RAID 1 es aproximadamente igual a la velocidad de una sola unidad para cargas de trabajo secuenciales y ligeramente superior para lecturas aleatorias con acceso simultáneo.

El rendimiento de escritura de RAID 1 coincide con la velocidad de escritura de una sola unidad, ya que ambas unidades deben recibir la escritura antes de que se considere completa. En NVMe con una velocidad de escritura secuencial de 4 GB/s, el rendimiento de escritura de RAID 1 es de aproximadamente 4 GB/s. Esto es lo suficientemente rápido para prácticamente cualquier carga de trabajo de un solo servidor.

Fallo del disco duro y proceso de reconstrucción

¿Qué sucede cuando falla una unidad?

Cuando falla una unidad en una matriz RAID 1 mdadm, la matriz continúa funcionando en un estado degradado desde la unidad superviviente. El rendimiento puede disminuir ligeramente durante el funcionamiento degradado, ya que todas las lecturas provienen ahora de una sola unidad, pero el servidor permanece en línea y los datos permanecen intactos.

El sistema de supervisión InMotion Hostingdetecta los fallos en las unidades y activa la sustitución del hardware. Una vez instalada la unidad de sustitución, mdadm reconstruye la matriz copiando todos los datos de la unidad que ha sobrevivido a la nueva unidad.

Tiempos de reconstrucción en NVMe

Los tiempos NVMe son considerablemente más rápidos que los de SSD SATA SSD los discos giratorios:

  • Reconstrucción de RAID 1 con disco giratorio: entre 12 y 24 horas para una unidad de 3-4 TB a velocidades de reconstrucción típicas de 50-100 MB/s.
  • Reconstrucción SSD 1 SSD SATA: de 2 a 4 horas para una unidad de 1,92 TB a una velocidad de 150-200 MB/s.
  • ReconstrucciónNVMe 1: menos de 1 hora para una unidad de 3,84 TB a velocidades de reconstrucción sostenidas de 1-2 GB/s.

La velocidad de reconstrucción es importante porque, durante la reconstrucción, la unidad superviviente gestiona simultáneamente tanto la E/S de producción como la E/S de reconstrucción. Cuanto más breve sea el intervalo de reconstrucción, menos tiempo permanecerá la matriz en un estado degradado en el que un segundo fallo de la unidad provocaría la pérdida de datos.

RAID no es una copia de seguridad: la diferencia fundamental

Esta distinción merece un énfasis explícito porque la confusión es habitual y las consecuencias son graves.

RAID 1 protege contra el fallo de una sola unidad física. No protege contra:

  • Eliminación accidental de archivos (ambas unidades eliminan el archivo simultáneamente)
  • Corrupción de la base de datos debido a un error de software (ambas unidades almacenan los datos corruptos).
  • Ransomware (cifrado simultáneo de ambas unidades)
  • Múltiples fallos simultáneos de las unidades debido a una sobrecarga eléctrica o un incendio.
  • Robo de servidores o desastre en el centro de datos

La protección contra estos modos de fallo requiere una copia de seguridad en una ubicación física independiente. InMotion Premier Care incluye 500 GB de almacenamiento de copias de seguridad automatizadas fuera del servidor. Esta es la capa de copia de seguridad que complementa la protección contra fallos de unidad de RAID.

Una estrategia completa de protección de datos utiliza ambos: RAID 1 para la tolerancia continua a fallos de unidad sin tiempo de inactividad y copias de seguridad fuera del servidor para todo lo que RAID no puede proteger. Ninguno sustituye al otro.

Elegir la configuración adecuada para tu carga de trabajo

Carga de trabajoRAID recomendadoRazón
Base de datos de producciónRAID 1 (predeterminado)Integridad de los datos; un fallo en la unidad no puede provocar la pérdida de datos.
Caché de renderizado / scratchRAID 0 o sin RAIDLos datos se pueden regenerar; el rendimiento y la capacidad son más importantes.
Aplicación + base de datos en el mismo servidorRAID 1 (predeterminado)Tanto la aplicación como la base de datos necesitan protección.
Entorno de desarrolloNo se acepta RAIDLa pérdida de datos es un inconveniente, no una catástrofe; utiliza el control de versiones.
Servidor de archivos / archivoRAID 1 + copia de seguridad externaSe necesita tolerancia a fallos en ambas unidades y protección contra desastres.
Comparte este artículo

Deja una respuesta

Tu dirección de correo electrónico no se publicará. Los campos obligatorios están marcados con *.