Cómo reducir los tiempos de recuperación ante desastres con Azure Site Recovery

En el siguiente artículo entraremos en detalles sobre Azure Site Recovery (ARS). Se abordará temas relacionados a Disaster Recovery as a Services (DRaaS), y la relación que tiene con área de negocios en la organización, en el esfuerzo de trazar un plan de continuidad empresarial (BCP), la importancia de conocer que es un Recovery Point Objective (RPO) , y Recovery Time Objective (RTO) dentro de una unidad o división de negocios, también entraremos en detalle sobre el típico caso de uso de una arquitectura orientada a recuperación, los componentes a tener en cuenta, un ejemplo de diagrama y otros puntos relevantes a considerar.

  • Recuperación ante desastres como servicio
  • Business Continuity Plan
  • Recovery Point Objective
  • Recovery Time Objective
  • Azure Recovery Site
  • Arquitectura de recuperación

Al concluir la lectura del artículo, nos dará un breve visión global sobre porque debemos considerar utilizar Recovery Disaster as a Service dentro de nuestra área de negocio y la importancia de ser considerado dentro de nuestro diseño de arquitectura.

¿Qué significa la recuperación ante desastres como servicio (DRaaS)?

La recuperación ante desastres como servicio (DRaaS) es un modelo de servicio de respaldo y computación en la nube que utiliza recursos de la nube para proteger las aplicaciones y los datos de las interrupciones causadas por un desastre. Proporciona a la organización una copia de seguridad total del sistema que permite la continuidad del negocio en caso de falla del sistema.

DRaaS a menudo se ofrece junto con un plan de recuperación ante desastres (DRP) o un plan de continuidad empresarial (BCP).

Business Continuity Plan

Un plan de continuidad empresarial (BCP) es un documento que describe cómo una empresa seguirá funcionando durante una interrupción no planificada del servicio. Es más completo que un plan de recuperación ante desastres y contiene contingencias para procesos comerciales, activos, recursos humanos y socios comerciales: todos los aspectos del negocio que podrían verse afectados.

Los planes suelen contener una lista de verificación que incluye suministros y equipos, copias de seguridad de datos y ubicaciones de sitios de copia de seguridad. Los planes también pueden identificar a los administradores del plan e incluir información de contacto para los servicios de emergencia, el personal clave y los proveedores de sitios de respaldo. Los planes pueden proporcionar estrategias detalladas sobre cómo se pueden mantener las operaciones comerciales para interrupciones tanto a corto como a largo plazo.

Recovery Point Objective (RPO)

Un RPO es una medida del tiempo transcurrido desde la falla, el desastre o un evento comparable que causa una pérdida. Los RPO se miden en el tiempo hasta el momento en que sus datos se conservaron en un formato utilizable, generalmente hasta la copia de seguridad más reciente. El proceso de recuperación generalmente conserva cualquier cambio de datos realizado antes del desastre o falla. Los RPO también pueden referirse a la cantidad de datos que se pueden perder antes de que su empresa reciba un daño significativo, también conocido como tolerancia a pérdidas de su empresa.

Recovery Time Objective (RTO)

Los RTO representan la cantidad de tiempo que una aplicación puede estar inactiva y no causar daños significativos a una empresa y el tiempo que tarda el sistema en pasar de la pérdida a la recuperación. Este proceso de recuperación incluye los pasos que debe seguir el departamento de TI para devolver la aplicación y sus datos a su estado anterior al desastre. Para aplicaciones de alta prioridad, un RTO se puede expresar de forma segura en segundos, siempre que el departamento de TI haya invertido en servicios de conmutación por error. Los RTO requieren que su departamento de TI primero clasifique las aplicaciones según su prioridad y el riesgo de pérdida comercial. Luego, TI asigna a estas aplicaciones la cantidad adecuada de recursos de su empresa, es decir, tiempo, dinero e infraestructura de TI.

Azure Recovery Site

Servicio Site Recovery: Site Recovery ayuda a garantizar la continuidad empresarial manteniendo las aplicaciones y cargas de trabajo empresariales en funcionamiento durante las interrupciones. Site Recovery replica las cargas de trabajo que se ejecutan en máquinas físicas y virtuales desde un sitio principal a una ubicación secundaria. Cuando se produce una interrupción en el sitio principal, se conmuta por error a la ubicación secundaria y se accede desde allí a las aplicaciones. Cuando la ubicación principal vuelva a estar en ejecución, puede realizar la conmutación por recuperación en ella.

Site Recovery puede administrar la replicación de:

  1. Máquinas virtuales de Azure que se replican entre regiones de Azure.
  2. Máquinas virtuales locales, máquinas virtuales de Azure Stack y servidores físicos.

¿Qué ofrece Site Recovery?

  • Destinos RTO y el RPO
  • Replicación de la carga de trabajo
  • Pruebas sin interrupciones
  • Conmutaciones por error flexibles
  • Replicación de máquinas virtuales de Azure
  • Replicación de máquinas virtuales local

¿Qué puedo replicar?

  • Regiones
  • Maquinas Replicadas
  • Cargas de Trabajo
  • Escenarios de Replicación

Arquitectura de recuperación

Con la configuración de la recuperación ante desastres, las VM de Azure se replican continuamente en una región de destino diferente. Si se produce una interrupción, puede conmutar por error las máquinas virtuales en la región secundaria y acceder a ellas desde allí.

Diagrama Ejemplo
Diagrama ejemplo

Componentes de la Arquitectura

En la siguiente tabla se resumen los componentes implicados en la recuperación ante desastres para las máquinas virtuales de Azure.

  1. Máquinas virtuales de la región de origen
  2. Almacenamiento de la máquina virtual de origen
  3. Redes de máquinas virtuales de origen
  4. Cuenta de almacenamiento en caché
  5. Recursos de destino

Recursos de destino

  1. Suscripción de destino
  2. Grupo de recursos de destino
  3. Red virtual de destino
  4. Cuenta de almacenamiento de destino
  5. Discos administrados de réplica
  6. Conjuntos de disponibilidad de destino
  7. Zonas de disponibilidad de destino

Directiva de replicación

  • Retención de punto de recuperación
  • Frecuencia de las instantáneas coherentes con la aplicación

Proceso de replicación

  1. La extensión Mobility Service de Site Recovery se instala automáticamente en la máquina virtual.
  2. La extensión registra la máquina virtual con Site Recovery.
  3. Comienza la replicación continua para la máquina virtual. Las escrituras en disco se transfieren inmediatamente a la cuenta de almacenamiento en caché de la ubicación de origen.
  4. Site Recovery procesa los datos en la caché y los envía a la cuenta de almacenamiento de destino o a los discos administrados de réplica.
  5. Una vez procesados los datos, se generan puntos de recuperación coherentes frente a bloqueos cada cinco minutos. Los puntos de recuperación coherentes con la aplicación se generan según la configuración especificada en la directiva de replicación.

Conclusión

Disaster Recovery as a Service and Business Continuity Plan, están estrechamente relacionados para cualquier organización, es de suma importancia conocer porque necesitamos utilizar tal servicios y en qué plan de negocios debemos ofrecer tal servicio a nuestros clientes.

 

Guia introduccion MuleSoft AnyPoint