martes, 18 de agosto de 2009

Disaster Recovery para Virtual Machines


Disaster Recovery es un mecanismo para hacer failover de un site primario a una locacion remota y proseguir con la operacion en el site secundario. Existen algunas opciones para facilitar la recuperacion en caso de desastres en un entorno de virtualizacion. VMware introdujo su software Site Recovery Manager que automatiza este failover de maquinas virtuales.

Alternativamente, existen opciones como la agrupación geográfica (geoclustering). También hay paquetes estándar de protección de datos disponibles que apoyan diversos niveles de DR para maquinas virtuales. Si bien estos paquetes son menos automatizados que Site Recovery Manager o geoclustering, tambien es cierto que cuestan mucho menos.

Algunos de los enfoques disponibles en la actualidad son:
  • VMware Site Recovery Manager
  • Geoclustering para maquina virtuales
  • SAN o replicación basada en arreglos de discos
  • Software de Data Protection para maquinas virtuales
En esta primera entrega asociada a los mecanismos para realizar DR de maquinas virtuales estaremos tratando Site Recovery Manager como una primera opcion, en proximas entregas estudiaremos enfoques alternativos.

Site Recovery Manager

Disaster Recovery a traves de SRM depende en gran medida del arreglo de discos o la red de de almacenamiento (SAN) para la replicación de los DataStore entre sitios. El software SRM se ejecuta en un servidor SRM o una máquina virtual en ambos sites, pero también requiere de Virtual Center corriendo en el sitio remoto.

Una vez que SRM se ejecuta, un administrador debe:
  1. Establecer la replicación de DataStores
  2. Identificar los DataStores replicados
  3. Seleccionar las máquinas virtuales protegidas
  4. Remapear el hardware de las maquinas virtuales
  5. Crear un plan de recuperación de datos
Un factor muy importante a tomar en cuenta es la reasignacion de direcciones IP. Las direcciones IP en el site remoto no puede ser las mismas que en el site principal. Algunas están relacionados con la aplicación y el sistema operativo ejecutandose en la máquina virtual, y otras están asociados con las interfaces del Hypervisor de VMware como el servidor que ejecuta vCenter Server, Site Recovery Manager, etc. Dado que las maquinas virtuales son traidas al site secundario las direcciones IP deben ser cambiadas para poder levantar la operacion.

Varios planes de recuperación pueden ser definidos y los administradores pueden seleccionar alguno para un determinado failover. Alternativamente pueden coexistir planes de recuperación que proporcionan diferentes capacidades de tolerancia a fallos y opciones de recuperación parcial, por ejemplo, la falla de un solo DataStore o un host ESX en el site protegido.

Como tal, SRM requiere al menos un manual de procedimiento. Adicionalmente SRM tambien soporta pruebas de DR en el site local y un administrador puede modificar un plan ya existente con el objeto de apoyar estas pruebas.

Uno de los aspectos positivos de Site Recovery Manager es que puedes tener tantos o tan pocos planes de recuperación como necesitas. Es totalmente factible tener un plan de recuperación para una falla total del site y uno o mas para fallas de infraestructura aisladas.

Una duda frecuente es la relacion entre VMware HA y VMware SRM. VMware alta disponibilidad (HA) para ESX ofrece tolerancia a fallos, pero sólo en el site local. SRM interviene cuando se requiere failover a un sitio remoto. No todas las fallas de infraestrutura requieren que un plan de Disster Recovery sea utilizado y es aqui cuando VMware HA hace sentido.

VMware SRM tambien tiene algunas limitaciones, entre ellas podemos identificar:
  • Soporte a data en modo raw-device
  • Soporte a datastores multi LUN
  • Soporte a automatizacion de DR multi-site
  • Automatizados de apoyo y recuperación
VMware puede acceder almacenamiento de canal de fibra en al menos dos formas. La primera forma es a través de un acceso a datos SCSI del hipervisor, estos datos son virtualizados a un sistema de archivos tipo cluster, conocido como VMFS DataStore. La segunda es a través de dispositivos en raw-device, mediante el cual la máquina virtual toma control del puerto del hardware Fibre Channel y controla ese link asi como el almacenamiento adjunto en el otro extremo del enlace.

El no soporte de SRM a dispositivos en modo raw-device se debe a que estos datos son más complejos y menos automatizados. SRM no monitorea la replicacion de estos datos y no los promueve activamente para su accesibilidad desde la maquina virtual del site secundario. Todos estos pasos tienen que ser realizados por los administradores en forma manual o a traves de scripts.

El modo raw-device es normalmente utilizado en máquinas virtuales que requieren rendimiento intensivo. Estas son típicamente aplicaciones de alto perfil, pero precisamente estas son las menos susceptibles a ser virtualizados alojandose generalmente en hosts dedicados. A medida que los centros de datos requieran ser movidos a un esquema 100% virtualizado esto se convertirá en un motivo de preocupación.

About the author: Ray Lucchesi is president of Silverton Consulting, a storage, strategy and systems consulting services company, based in the USA offering products and services to the data storage community.

Este articulo ha sido mal llevado al castellano por mi persona, en las proximas entregas le estaremos dando continuidad a este tema.

Me despido atento a cualquier comentario.

Mis respetos,
White Shark

No hay comentarios:

Publicar un comentario