Companhias frequentemente se equivocam ao calcular o custo do fornecimento de serviços de TI contínuos e em várias sedes.

Esta análise visa ajudar a aperfeiçoar estimativas de custo.

Considerações básicas

• O custo aumenta significativamente com o suporte a sistemas de TI disponíveis continuamente.

• Um serviço de TI continuamente disponível exige um substancial investimento em tecnologia e processos.

• Os três tipos de disponibilidade de serviços de TI são alta disponibilidade, operação contínua e disponibilidade contínua em várias sedes.

Recomendações

Equilibre o custo da disponibilidade continua compartilhando a infraestrutura ou reduzindo o desempenho em alguns ambientes, diante do risco e do custo de uma interrupção do serviço.

Rastreie tendências de disponibilidade (frequência de interrupção, tempo para restaurar o serviço, causa do tempo ocioso) para sistemas fundamentais; não destine tempo nem capital para medir todos os serviços de TI. Porém conforme se aprimore no gerenciamento de disponibilidade, compreenda que incidentes raros não evidenciam tendências estáveis.

Paga-se mais de oito vezes o custo de um serviço de TI inapropriado à alta disponibilidade ou operações contínuas para aprimorá-lo e capacitá-lo para entregar disponibilidade contínua e em várias sedes. Entretanto, se a arquitetura de aplicação precisa ser revisada, esteja preparado para pagar ainda mais.

HIPÓTESE DE PLANEJAMENTO ESTRATÉGICO

Até 2014, menos de um em 100 serviços de TI estará continuamente disponível em várias sedes, devido aos altos custos e complexidade.

ANÁLISE

Um serviço de TI formado por todos os componentes de um sistema corporativo, como e-commerce ou ERP, é considerado “altamente disponível” quando funciona ao menos 99,3% do tempo durante sua operação programada, apesar de interrupções imprevistas, como falha de hardware, bug de software ou mudanças de configuração incorretas. Isso equivale a aproximadamente 61 horas anuais de interrupção de serviço em uma operação do tipo 24/7. Técnicas de alta disponibilidade geralmente envolvem hardware e software duplicado.

Ou seja, eles fornecem os elementos do componente, como servidor, dispositivos de rede e de armazenamento, além de componentes de software que coletivamente entregam o serviço de TI, redundantemente, junto com um mecanismo para transferir o fluxo de trabalho de um elemento ativo que provavelmente falhará ou problemas com o elemento de backup. Falhas que não provoquem interrupções são a meta, mas interrupções curtas frequentemente ocorrem e esses minutos são contados no cálculo de disponibilidade do serviço de TI.

Já que falhas humanas e de processos causam aproximadamente 80% do tempo ocioso de serviços fundamentais, companhias devem investir em maturidade de processos do ciclo de vida de desenvolvimento de software (SDLC), no processo de aquisição de software não desenvolvido internamente e nos processos operacionais contínuos, como problemas, mudanças, lançamentos e gerenciamento de configuração.

O Gartner considera níveis de disponibilidade sofisticados aqueles em torno dos 99,95% do tempo ou que somam menos de cinco horas de tempo ocioso por ano para cada serviço de TI, em operações do tipo 24/7. Quando se gerencia o acordo de nível de serviço (SLA) da disponibilidade de serviço de TI, é essencial analisar o tempo para restaurar o serviço após um incidente e a disponibilidade geral do serviço de TI. Por exemplo, se uma empresa dedica quatro horas para MTRS, ela provavelmente não atingirá os 99.95% de disponibilidade, porque só dois incidentes de quatro horas cada já resultam em uma falha de SLA por todo o ano.

Um serviço de TI é considerado continuamente operável se ele não precisa ser suspenso e reiniciado para manutenção programada. Os serviços de TI direcionados a operaçõescontínuas possuem quatro princípios de arquitetura:

> Eles e seus componentes são permutáveis, ou seja, podem ser introduzidos em um ambiente de produção em funcionamento sem a necessidade de forçar um reinício.

> Eles têm tolerância de lançamento, ou seja, o nível atual do software e do hardware e os níveis de lançamento anteriores podem coexistir.

>Eles são orientados por comando, ou seja, qualquer parâmetro de inicialização pode ser alterado sem implicar tempo ocioso.

> Eles não têm limites com códigos complexos ou contadores que exigirão um reinício para limpar ou restaurar o sistema.

Além do mais, quando aplicações e bases de dados não seguem todos esses critérios, elas são quase continuamente operáveis. Isso acontece por meio do fornecimento de um ambiente completamente redundante onde um lançamento do serviço de TI pode entrar em cena simultaneamente ao serviço de TI de produção ativa e sincronizado, com os usuários migrando para o novo serviço de TI durante um período de menor uso, causando dessa forma apenas alguns minutos de tempo ocioso. O Gartner considera o menor tempo ocioso possível para um caso deste tipo aproximadamente 12 horas de tempo ocioso por ano, por serviço de TI.

Um serviço de TI é continuamente disponível se demonstra alta disponibilidade e operações contínuas. Às vezes é útil combinar alta disponibilidade e métricas de operações contínuas para uma única métrica de disponibilidade contínua. Por exemplo, a melhor disponibilidade contínua possível seria de cinco horas de tempo ocioso imprevisível, mais 12 horas de tempo ocioso programado, somando um total de 17 horas de tempo ocioso, ou 99,81%. Entretanto, todos esses três (alta disponibilidade, operações contínuas e disponibilidade contínua) são focados em uma disponibilidade para uma única sede; eles não incluem mitigação de incidentes de desastre.

A razão disso é que a maioria das empresas especifica níveis de serviço separados para eventos de desastre por meio de objetivos de tempo de recuperação (RTOs) e objetivos de ponto de recuperação (RPOs), separados e independentes do tempo produtivo planejado e da disponibilidade do serviço de TI. As organizações devem estabelecer claramente um nível de serviço para alta disponibilidade, operabilidade contínua, além de RTO e RPO para cada serviço de TI, e devem controlar a dedicação a essas metas.

Quando medem a disponibilidade, organizações devem adotar métricas apropriadas à magnitude das interrupções pelas quais costumam ser afetadas. Meça um sistema que falha frequentemente rastreando a disponibilidade agregada durante um período de registro significativo. Por exemplo, se um serviço crítico falha diariamente, meça a disponibilidade como uma porcentagem do tempo produtivo semanal. Após a análise do problema e subsequente reparo da causa da interrupção, devem ser implementadas para as principais fontes de interrupção métricas de porcentagens.

Por exemplo, interrupções que ocorrem frequentemente e/ou tem tempo de restauração do serviço medido em minutos podem não exibir tendências no rastreamento de porcentagens. Neste nível de disponibilidade, rastreie e registre situações de interrupções individuais, indicando períodos de tempo para detecção, diagnóstico, restituição e restauração. A restauração pode incluir, além do reparo da causa principal do problema, o aperfeiçoamento do gerenciamento do desempenho de aplicação. Além disso, quando as interrupções são resultado de uma falha no processo, mais treinamentos aprofundados e até uma mudança da cultura corporativa podem ser necessárias.

Em algumas organizações, embora o incidente inicial seja completamente descrito e documentado na resolução, o cliente pode escolher criar um segundo relatório de incidente para documentar o problema com os processos, treinamentos e comportamentos que contribuíram com o incidente inicial.

Por exemplo, imaginemos que um sistema falha por causa da interrupção de armazenamento. O problema é que a quantidade de armazenamento era inadequada; a correção é fornecer mais armazenamento. O segundo relatório descreveria a falha do software de monitoramento para detectar e alertar a equipe de operações sobre a interrupção de armazenamento antes de o sistema falhar. Pode haver um terceiro problema: o alerta existiu, mas foi enviado à pessoa errada, ou o alerta foi obscuro, confuso ou direcionado à equipe de operações de outro sistema. A organização deve adotar esta prática quando gerenciar sistemas continuamente disponíveis.

Algumas organizações tem níveis extraordinários de disponibilidade para serviços de TI hospedados em um único data center, mas RTOs relativamente longos e medidos em horas, como de quatro a 24 horas, porque seus planos de continuidade corporativa especificam as atividades relacionadas, ou podem se opor a um incidente de desastre severo durante algum tempo. Já outras estão percebendo que seus MTRS para incidentes de interrupção local são equivalentes ao seu RTO de incidentes de desastre para serviços de TI fundamentais.

Como esses sistemas exigem alta disponibilidade e operabilidade contínua em sedes diversas, podemos chamá-los de “disponibilidade contínua em várias sedes”. Quando múltiplas sedes podem contar com serviços de TI, aumenta a flexibilidade do desempenho durante o tempo ocioso, enquanto o serviço de TI é operacional na sede alternativa.

Conclusão

O custo da infraestrutura de múltiplas sedes, com sistemas corporativos continuamente disponíveis, pode ser quase oito vezes o custo de um serviço de TI padrão – e isso só referente às infraestruturas de hardware e software. Os custos com recursos humanos e processos também aumentam.

Consequentemente, apenas as organizações de serviços de TI podem justificar o custo significativamente elevado, baseado no custo corporativo do tempo ocioso ou devido a mandatos regulatórios específicos.

Quando tentarem otimizar o custo da disponibilidade contínua e em múltiplas sedes por meio do compartilhamento ou da redução do desempenho de alguns ambientes, as companhias devem lidar com riscos operacionais, porque elas precisarão realizar a mudança levando em conta os custos versus a disponibilidade contínua.