5 práticas recomendadas para automatizar o gerenciamento de grandes incidentes

Autor: Roger Morrison
Data De Criação: 27 Setembro 2021
Data De Atualização: 1 Julho 2024
Anonim
5 práticas recomendadas para automatizar o gerenciamento de grandes incidentes - Tecnologia
5 práticas recomendadas para automatizar o gerenciamento de grandes incidentes - Tecnologia

Contente



Fonte: Pixtum / iStockphoto

Leve embora:

Com uma estratégia de automação inteligente, você pode tornar a resposta a incidentes mais rápida e fácil do que nunca, minimizando o tempo de inatividade e possíveis violações de segurança.

Os principais incidentes de TI ocorrem nas empresas todos os dias. Embora apenas algumas sejam as manchetes, eventos como interrupções e violações de segurança podem prejudicar seriamente a produtividade dos funcionários, influenciar negativamente as percepções dos clientes e, o mais importante, resultar em perda de receita.

Portanto, quando se trata de gerenciar grandes incidentes de TI, é melhor se concentrar no impacto nos negócios e nos resultados. De acordo com o Ponemon Institute, o custo médio do tempo de inatividade em 2016 foi de US $ 8.851 por minuto - mais de US $ 500.000 por hora, e os períodos de inatividade típicos duram mais de 90 minutos. E este é apenas o custo imediato! O impacto a longo prazo, como danos à reputação e atrito com o cliente, é imprevisível e potencialmente catastrófico.


Embora você não possa evitar completamente todos os incidentes importantes, você pode armar a sua organização para que esteja o mais preparado possível para enfrentá-los quando eles surgirem. E um componente importante da sua estratégia deve ser incorporar a automação. As organizações que maximizam o uso da automação em seus principais processos de resolução de incidentes obtêm uma restauração mais rápida do serviço e muito menos erros devido a erros humanos. Isso ocorre porque a automação afeta diretamente sua capacidade de reduzir a duração da janela de impacto nos negócios - ou o período oneroso em que seus usuários e operações de negócios realmente sentem o impacto de um incidente. (Para saber mais sobre automação, consulte Automação: o futuro da ciência de dados e do aprendizado de máquina?)


Para maximizar os benefícios da automação, você deve examinar quais atividades precisam ocorrer durante a janela de impacto e descobrir como mover todas as outras atividades antes do início do incidente ou após o retorno do negócio às operações normais. Aqui estão cinco maneiras úteis de começar.

1. Desenvolver e definir um processo

Definir um processo de gerenciamento de incidentes principais é identificar o que pode ser planejado, coordenado ou executado durante um incidente. Isso pode significar identificar os principais membros da equipe de suporte por conjunto de habilidades e cronograma, por exemplo, para que sua central de atendimento possa envolvê-los da maneira mais rápida e eficiente possível. Isso também significa descobrir como você transmitirá informações relevantes para sua equipe, para que eles possam começar a resolver o problema imediatamente, além de manter as partes interessadas certas informadas e atualizadas.

A automação é crítica para os principais aspectos desse processo. Por exemplo, você pode automatizar a inclusão de informações relevantes de suas ferramentas de monitoramento em seus tickets da central de atendimento ou incluir informações da central de atendimento em notificações aos solucionadores de incidentes. Você também pode documentar todo o incidente em uma única fonte de verdade abrangente, acessível a todos. Lembre-se de que você pode praticar esse processo para corrigi-lo - você não precisa esperar por um incidente do mundo real para testar sua abordagem.

2. Acerte sua infraestrutura

Neste dia e época de fadiga de alerta, é essencial que você não continue bombardeando suas equipes com notificações e informações irrelevantes que não se aplicam a elas. A aplicação de filtros aos alertas de monitoramento permitirá que suas equipes se concentrem mais facilmente na agulha no palheiro do ruído de rotina. Isso é essencial para tornar todos os seus insights e dados realmente acionáveis, em vez de apenas aumentar a sobrecarga de informações.

Boas maneiras de automatizar incluem o uso de uma solução APM para rastrear todos os seus aplicativos e sistemas para identificar proativamente as causas principais no ponto de qualquer degradação do desempenho, antes de causar grandes interrupções no serviço. Você também pode integrar seu monitoramento, central de atendimento, aplicativos de colaboração e ferramentas de bate-papo para compartilhar informações em tempo real.

Sem erros, sem estresse - seu guia passo a passo para criar software que muda vidas sem destruir sua vida

Você não pode melhorar suas habilidades de programação quando ninguém se importa com a qualidade do software.

3. Meça com precisão o MTTR

Como você mede o tempo médio de reparo (MTTR)? Você o baseia no tempo total em que as equipes de TI estão envolvidas ou no tempo total em que os negócios são realmente impactados? Se a sua resposta for a primeira, você deve reconsiderar a medição da janela de impacto usando a perspectiva de negócios. Esse é um engodo muito mais preciso para seus esforços de otimização, porque seu objetivo é minimizar o impacto de incidentes e não simplesmente apresentar melhores relatórios de resposta à sua diretoria. (Para saber mais sobre o tempo de inatividade e como ele é tratado, consulte Qual o tempo médio entre falhas realmente significa.)

Você pode automatizar, fornecendo visibilidade total dos aplicativos para “iniciar o relógio” retroativamente, se necessário, e preservar um registro completo de suas atividades e comunicações de resolução para análise e auditoria para melhorar seus processos.

4. Mantenha as partes interessadas informadas - mas sem interromper a resolução

As partes interessadas esperam comunicações eficazes e oportunas, enquanto esperam que os especialistas no assunto continuem focados a laser na solução de problemas. Embora você possa designar um ponto de contato de comunicação para monitorar e envolver usuários de negócios, uma estratégia mais eficaz seria criar uma página da web de autoatendimento com atualizações de status. Isso permite que as partes interessadas verifiquem a si mesmas sem bombardear sua equipe com mais chamadas e es. Lembre-se de atualizar as partes interessadas regularmente, para que elas sempre recebam e saibam esperar o último relatório de status. Não se esqueça que a comunicação não deve parar simplesmente porque o serviço é restaurado! É importante que as partes interessadas obtenham um resumo do que aconteceu, o que foi aprendido e como a situação pode ser evitada no futuro.

A automação, nesse caso, pode ser implementada para criar uma página de status automática em tempo real para as partes interessadas, além de criar comandos de barra na sua ferramenta de bate-papo para atualizar essa página.

5. Colete dados para dar suporte ao gerenciamento de problemas

A restauração do serviço não representa o fim do gerenciamento de incidentes! De fato, algumas das atividades mais valiosas ocorrem após a resolução. Ao coletar dados de diagnóstico e impacto e executar a análise de causa raiz, você pode executar uma auditoria completa de um incidente grave, que inclui a implementação de medidas preventivas para evitar incidentes semelhantes no futuro. Além disso, mesmo que um incidente reconhecível ocorra novamente, você pode criar um procedimento definido para quais tipos de dados você precisa coletar e as etapas que precisam ocorrer para direcionar a resolução. Dessa forma, sua equipe simplesmente precisa se referir a uma lista de verificação e se concentrar no objetivo principal de restaurar o serviço, em vez de se preocupar com o que precisa e quando.

A automação aqui pode capturar e preservar atividades de resolução, incluindo transcrições de bate-papo, em um único sistema de registro para análise. Além disso, ele ajudará a criar um catálogo de incidentes ou problemas familiares, solidificará as melhores práticas para cada um e, portanto, aumentará a velocidade da resolução no futuro.

Em conclusão: automatize mais esperto, não mais

Lembre-se de que mais automação não é necessariamente a melhor abordagem! É mais importante que você entenda quando, onde e como conectar seus sistemas de TI para dar suporte ao gerenciamento de incidentes. Você não deseja adicionar nenhuma complexidade desnecessária para aumentar os processos automatizados. Lembre-se de que o objetivo é simplificar e consolidar as operações o máximo possível, para que suas equipes se sintam habilitadas a lidar com problemas de maneira eficiente. Trata-se de implementar de forma inteligente a automação para facilitar um conjunto bem coordenado de processos, equipe experiente e comunicação eficaz das partes interessadas, de modo a minimizar o impacto geral nos negócios dos principais incidentes.