Análise de entropia

Ao longo de mais 20 anos trabalhando com sistemas de gerenciamento de infraestrutura de TI e redes, a OpServices acumulou uma vasta experiência para ajudar seus clientes a utilizar as melhores práticas de gestão em seus ambientes de TI. Um dos itens que consideramos muito importante é a correta manutenção da plataforma de monitoramento.

E como podemos saber se o OpMon, ou o software de gerenciamento de TI utilizado por sua empresa, está com sua configuração ideal? Chamamos isso de entropia do sistema, ou simplificando, o nível de desorganização do sistema.

 

Entropia do monitoramento

A entropia é a tendência dos sistemas cibernéticos de se desorganizarem, perdendo energia e informação e rumar para a autodestruição. Já a sintropia é a programação dos sistemas cibernéticos para se organizarem e reorganizarem de modo a manter ou repor energia e informação visando a preservar sua configuração e existência, um programa de auto-preservação.

Embora alguns itens no OpMon já possuam o auto-monitoramento, realizado de forma automática, muitos itens precisam de uma análise mais qualitativa. É essa a ideia deste artigo, abordar 10 itens que analisamos de forma qualitativa para nossos clientes.

 

1. Excesso de incidentes

Em nossa experiência sabemos que ambientes com poucos incidentes são sinais de atenção aos problemas críticos. Excesso de incidentes pode significar alertas/thresholds mal configurados ou itens que não deveriam ser monitorados por não serem importantes, visto que as falhas não estão sendo corrigidas. É importante dar atenção a este item, caso esteja ocorrendo, pois ajuda a priorizar os problemas a serem corrigidos.

Como identificar: Mais de 10% do total da infra ou 50 incidentes no total.

 

2. Muitos dias sem adição/remoção de hosts

Sabemos que os ambientes de nossos clientes estão cada vez mais dinâmicos, principalmente com a utilização de máquinas virtuais, arquiteturas em nuvem e microserviços. Portanto, empresas que constantemente adicionam e removem hosts ao monitoramento possuem probabilidade maior de ter esse ambiente bem gerenciado.

Como identificar: Mais de 2 meses sem adição/remoção de ICs ou serviços.

 

3. Alertas falsos positivos

Uma boa configuração dos alarmes/thresholds gera diversos benefícios para o bom gerenciamento do ambiente. De regra geral, todos os incidentes devem ser tratados. Caso algum incidente esteja alarmando sem necessidade (comportamente normal do elemento) ele deve ser eliminado da monitoração ou utilizar algum recurso de “acknowledge”.

Um exemplo disso é a CPU ir a 100% no backup que roda na madrugada. Ele pode não estar impactando os usuários e a infraestrutura neste horário. Neste caso, poderíamos sugerir a implementação do monitoramento adaptativo ou a eliminação do threshold.

Como identificar: Análise qualitativa dos alertas dos últimos 30 dias.

 

4. Não estruturar a monitoração (causa raiz)

O monitoramento de disponibilidade e performance é básico, sendo o primeiro passo para qualquer estrutura a ser monitorada. Entretanto, gera pouco valor a TI e ao negócio da empresa, tornando atuação mais reativa.

Boas práticas de governança sugerem a estruturação da monitoração a fim de se descobrir, por exemplo, quando uma loja online está indisponível, qual elemento de infraestrutura está impactando. Para isso é indicado configurar catálogos de serviços, topologia de redes e grupos de hosts e serviços.

Como identificar: Não ter configurados catálogos, topologia e grupo de hosts e serviços.

 

5. Tendência de aumento de incidentes

Além de monitorar e tratar as falhas, atuando proativamente e preventivamente, é importante fazer uma análise de tendência de aumento/redução de incidentes. No cenário ideal, é importante que ocorra uma tendência de redução dos incidentes, a partir de reestruturação do ambiente e da monitoração. Algumas exceções podem se dar em casos de crescimento acelerado do ambiente, tornando inevitável e até normal.

Como identificar: Análise qualitativa do relatório de CP dos últimos 12 meses com tendência de crescimento (total de incidentes mensais).

 

6. Plataforma desatualizada

A atualização da solução garante a utilização dos últimos recursos e correções de segurança. Em alguns casos é recomendada a utilização de um ambiente de homologação, principalmente em ambientes muito customizados em que agentes customizados podem ser impactados por novas funcionalidades.

Como identificar: Verificação da última versão no changelog.

 

7. Falta de dashboards ou visualização pobre

Um dos principais diferenciais da nossa plataforma são os dashboards, que permitem maior visibilidade do ambiente de TI e de negócio. Empresas que trabalham bem a representação gráfica das visões costumam valorizar sua área perante o restante da organização. É importante, por sua vez, que os dashboards contenham prioridade visual, ou seja, que não haja excesso de elementos e cores.

Como identificar: Análise qualitativa e verificação se os dashboards do OpMon e do Grafana estão populados e com apelo visual.

 

8. Alertas não escalonáveis

O correto envio de alertas para os responsáveis e sua posterior escalação para outros responsáveis é fundamental para que a plataforma possa enviar os alarmes para as pessoas certas e no tempo certo. Se a plataforma não possuir uma cadeia de envio de alertas devidamente configurada, seus problemas podem ficar sem solução de forma prolongada. Ou seja, problemas sem responsáveis tornam um pequeno incidente em uma porta de entrada para a indisponibilidade de sistemas.

Como identificar: Não encontrar configuração de responsáveis pelos serviços monitorados.

 

9. Latência da monitoração

A latência na monitoração informa quanto tempo a plataforma está atrasando suas checagens em função de carga excessiva na plataforma. O correto dimensionamento do hardware permite que os dados coletados na monitoração tragam informações acuradas e que não haja perda na confiabilidade das informações.

Como identificar: Latência maior que 30 segundos nas checagens.

 

10. Número de relatórios gerados

A emissão de relatórios regulares para acompanhar a disponibilidade e a saúde do seu ambiente de TI mostra a maturidade da gestão da sua infraestrutura. Além de apontar possíveis gargalos ou problemas, mostra que a gestão está atenta ao planejamento da sua capacidade instalada, exibindo seus recursos e sua utilização. Uma boa prática, caso sua plataforma permita, é o agendamento automático dos relatórios mais importantes.

Como identificar: Quantidade/existência de relatórios agendados.

Updated on janeiro 15, 2020

Was this article helpful?