1. Home /
  2. Hard State e Soft State – A checagem do OpMon

Hard State e Soft State – A checagem do OpMon

Objetivo

Apresentar conceitos básicos sobre Hard State e Soft State.

Público-alvo

Administradores e usuários da Solução OpMon.

Estados

Existem dois tipos de estados cruciais na lógica de monitoração. Esses estados determinam quando um elemento monitorado irá alarmar e as notificações serão enviadas.

Além de evitar falsos alarmes de problemas transitórios, o OpMon permite definir quantas vezes um elemento deve ser verificado antes de ser considerado um problema “real”.

  • Soft State: é quando um elemento entra em um estado não-OK. Porém, antes de se tornar Hard State, serão realizadas novas re-checagens.
  • Hard State: é quando um elemento passa para um estado não-OK após o esgotamento máximo de re-checagens.

    Sempre que um elemento estiver no estado OK, ele estará em Hard State (OK) também.

  • Informações básicas de checagem:

  • Normal Check Interval: Intervalo normal de checagem é o tempo definido para se checar um determinado host ou serviço (em minutos).
  • Retry Check Interval: Intervalo de re-checagem, é durante esse intervalo que os elementos estarão em “Soft State”. O monitoramento irá checar se o host ou serviço permanece em estado não OK ou se foi normalizado. O intervalo dessas re-checagens é definido nas configurações (em minutos).
  • Maximum Check Attempts:Número máximo de tentativas de checagem (quantidade de vezes).
  • Como funciona:

    Quando um host ou serviço está em estado “OK” ele está em “Hard State”, porém quando o mesmo, ao ser checado, obtiver algum resultado que caracterize indisponibilidade, alto uso de recurso ou qualquer anomalia, o estado é alterado para “Soft State”, onde será feita N checagens conforme definido nas configurações (Maximum Check Attempts), e cada checagem será feita em N minutos conforme foi configurado (Retry Check Interval).

    Após atingir o máximo de tentativas de checagem o estado será alterado para “Hard State”.

    Caso o host ou serviço volte para o estado “OK”, durante essas tentativas, o mesmo assumirá imediatamento o estado de OK – Hard State.

    Caso ele permaneça no estado não OK, ele assumirá os estados de Critical, Warning, Fora, Desconhecido, etc – Hard State, e irá gerar um incidente e notificar os contatos que foram vinculados ao host ou serviço.

    Exemplos:

    Considere a imagem abaixo.

     

     
    Suponha que o serviço Firewall esteja “OK”. A cada 5 minutos será feita uma checagem normal. Porém se este serviço parar por algum motivo, quando ocorrer a checagem normal este serviço será alterado automaticamente para “Soft State” e uma anotação de tentativas e tentativas máximas irá aparecer na tela principal do OpMon.

    A partir disso, OpMon irá realizar uma checagem a cada 1 minutos até o máximo de 5 re-checagens.

     

     
    Caso alguma dessas re-checagens colete o valor de OK para este serviço, o mesmo mudará de “Soft State” para “OK – Hard State”.

    Caso o serviço não volte a funcionar corretamente ele será alterado de “Soft State” para “Hard State”, assumindo o estado Critical, Warning ou Desconhecido.

    Será gerado um alerta, notificando assim o contato vinculado ao serviço em questão em apenas 5 minutos.

    Updated on 31/08/2021

    Esse artigo foi útil para você?

    Ficou com alguma dúvida?

    Perguntas & Respostas

    Participe da nossa comunidade e tire dúvidas ou compartilhe respostas e ideias.

    Participar

    Professional Support

    Não encontrou a resposta que procura? Não se preocupe, estamos aqui para ajudar!

    Abrir chamado

    Treinamento Online

    Através da plataforma Udemy, você encontra todos os treinamentos das nossas soluções.

    Inscreva-se