Assurer et maintenir la disponibilité de son parc de ServiceNav Box

Objectif de cette documentation

Si la plateforme centrale est le cœur de ServiceNav, les box de supervision en sont les yeux.
Les ServiceNav Box (SNB ou box de supervision) permettent de :

  • Collecter les informations de supervision sur le LAN du client ou depuis une source externe.
  • Transmettre les données collectées à la plateforme centrale via le tunnel VPN.
  • Envoyer des alertes mails (indépendamment de l’accès au tunnel VPN).
  • Recevoir les instructions données par l’utilisateur via l’interface web (contrôle immédiat, acquittement, application de configuration).

Il est primordial de s’assurer que les box de supervision ne subissent aucunes indisponibilités.

Cette documentation expliquera comment éviter les indisponibilités des SNB et comment résoudre certains problèmes le cas échéant.

Superviser ses ServiceNav Box

On ne vous apprendra rien si on vous dit que le meilleur moyen de prévenir la panne d’un équipement est de le superviser ?
Ça tombe bien ServiceNav est fait pour ça !

A la mise en place d’une ServiceNav Box, les deux premiers réflexes doivent être :

  • Auto-supervision de la box via le modèle d’équipement ServiceNav Box – autosupervision.
    En terme de ressources, il est très important de suivre l’utilisation :

    • La charge CPU : environ 1vCPU pour 1000 points de contrôle (à adapter en fonction des points de contrôle utilisés). Un manque de CPU entraînera une instabilité de la box et des retards dans l’exécution des points de contrôle.
    • RAM : un manque de RAM peut empêcher les points de contrôle d’être exécutés et peut entraîner des coupures des services nagios ou openvpn entraînant un arrêt de la supervision.
    • Espace disque : un manque d’espace disque entraînera la mise en lecture seule du système de fichier et une instabilité voire arrêt de la supervision.
  • Supervision croisée via une autre box avec le modèle d’équipement ServiceNav Box – Supervision par superviseur.
    Le point de contrôle Box-Live-Status permet de s’assurer que la box supervisée ait bien envoyée des données de supervision depuis les X dernières minutes.
    Si ce point de contrôle passe CRITIQUE c’est que la SNB supervisée n’envoie plus de données à la plateforme centrale et donc que les statuts présents sur l’interface web ne sont plus d’actualités. Il est impératif de prendre des actions pour rétablir la communication.

Important à noter : la supervision et la maintenance des box sont sous le responsabilité des clients.

Pour plus de détails, un webinaire entièrement dédié aux box et à leur supervision est disponible ici : Comment superviser vos ServiceNav Box.
La mise en supervision des box est décrite à la fin de la documentation suivante : Installation d’une SNB

Résoudre les problèmes d’une ServiceNav Box

Même si les risques sont fortement diminués grâce à la supervision, il est possible qu’une ServiceNav Box subisse des indisponibilités.
La partie qui va suivre présentera quelques scénarios courants et la manière de résoudre le problème.

Scénarios

  • Connexion au tunnel VPN impossible, forte latence de la box dans le tunnel VPN, pertes de connexion intempestives.
    –> Suivre la solution : Vérifier les accès réseaux.
  • Tous les points de contrôles sont en état Indéterminé.
    –> Suivre la solution : Vérifier les accès réseaux.
    –> Si le problème n’est toujours pas résolu : suivre Redémarrer remoteOperationBox et nagios.
  • Les contrôles effectués par une ServiceNav Box ont un horodatage très ancien.
    –> Suivre la solution : Redémarrer remoteOperationBox et nagios.
  • Impossible de recharger la configuration sur une Servicenav Box.
    –> Suivre la solution : Redémarrer remoteOperationBox et nagios.
  • Les acquittements ne sont pas pris en compte.
    –> Suivre la solution : Redémarrer remoteOperationBox et nagios.
  • Les contrôles immédiats lancés depuis l’interface web ne sont pas pris en compte.
    –> Suivre la solution : Redémarrer remoteOperationBox et nagios.

Solutions

Vérifier les accès réseaux

  1. Vérifier les performances de la SNB (charge CPU, RAM, espace disque) et en ajouter si nécessaire.
  2. Vérifier que la box soit bien à l’heure avec la commande date.
  3. S’assurer qu’aucune modification/suppression des règles du pare-feu n’a été effectuée récemment.
  4. Vérifier que la box ait accès au port VPN ServiceNav en sortie vers la plateforme centrale.
    Pour la plateforme https://servicenav.io            –> telnet vpn.servicenav.io $(awk -F ‘[ ]’ ‘NR==42 {print int($3)}’ /etc/openvpn/client.conf)
    Pour la plateforme https://azure.servicenav.io –> telnet vpn-azure.servicenav.io $(awk -F ‘[ ]’ ‘NR==42 {print int($3)}’ /etc/openvpn/client.conf)
    Pour une plateforme OnPremise                           –> telnet <ip-publique-plateforme> <port>
    Accès fonctionnel :

    Si pas d’accès, faire le nécessaire au niveau du pare-feu.
  5. S’assurer que l’adresse IP LAN de la box ne soit pas également attribuée à une autre machine sur le même réseau.

Redémarrer remoteOperationBox et nagios

Le processus remoteOperationBox  assure l’envoi et la réception de messages entre la box et la plateforme centrale.
S’il ne fonctionne plus :

  • Les données supervision collectées par la box ne seront plus en envoyées à la plateforme centrale.
  • Toutes les actions effectuées sur l’interface web en direction de la box ne lui seront plus transmises.

Le processus nagios assure l’ordonnancement des points de contrôle. Il communique avec remoteOperationBox pour prendre en compte des exécutions de contrôle immédiats ou des acquittements réalisés par l’interface web.

Exécuter les opérations suivantes :

  • Se connecter sur la ServiceNav Box avec un client SSH.
  • Arrêter le processus remoteOperationBox :
    • Exécuter : service remoteOperationBox stop
    • Vérifier que plus aucun processus ne s’exécute : ps aux | grep remoteOperationBox
    • Si c’est le cas, tuer manuellement les instances de processus : kill <id> ou kill -9 <id> en cas de résistance
  • Arrêter le processus nagios :
    • Exécuter : service nagios stop
    • Vérifier que plus aucun processus ne s’exécute : ps aux | grep nagios (l’arrêt de nagios peut prendre un peu de temps, refaire plusieurs fois la commande ps).
    • Si il reste des processus nagios : les tuer manuellement : kill <id> ou kill -9 <id> en cas de résistance.
  • A ce stade, remoteOperationBox et nagios ne doivent plus tourner et aucun processus ne doit être présent en sortie de la commande ps.
  • Relancer le service nagios : service nagios start
  • Relancer le service remoteOperationBox : service remoteOperationBox start et vérifier la présence de 6 instances du service.
  • Vérifier sur l’interface web que le fonctionnement de l’application est de nouveau effectif.

Si les problèmes persistent après le redémarrage des 2 services, merci de contacter le support ServiceNav.

Assurer la reprise d’activité d’une ServiceNav Box

Trois cas d’usage :

  • La ServiceNav Box est complètement inutilisable malgré un redémarrage. Impossible de s’y connecter via SSH ou via une console locale.
    –> Suivre cette documentation : Assurer le PRA d’une ServiceNav Box, chapitre « Remplacement complet d’une ServiceNav Box ».
  • Migrer une ServiceNav Box défectueuse, mais encore accessible, vers une nouvelle.
    –> Suivre cette documentation : Migration ServiceNav Box
  • Effectuer un rollback de la ServiceNav Box grâce à une sauvegarde.
    –> Suivre cette documentation : Assurer le PRA d’une ServiceNav Box, chapitre « Rollback depuis une sauvegarde de la ServiceNav Box ».

Consultant sur le produit ServiceNav, très curieux de découvrir de nouvelles technologies et de nouveaux équipements pour pouvoir les intégrer à la supervision. J’ai à cœur de mener à bien nos projets et de trouver des solutions pour parfaire l’expérience de nos clients.