La supervision réseau est souvent réduite à un choix d'outil. Zabbix, PRTG, Centreon, LibreNMS, supervision constructeur, observabilité cloud. Cette discussion arrive vite. Elle arrive généralement trop tôt.
Le premier sujet n'est pas le logiciel. Le premier sujet est la lecture opérationnelle. Une PME n'a pas besoin de centaines d'indicateurs. Elle a besoin de quelques signaux capables de répondre à trois questions simples. Le réseau est il disponible. Est il en train de se dégrader. Et si un incident survient, où faut il regarder en premier.
Le problème réel
Une supervision réseau devient inutile quand elle produit beaucoup d'alertes et peu d'arbitrage. Des centaines d'événements remontent, mais les utilisateurs découvrent encore les incidents avant l'équipe technique. Dans ce cas, l'organisation collecte des données sans vraiment surveiller le service.
Le problème n'est donc pas le manque d'information. Le problème est l'absence de hiérarchie dans l'information.
Ce qu'une supervision doit apporter en PME
Une supervision utile en PME doit produire quatre effets mesurables.
Détecter une perte de service sans attendre un appel utilisateur
Un lien Internet, un firewall, un switch coeur, un contrôleur Wi Fi ou une passerelle VPN doivent être vus comme critiques. Si l'un de ces éléments disparaît, l'information doit remonter immédiatement.
Voir la dégradation avant la panne
Le réseau tombe rarement sans signes préalables. Une saturation monte, des erreurs apparaissent sur un uplink, le CPU d'un firewall grimpe, une borne concentre trop de clients. Une supervision utile ne signale pas seulement l'arrêt. Elle signale la dérive.
Réduire le temps de diagnostic
Quand un incident arrive, la première valeur d'une supervision n'est pas visuelle. Elle est pratique. Depuis quand le problème existe. Quel équipement est touché. Quelle interface est concernée. Quel service dépend de ce composant. Plus la réponse est rapide, plus le temps d'indisponibilité recule.
Produire un historique exploitable
Sans historique, chaque panne semble isolée. Avec un historique, des motifs réapparaissent. Un accès VPN qui sature tous les lundis matin. Un lien Internet qui atteint 90 % à chaque fenêtre de sauvegarde. Une borne Wi Fi qui décroche systématiquement en fin de journée. C'est cette continuité de lecture qui transforme la supervision en outil d'exploitation.
Les indicateurs à suivre en priorité
Une petite structure n'a pas besoin de tout surveiller au même niveau. Un socle simple est largement suffisant pour démarrer correctement.
Une configuration minimale qui tient déjà la route
Pour une PME classique avec un firewall, un switch coeur, quelques bornes Wi Fi et un lien Internet principal, une supervision utile peut démarrer avec un périmètre très limité.
| Élément | Contrôles minimum |
|---|---|
| Firewall principal | Disponibilité, CPU, mémoire, sessions VPN |
| Lien Internet | Disponibilité, latence, saturation |
| Switch coeur | Disponibilité, uplinks, erreurs d'interface |
| Bornes Wi Fi critiques | Disponibilité, nombre de clients, charge |
| DNS / DHCP si internes | Disponibilité, temps de réponse |
Cette base tient en quelques contrôles. Elle est déjà suffisante pour voir les incidents les plus coûteux et les dérives les plus fréquentes.
1. Disponibilité des équipements critiques
| Élément | Pourquoi le suivre |
|---|---|
| Firewall principal | Point de passage et de filtrage central |
| Switch coeur | Impact transverse sur le site |
| Lien Internet principal | Dépendance immédiate au cloud et aux accès externes |
| Contrôleur Wi Fi ou borne critique | Dépendance forte dans les zones de production |
| Passerelle VPN | Service vital pour les accès distants |
Un contrôle ICMP ou TCP simple ne suffit pas à expliquer une panne. Il suffit en revanche à déclencher rapidement un diagnostic.
2. Utilisation des interfaces clés
Le bon réflexe n'est pas de surveiller tous les ports. Il est de surveiller les interfaces qui portent réellement les flux structurants.
Cela concerne généralement :
- uplinks Internet
- trunks vers le coeur de réseau
- interfaces du firewall
- liens entre switches principaux
- interfaces menant vers les serveurs ou NAS critiques
En pratique, un seuil d'alerte informatif autour de 70 à 75 % et un seuil plus fort autour de 85 à 90 % créent déjà une lecture utile. Ces valeurs ne sont pas universelles. Elles donnent une base de travail raisonnable.
Seuils utiles au lieu de seuils parfaits
Le but n'est pas de trouver le seuil théorique idéal dès le premier jour. Le but est d'éviter deux échecs classiques. Des alertes trop basses qui fatiguent l'équipe. Des alertes trop hautes qui arrivent quand l'incident est déjà visible.
| Indicateur | Seuil de suivi | Seuil fort | Ce que cela suggère |
|---|---|---|---|
| Utilisation uplink | 70 % | 85 % | Saturation possible ou capacité à revoir |
| CPU firewall | 70 % durable | 85 % durable | Inspection lourde, trafic anormal ou équipement sous-dimensionné |
| Erreurs interface | récurrentes | persistantes | Défaut physique, négociation ou lien instable |
| Sessions VPN | hausse inhabituelle | proche de limite | Dépendance croissante au distant ou gateway à surveiller |
Le mot important est durable. Un pic ponctuel n'appelle pas forcément une action. Une dérive qui se répète, si.
3. Erreurs, discards et qualité de lien
Une interface peut rester "up" tout en étant malade. CRC, packets discards, flapping, renégociation de vitesse, erreurs physiques. Ces signaux révèlent souvent :
- un câble dégradé
- un problème de négociation
- une boucle intermittente
- une saturation silencieuse
Ce sont des métriques souvent sous-estimées, alors qu'elles font gagner beaucoup de temps sur les incidents difficiles à qualifier.
4. CPU et mémoire sur les équipements sensibles
Sur un firewall, un routeur ou un switch L3, la charge CPU et la mémoire disponible expliquent souvent la sensation de réseau lent avant la panne franche.
Le bon niveau d'alerte n'est pas un pic ponctuel. Le bon niveau est une charge élevée qui dure. Par exemple :
- CPU au-dessus de 80 % pendant plusieurs minutes
- mémoire disponible qui baisse régulièrement dans le temps
Une supervision trop réactive aux micro-pics devient bruyante. Une supervision trop lente ne sert plus à prévenir.
5. Santé du VPN et des accès distants
Dans beaucoup de PME, le VPN est devenu aussi critique qu'un lien local. Il faut suivre au minimum :
- disponibilité de la passerelle
- nombre de sessions actives
- échecs d'authentification
- volume de trafic distant
Si les utilisateurs distants se plaignent avant que le VPN ne remonte dans la supervision, la configuration de surveillance est trop faible.
6. DNS, DHCP et NTP quand ils sont internes
Ces services paraissent secondaires tant qu'ils fonctionnent. Ils deviennent bloquants dès qu'ils tombent. Si la PME héberge encore ces services en local, ils méritent une supervision minimale.
Une hiérarchie d'alertes qui tient la route
Sans hiérarchie, chaque alerte semble urgente. Avec une hiérarchie simple, le bruit baisse fortement.
Critique
- lien Internet principal indisponible
- firewall principal hors ligne
- switch coeur indisponible
- passerelle VPN indisponible
Majeur
- interface critique au-dessus du seuil haut de saturation
- erreurs répétées sur un trunk ou uplink
- CPU élevé durable sur un firewall ou routeur
- Wi Fi fortement dégradé sur une zone clé
Suivi
- hausse progressive du trafic
- augmentation du nombre de sessions VPN
- mémoire basse sur un équipement sensible
- borne secondaire régulièrement chargée
Cette séparation évite deux erreurs fréquentes. Traiter une tendance comme une panne. Et inversement, laisser une vraie panne se noyer dans un ensemble trop large d'événements secondaires.
Un tableau de bord simple qui suffit souvent
Une vue réseau PME peut tenir sur un écran.
Internet principal OK / KO saturation
Firewall disponibilité / CPU / sessions VPN
Switch coeur disponibilité / erreurs uplink
Wi-Fi critique disponibilité / clients / charge radio
Serveur DNS/DHCP disponibilité / temps de réponse
Cette vue n'a pas vocation à tout montrer. Elle doit montrer ce qui permet d'agir rapidement.
Ce qui peut rester hors supervision au début
Une petite structure peut très bien démarrer sans surveiller :
- chaque port utilisateur
- chaque imprimante réseau
- chaque borne secondaire
- les métriques très fines de trafic applicatif
Ces éléments peuvent être ajoutés plus tard. Les superviser trop tôt rend souvent le dispositif plus bruyant que pertinent.
Une mise en place réaliste en trois étapes
Étape 1
Lister les équipements vraiment critiques et les 10 à 20 interfaces qui méritent une surveillance. Sans ce tri initial, la supervision part trop vite dans toutes les directions.
Étape 2
Définir trois niveaux d'alerte. Critique, majeur, suivi. Ce travail paraît simple. Il change pourtant profondément la qualité d'exploitation.
Étape 3
Attribuer une réaction à chaque niveau. Qui reçoit l'alerte. Qui la qualifie. Que faut il vérifier d'abord. Une alerte sans procédure produit surtout de la fatigue.
Un exemple concret pour une PME de 40 postes
Prenons un site avec :
- 1 firewall
- 2 switchs principaux
- 5 bornes Wi Fi
- 1 NAS
- 1 lien fibre principal
Le premier jeu de supervision peut se limiter à :
- disponibilité du firewall
- CPU et mémoire du firewall
- disponibilité du lien Internet
- latence vers une destination externe stable
- disponibilité des deux switchs
- trafic et erreurs sur les uplinks
- disponibilité des deux bornes les plus critiques
- nombre de clients Wi Fi sur les bornes principales
- disponibilité du NAS
- espace disque libre du NAS
Ce plan reste court. Il est déjà suffisant pour capter une grande partie des incidents qui bloquent réellement l'activité.
Les erreurs fréquentes
Tout superviser au même niveau
Quand chaque port, chaque borne et chaque équipement produit le même type d'alerte, la hiérarchie disparaît. Une PME a besoin d'un dispositif plus sélectif.
Se limiter au ping
Un équipement peut répondre tout en étant fortement saturé ou dégradé. La disponibilité dit qu'un service existe encore. Elle ne dit pas qu'il fonctionne correctement.
Oublier les liens entre cloud et réseau
Les services cloud peuvent donner l'impression que le problème est applicatif alors qu'il est réseau. DNS, accès Internet, latence, VPN, routes sortantes. Une supervision utile relie ces couches au lieu de les isoler complètement.
Déployer sans revue mensuelle
Une supervision devient bien meilleure quand elle est relue. Quelles alertes n'ont servi à rien. Quelles alertes manquaient. Quels seuils sont trop hauts ou trop bas. Sans cette revue, le dispositif se fige.
Ce que cela change concrètement
Une supervision bien conçue réduit le temps de détection, améliore le diagnostic et rend les arbitrages plus simples. Elle permet de distinguer ce qui est stable, ce qui se dégrade et ce qui demande une action immédiate.
Elle crée aussi un langage commun entre l'équipe interne, le prestataire et la direction. C'est souvent à ce moment que la supervision cesse d'être un simple écran d'outils pour devenir un vrai instrument d'exploitation. C'est dans cette logique qu'un acteur comme Initial Infrastructures peut apporter de la valeur, non pas en accumulant des métriques, mais en construisant une surveillance qui clarifie réellement la santé du réseau et la continuité du service.
Sources
- CIS Controls v8 Safeguards and Implementation Groups
- IETF RFC 3411, SNMP Management Frameworks
- NIST SP 800-137 Information Security Continuous Monitoring
- Zabbix Documentation Introduction
Sources
Accompagnement disponible sur ce sujet
Initial Infrastructures intervient sur l'ensemble de ces problématiques pour les PME et ETI. Un échange court permet d'identifier les priorités et le bon niveau d'intervention.