Infogérance & MSP20 mars 202610 min

SLA d'infogérance pour PME

Un SLA utile ne se limite pas à un délai de réponse. Il décrit la criticité, la méthode de mesure, les fenêtres de service et les conditions de reprise.

Le SLA est souvent présenté comme le coeur d'un contrat d'infogérance. Dans beaucoup d'offres, il se résume pourtant à quelques lignes sur le délai de réponse. Cette approche rassure à la lecture. Elle reste trop faible pour piloter un service réel.

Un SLA utile ne mesure pas seulement la vitesse. Il décrit la manière dont le prestataire traite la criticité, organise l'escalade et rend compte de la qualité du service dans le temps.

Un exemple concret de mauvais et de bon reflexe

Un mauvais reflexe consiste a ne regarder qu'un delai de reponse du type prise en charge sous une heure. Cette formulation parait solide. Elle ne dit pourtant rien du temps de retablissement, ni de la criticite, ni du fait que l'incident puisse bloquer toute l'activite.

Un meilleur reflexe consiste a distinguer l'accuse de prise en charge, le delai de contournement, le delai de retablissement vise et les dependances eventuelles a un tiers. Ce n'est qu'a ce niveau que le SLA commence a decrire un service reel.

Le problème réel

Un délai de prise en charge rapide ne garantit ni une résolution correcte ni une reprise satisfaisante. Une équipe peut répondre vite à un ticket et laisser un système critique indisponible pendant trop longtemps. Une autre peut respecter formellement un engagement qui n'était pas relié aux vrais enjeux métier.

Le problème n'est donc pas l'existence d'un SLA. Le problème est la qualité de sa construction.

Les briques d'un SLA utile

La criticité

Tous les incidents n'ont pas la même portée. Un utilisateur bloqué sur une application non critique ne représente pas le même enjeu qu'une panne d'authentification, d'accès Internet principal ou de restauration impossible. Le SLA doit reposer sur des niveaux de criticité définis avant l'incident.

La prise en charge

Le délai de prise en charge mesure le temps nécessaire pour reconnaître l'incident et commencer son traitement. Cet indicateur est utile. Il ne peut pas être l'unique référence.

La résolution

Le délai de résolution mesure le retour à un état de service acceptable. C'est généralement l'indicateur le plus proche de l'impact métier lorsque l'incident affecte directement la production. Il doit donc être défini avec précision.

La plage de service

Un engagement n'a de sens que s'il indique la fenêtre dans laquelle il s'applique. Heures ouvrées, extension en soirée, astreinte ou couverture élargie changent profondément la valeur réelle d'un SLA.

La méthode de mesure

Qui ouvre l'incident. À quel moment le chronomètre démarre. Quand s'arrête le compteur. Que devient le temps lorsque l'attente provient d'un tiers ou d'une validation client. Sans méthode de mesure, les chiffres restent discutables.

Les indicateurs les plus utiles en PME

Pour une PME, un SLA devient réellement pilotable lorsqu'il couvre au minimum les éléments suivants.

  1. Délai de prise en charge selon la criticité.
  2. Délai de résolution ou de contournement selon la criticité.
  3. Disponibilité des services clés.
  4. Délai de restauration en cas d'incident majeur.
  5. Fréquence de revue du respect des engagements.

Ces indicateurs ont un intérêt simple. Ils relient le service rendu à la continuité réelle de l'activité.

Ce que les termes RTO et RPO changent vraiment

Le sujet des sauvegardes est souvent traité à part. En réalité, il appartient pleinement au niveau de service. Le RTO correspond au temps de reprise visé après incident. Le RPO correspond à la quantité de données acceptable à perdre. Ces deux notions structurent la continuité. Elles ne relèvent pas seulement de la technique.

Un SLA qui parle de sauvegarde sans relier celle ci à des objectifs de reprise laisse de côté la question essentielle. Combien de temps l'activité peut elle rester dégradée et combien de données peut elle accepter de perdre.

La différence entre engagement contractuel et objectif interne

Le terme SLA renvoie à un engagement de service formalisé. Certaines organisations suivent aussi des objectifs internes de performance qui n'ont pas la même valeur contractuelle. Cette distinction compte. Un indicateur peut guider l'amélioration continue sans devenir pour autant un engagement opposable dans le contrat.

Une grille simple de criticité

NiveauExempleObjectif de prise en chargeObjectif de rétablissement
CritiqueProduction arrêtéeTrès courtCourt
MajeurService important dégradéCourtModéré
StandardIncident utilisateurModéréModéré
MineurDemande non bloquanteNormalPlanifié

L'intérêt d'une telle grille n'est pas de donner des chiffres universels. Son intérêt est d'empêcher qu'un incident important soit traité comme une simple gêne utilisateur.

Ce qui merite souvent une cible differente

Tous les sujets n'appellent pas le meme engagement.

SujetCe qui compte le plus
Support utilisateurPrise en charge et priorisation
Serveurs et applications critiquesRetablissement et escalade
SauvegardesVerification et objectifs de reprise
Acces Internet et reseau principalContournement et coordination tiers

Cette distinction evite d'appliquer une logique unique a des incidents qui n'ont pas le meme impact.

Les erreurs fréquentes

Utiliser un seul indicateur

Un SLA réduit au délai de réponse crée une illusion de maîtrise. Il laisse de côté la reprise, la disponibilité et la qualité réelle de la résolution.

Ne pas relier les SLA aux systèmes critiques

Un engagement générique perd beaucoup de valeur s'il ne distingue pas les services vitaux des services secondaires.

Oublier les dépendances externes

Opérateur, éditeur, hébergeur cloud ou fournisseur de téléphonie peuvent influencer la résolution. Le contrat doit expliquer comment ces dépendances s'articulent avec le SLA principal.

Confondre SLA et SLO

Le SLA engage contractuellement le prestataire. Le SLO reste un objectif de performance interne ou de pilotage. Les deux notions peuvent coexister. Les confondre produit surtout des malentendus sur ce qui est réellement opposable.

Ne jamais revoir les niveaux de service

Une PME évolue. Les systèmes critiques changent. Un SLA pertinent doit être réévalué régulièrement. Un bon reporting de gouvernance permet justement de voir si les engagements restent adaptés.

Ce que cela change concrètement

Un SLA bien conçu permet de sortir d'une logique purement impressionniste. Le ressenti sur la qualité du service devient mesurable. Les priorités de traitement deviennent explicites. Les arbitrages budgétaires deviennent plus rationnels.

Il devient aussi possible de comparer deux offres sur une base réelle. Sans structure de criticité, sans méthode de mesure et sans objectifs de reprise, le mot SLA reste largement décoratif. Pour un cadrage plus global, le contrat d'infogérance doit toujours être lu en parallèle.

Sources

Accompagnement disponible sur ce sujet

Initial Infrastructures intervient sur l'ensemble de ces problématiques pour les PME et ETI. Un échange court permet d'identifier les priorités et le bon niveau d'intervention.