Succès clients

Maintenance prédictive des réseaux et services mobiles avec l’IA

jeu. 12 oct. 2023

En Europe comme partout dans le monde, les volumes des données véhiculées sur le réseau mobile explosent. Avec le cloud, la virtualisation, l’arrivée de la 5G SA, l’architecture du réseau devient hétérogène et encore plus complexe. L’utilisation des techniques actuelles de maintenance et supervision des équipements du réseau aura ses limitations et son manque de réactivité et de proactivité. Dans ce contexte, la mise en place de nouvelles techniques basées sur le cloud et l’intelligence artificielle de supervision pour anticiper et détecter les incidents sur le réseau vient au cœur des intérêts des opérateurs mondiaux et notamment chez Orange.

Les incidents sur le réseau sont souvent détectés quelques minutes voire quelques heures après l’incident ce qui engendre des perturbations pour les clients, qui sont parfois à l’origine de la signalisation de l’incident en appelant le service clients, et une non-satisfaction globale. La supervision avec des seuils statiques nécessite de maintenir et revoir ces seuils périodiquement et s’avère limitée dans la détection des pics i.e. les anomalies à la suite de grandes pannes ce qui rend la détection d’anomalies moins importantes peu ou pas détectables. D’autre part, l’analyse des alarmes est une tâche complexe en raison de leur volume, leur répétitivité, de la différence d’interprétation d’alarmes provenant d’équipements de différents constructeurs.

Chez Orange, le programme stratégique place la data et l’IA au cœur du modèle d’innovation et c’est ainsi que le programme AI Empowered Networks est lancé pour développer une IA responsable et durable pour des réseaux plus intelligents et une meilleure efficacité opérationnelle. Un autre objectif du programme est de fournir du support aux filiales pour développer et implémenter leurs use-cases réseaux. Le projet de maintenance prédictive (cœur de réseau et bout-en-bout) s’inscrit dans le cadre de ce programme.

Pour renforcer les équipes de data scientistes, engineers dans le développement de use-cases réseaux, dans l’automatisation et la cloudification et la gestion des trials avec des fournisseurs externes et partenaires, Orange Innovation a fait appel à Sofrecom pour une chef de projet avec une bonne expertise réseaux afin de conduire les développements, la définition des use-cases avec les business owners et la synchronisation avec les directeurs du programme.

Développement de use-cases en mode Agile avec les équipes opérationnelles des filiales

Les filiales du groupe ont montré un grand intérêt pour l’IA afin de soulager les équipes opérationnelles et les aider à détecter voire prédire les incidents qui peuvent impacteur le réseau, les services et les clients. Le travail a été organisé en mode agile avec les outils de collaboration adéquats afin de développer des MVPs en toute flexibilité, livrer régulièrement des versions du produit au client et avoir son feedback. Cette collaboration a permis des échanges réguliers avec le client, une adaptation aux changements ainsi qu’une meilleure priorisation du travail à faire. Ainsi, selon le besoin du use-case, nous avons utilisé le framework scrum (les cérémonies respectées : daily standup, sprint planning, sprint review et retrospetive) et kanban, les outils de collaboration comme confluence (gestion de la documentation), Jira (suivi de tickets, user stories etc.), microsoft teams parmi d’autres.

Etapes de développement et déploiement sur le Cloud

Pour chaque use-case, le processus itératif mis en place consiste en plusieurs étapes:

  • La première étape est la définition du business case avec le client afin de bien cadrer le problème à résoudre, les données à exploiter et le type de dégradation à détecter.
  • Dans un environnement de test peut commencer la phase de « Data Exploration » qui consiste à explorer le grand volume de données et ensuite analyser les tendances, les caractéristiques statistiques ainsi que les corrélations.
  • Après l’exploration des données, les data scientistes sélectionnent le ou les meilleurs algorithmes permettant la détection ou la prédiction d’anomalies quand c’est possible.
  • L’étape suivante est la mise en place sur le cloud du pipeline data et de la feature engineering afin de traiter les données brutes les nettoyer et les transformer en données exploitables par les algorithmes de Machine Learning (ML).
  • Ensuite, le modèle de ML est mis en place et implémenté dans la platforme cloud.
  • A l’étape d’évaluation, les résultats sont étudiés et analysés. Des itérations aux précédentes étapes peuvent avoir lieu afin d’améliorer les performances de détection.
  • Vient ensuite la phase de déploiement au cours de laquelle un environnement de déploiement est créé et mis en place après la définition d’un operating model définissant les rôles et les responsabilités de chaque partie
  • Afin de suivre les performances du modèle, un système de supervision est mis en place.

Cette méthodologie itérative offre la possibilité de revenir en arrière afin d’apporter des modifications et des améliorations avec un minimum d’impact et pour de meilleures performances.

Généralisation d’un framework réplicable aux use-cases

Les travaux d’expérimentation sur les use-cases ont permis une capitalisation autour d’une approche commune et réplicable aux use-cases de détection d’anomalies réseau. Le framework généralisé permet une automatisation de bout-en-bout et une intégration simple de nouveaux use-cases.

Différents modules composent ce framework en commençant par l’ingestion des données (envoie des données sur la plateforme en quasi-temps réel) à la data pipeline suivie par ML pipeline. Un module personnalisable de data visualisation avec des dashboards permet une représentation graphique des données et des résultats. Enfin un module de feedback loop permet aux experts métiers d’annoter les anomalies (par confirmation ou infirmation) après réception d’une notification ou après consultation des dashboards.

Entre motivation et peur du changement de certains clients

En pleine pandémie, cette mission a duré deux ans au sein d’une équipe pluridisciplinaire mobilisée depuis plusieurs pays et dont les clients étaient les équipes techniques des filiales en Europe. Grâce aux outils de collaboration utilisés, aux cérémonies agiles régulières et aux différents workshops organisés en physique, la collaboration et les échanges ont été fluides et riches.

Le sujet autour de l’intelligence artificielle est un sujet très intéressant au cœur des intérêts du groupe et m’a permis de développer des compétences autour du cloud, big data et ML. Au cours de ce projet, les interlocuteurs étaient variés côté client allant des experts réseaux aux responsables d’équipes et managers d’équipes d’exploitation. Certains étaient très motivés pour les sujets de l’IA et voyaient un grand potentiel pour les aider dans l’automatisation des tâches quotidiennes, la détection d’anomalies difficilement ou pas détectables avec les méthodes actuelles. Ces derniers ont permis d’avancer vers de résultats concrets sur certains use-cases par leur motivation et implication.
D’autres collaborateurs ont accueilli ces projets par une grande méfiance de peur de voir leur travail bouleversé et changé. Le changement nécessite ainsi plus de formation et d’acculturation à l’IA comme le but de cette dernière est d’aider les équipes dans leur travail et d’aller plus vers la résolution des incidents afin d’apporter la plus grande satisfaction des clients.

Elie ABDO

Architecte Réseaux