DOSSIER - Techniques et cas d'usage 'machine learning'

Le phénomène Big data redonne des couleurs à l’Intelligence Artificielle (IA). Outre les ’bots’ et autres solutions intégrant de l’IA faible, le ‘machine learning’ (ML), les technologies d’IA plus fortes et leurs applications telles que le ‘deep learning’ et le traitement du langage naturel (NLP) montent en puissance. Non seulement l’environnement Big data leur donne leur pleine raison d’être et leur efficacité mais aussi les algorithmes se perfectionnent pour permettre l’émergence de vrais assistants conversationnels auprès des utilisateurs métier (chatbots textuels ou vocaux), de systèmes de recommandation et de personnalisation des offres, de détection d’anomalies mais aussi d’analyse des émotions du client.

Ce dossier de recherche expose les enjeux liés à la Data Science, les techniques du ‘machine learning’, les fonctions et les cas d’usage. Enfin, il propose en synthèse quelques recommandations liées à la mise en place de ce type de projet.

INTRODUCTION : LA DATA AU CŒUR DE LA STRATÉGIE DES ENTREPRISES

Dans le cadre de la transformation numérique, la donnée est au cœur des préoccupations des directions métier et de la DSI. Car c’est d’elle dont dépendent les prises de décision liées au business de l’entreprise et à tous les niveaux.

La donnée impacte tous les leviers de croissance ou de progrès potentiels : la connaissance du client, la gestion de l’expérience et du parcours client, la gestion des demandes d’informations du client, la gestion des commandes, le respect des délais de livraison, l’optimisation du niveau de stocks, la gestion des réclamations, etc.   
Pour être en mesure de prendre des décisions averties, l’entreprise souhaite :

• Avoir des informations fiables,

• Obtenir des explications sur les données restituées ou analysées,

• Connaitre le degré de fiabilité des conclusions fournies,

• Disposer d’informations prévisionnelles,

• Élaborer différents scénarios,

• Analyser les informations à travers des vues par métier,

• Automatiser certains processus.  

 

DE LA BUSINESS INTELLIGENCE A LA DATA SCIENCE

Comment sommes-nous passés en quelques années de la Business Intelligence à la Data Science ?

La Business Intelligence permet d’interroger les données d’un Data Warehouse et de les présenter sous forme de rapports et tableaux de bord. Il s’agit de décrire les données existantes pour répondre à des questions du type « Que s’est-il passé ? Pourquoi ? ». Ici, les données sont analysées ‘a posteriori’.

L’Analytique permet d’analyser des volumes de données élargis de type Big Data (structurées ou non, internes ou externes par exemple Open Data) avec des outils de découverte et de visualisation des données pour détecter des tendances, des corrélations, prédire des phénomènes à partir des historiques sur les données pour répondre à des questions du type « Que pourrait-il arriver ? ». Ici, les flux de données sont analysés ‘en temps réel’.

Enfin, la Data Science vient encore élargir le spectre des données à analyser (avec l’IoT, les images, les vidéos, les photos etc.) mais aussi tirer parti du ‘machine learning’ grâce à un mécanisme d’autoapprentissage sur les données par les données via des algorithmes pour prescrire, émettre des recommandations et répondre à des questions du type « Que devrions-nous faire ? ». Ici, les données sont analysées ‘a priori’.

Ainsi, la Data Science se propose d’aller plus loin que la Business Intelligence et l’Analytique dans la mesure où elle vise à délivrer des informations plus précises et mieux exploitables sous forme de recommandations.

PÉRIMÈTRE DE LA DATA SCIENCE, DÉFINITION DU ‘MACHINE LEARNING’

1. Périmètre de la Data Science

La Data Science est hybride dans la mesure où elle recouvre plusieurs disciplines d’origines diverses :

• La préparation des données qui permet d’examiner les données dont on hérite en amont pour les transformer et les adapter aux usages qui en seront faits,

• Les statistiques qui permettent de collecter, traiter et interpréter les données,

• Le ‘machine learning’ qui permet d’apprendre sur les données par les données via des algorithmes,

• L’Intelligence Artificielle qui a pour ambition de simuler le cerveau humain et s’inspire des sciences cognitives.  

Ces quatre disciplines sont imbriquées et interdépendantes puisque sans transformation des données, on ne peut pas réussir ses modèles statistiques, sans statistique on ne peut pas faire de ‘machine learning’ et sans ‘machine learning’, on ne peut pas envisager d’Intelligence Artificielle.

Parmi toutes les disciplines de la Data Science, l’Intelligence Artificielle est la plus complexe d’entre elles à mettre en œuvre, car elle fait nécessairement appel aux trois autres, depuis la préparation des données jusqu’au ‘machine learning’.

En revanche, on peut faire de la Data Science sans avoir recours à l’Intelligence Artificielle. À titre d’exemple, une étude de marché qui utilise un échantillonnage statistique sur une population a sa place dans la Data Science, sans pour autant faire partie de l’Intelligence Artificielle.

2. Pourquoi la Data Science aujourd’hui ?

Les technologies de ‘machine learning’ et d’Intelligence Artificielle sont devenues possibles pour plusieurs raisons :

1.  La maitrise des environnements Big data avec :

o La prise en charge de volumes de données croissants,

o  La maitrise de la vitesse à laquelle les données arrivent, lesquelles peuvent être traitées en temps réel,

o La gestion de la variété des types de données (structurées ou non), quelle que soit leur provenance (données internes/ externes), notamment de nouveaux types de données à intégrer pour le SI (réseaux sociaux, IoT, son, images, vidéos, etc.) ;

2. Les progrès au niveau des algorithmes : même s’ils existaient déjà, les algorithmes ne cessent de se perfectionner et sont de plus en plus puissants (arbres de décision, réseaux bayésiens, réseaux de neurones sur lesquels s’appuie le ‘machine learning’, etc.) ;

3. Le Cloud computing : en architecture Cloud, les serveurs sont capables de stocker des volumes de données très importants, de supporter des traitements lourds massivement parallèles mais aussi d’offrir l’élasticité nécessaire des systèmes pour absorber la charge croissante de la quantité de données.

3. Définition du ‘machine learning’

Le ‘machine learning’ est un système d’apprentissage sur les données par les données par le biais d’algorithmes.

Si un phénomène est à observer, il convient au préalable de regrouper un maximum de données et d’attributs susceptibles de le caractériser.

Sur la base de ces données, le ‘machine learning’ suit 2 étapes principales :

• Une phase d’entrainement : l’algorithme est entrainé à appliquer des règles en se basant sur des données d’apprentissage, supervisé par un expert métier humain,

• Une phase de vérification : l’algorithme teste le modèle en appliquant ces règles sur de nouveaux jeux de données, sous le contrôle d’experts métier humains.

Le système bénéficie de marges d’adaptation pour ajuster son modèle en fonction des données dont il dispose. Plus on lui injectera de données, plus fiable sera le modèle obtenu. Dans une certaine mesure, le ‘machine learning’ peut fonctionner même en cas de données incomplètes ou brouillées. Cependant, pour obtenir un modèle exploitable et pertinent, la qualité des données reste un prérequis majeur et prioritaire.

Il permet davantage d’établir des corrélations entre plusieurs évènements plutôt qu’un lien de causalité. On peut par exemple détecter une corrélation entre la consommation de sucre et les maladies cardiaques, sans pour autant dire que l’une est la cause de l’autre. En revanche, la corrélation est utile si on souhaite identifier les personnes à risque.

>> L’intégralité de ce dossier est réservée à nos abonnés

>> Pour en savoir plus sur cette thématique

- DATA SCIENCE - Techniques et cas d'usage « machine learning » - Dossier de recherche

Nos études sur le Décisionnel/BI
 

Commentaires

Publier un nouveau commentaire