Dossier : le Machine Learning pour les nuls (pas très nuls)

Le Machine Learning est la science qui consiste à donner aux ordinateurs la capacité d’apprendre et agir comme les êtres humains, ainsi qu’à améliorer leur apprentissage de manière autonome, en se nourrissant de données sous forme de constats.
Comme pour tous les concepts, le Machine Learning peut avoir une définition légèrement différente, en fonction des sources. Voici deux définitions pratiques provenant de sources réputées :

« Le Machine Learning est la science qui consiste à faire en sorte que les ordinateurs agissent sans être explicitement programmés. » – Stanford.

« Le Machine Learning est basé sur des algorithmes qui peuvent apprendre à partir des données mises à disposition, sans recourir à la programmation basée sur des règles. » – McKinsey & Co.

Concrètement, qu’est-ce le ML?

Le Machine Learning fonctionne en recherchant une relation entre une donnée X et un résultat Y. Une fois cette relation déchiffrée, une logique en est déduite puis reproduite sur les données du périmètre cible. Le Machine Learning utilise deux types de techniques: l’apprentissage supervisé, et non supervisé.

L’apprentissage supervisé forme un « modèle » sur des lots contenants des données d’entrée (une question par exemple), étiquetées avec des données de sortie (la réponse prédéfinie à cette question) afin qu’il puisse prédire les futurs résultats des futures données.

L’apprentissage non supervisé en revanche, a pour objectif de trouver des relations cachées ou des structures sous-jacentes dans les jeux de données fournis.

Dans cet article nous nous pencherons uniquement sur l’apprentissage supervisé.

L’apprentissage supervisé utilise des techniques de classification et de régression pour développer des modèles prédictifs.

Les techniques de classification permettent de prévoir des réponses discrètes. Par exemple, déterminé si un courrier reçu dans votre boite mail est indésirable, ou si une tumeur est cancéreuse ou bénigne. Les modèles de classification classent les données d’entrée en catégories.Les applications typiques de la classification incluent l’imagerie médicale, la reconnaissance vocale, l’évaluation de la solvabilité ainsi que d’autres applications…

La classification est utilisée si les jeux de données peuvent être étiquetés, catégorisés, séparés en groupes ou classes spécifiques. Par exemple, les applications de reconnaissance d’écriture manuscrite utilisent la classification pour reconnaître les lettres et les chiffres.
Pour les plus curieux, les algorithmes courants pour effectuer la classification sont : la machine à vecteurs de support (SVM), les arbres de décisions, Méthode des k plus proches voisins, La classification naïve bayésienne, l’analyse discriminante, les réseaux de neurones artificiels et la régression logistique.

Les techniques de régressions prédisent des réponses continues, par exemple les changements de température ou les fluctuations de la demande énergétique. Les applications typiques incluent le trading algorithmique et les prévisions de la consommation électrique.

La régression est utilisée lorsque les données sont sous forme d’intervalles ou si la nature de la réponse attendue est un nombre réel (ensemble R).
Exemple : la température, le temps restant avant la défaillance d’un équipement aéronautique etc.
Encore une fois, pour les plus curieux, les algorithmes de régression courants comprennent les modèles : linéaires et non linéaires, la régularisation, la régression séquentielle (stepwise), les arbres de décisions, ainsi que les réseaux de neurones artificiels.

Les contraintes du Machine Learning à ce jour…

Le ML requiert d’importants stocks de données indispensables à la formation des algorithmes.

La première règle à retenir est que, les systèmes basé sur l’IA sont « formés » et non programmés. Cela signifie qu’ils ont besoin d’une énorme quantité de données pour être en mesure d’effectuer une « tâche » complexe, telle qu’elle est réalisée par un humain. Bien que ces jeux de données ne soient pas d’une grande difficulté à créer, et que grâce au Cloud Computing la puissance de calcul nécessaire pour faire évoluer un algorithme est bien disponible, des ensembles de données volumineux ne sont pas simples à créer ou à obtenir pour la plupart des cas d’utilisation professionnelle.

L’étiquetage des jeux de données est un processus fastidieux

L’étiquetage est une étape indispensable du traitement des données dans l’apprentissage supervisé. Ce modèle d’entrainement utilise des attributs cibles prédéfinis à partir de données historiques. L’étiquetage des données est, tout simplement, le processus de nettoyer et organiser des données brutes avant de les injecter dans l’environnement (machine) ou on va former notre algorithme.
Le ML nécessite une masse considérable de données étiquetées, et même si l’étiquetage n’est pas une « science de pointe », son aspect chronophage en fait une tâche complexe.
Dans l’apprentissage supervisé, si des données non-étiquetées sont injectées dans l’environnement où une IA évolue, elle ne développera pas la capacité à prendre des décisions, percevoir et se comporter d’une manière cohérente.

Intelligence collective et Consortium

Bien que le Machine Learning permette aujourd’hui à différents métiers d’identifier des opportunités rentables ou des risques considérables, il nécessite du temps et des ressources afin d’être proprement exploité.
La création de Consortium dans une logique de Coopétition est le meilleur moyen de tirer plein profit de l’IA à moindre coût, avec un Time-to-Market réduit, grâce à la mutualisation des données et des ressources.

Au sens large, les technologies de pointe transforment notre paysage économique.
Aujourd’hui plus que jamais, la coopétition entre acteurs économiques a du sens.

Holy tech !

Your online high tech bible.

Dossier : le Machine Learning pour les nuls (pas très nuls)

Concrètement, qu’est-ce le ML?

Les contraintes du Machine Learning à ce jour…

Intelligence collective et Consortium

4 Trackbacks / Pingbacks

Poster un Commentaire Annuler la réponse