Vous êtes sur la page 1sur 10

AERCR n°1 : IA

Mots clef/Informations importantes


➢ Jeu de données
➢ Optimisation
➢ Intelligence Artificielle
➢ Dendrogramme
➢ Algorithme de K-means
➢ Classification
o Ascendante hiérarchique
o Automatique (non-supervisé) - Algorithme
➢ Graphique en nuage de point
➢ DataWrangling
➢ Standardisation et normalisation des données
➢ Machine Learning
➢ Apprentissage supervisé/non-supervisé
➢ Ethique

Contexte
Une agence immobilière Loft’s Craft souhaite se munir d’un IA de façon à minimiser le nombre
de visite. Il souhaite faire une approche géographique du problème en fonction d’un jeu de
données de recensement aux USA en 1990.

Contraintes
• Utilisé K-means
• Jeu de données
• Approche Ethique
• Python

Problèmes
➢ Comment avoir une approche éthique de ton jeu de donnée ?
➢ Comment préparé ses données ?
➢ De quelle manière procédé pour séparer les données de manière distincte (en 2
parties) ?

Livrables
• Un projet python qui utilise K-means et qui utilise le jeu de donnée. (Notebook)
Généralisation
• IA
• Modèle
• Apprentissage
• Classification
• Préparation de données

Hypothèses
➢ Nous allons devoir choisir entre l’apprentissage supervisé et non-supervisé
➢ Pour séparer en 2 parties le jeu de donnée, on va faire de la classification
➢ La préparation des données est une étape à pas sous-estimé
➢ La séparation des données va permettre d’améliorer les performances de
l’algorithme

Plan d’action
I – Intelligence artificielle
A – Généralité
B – Machine learning
C – Futur
D – Ethique
II – Traitement de données
III – Algorithme
A – K-means
IV – Réalisation
A – Préparation des données
B – Notebook
I – Intelligence artificielle
A – Généralités

L'intelligence artificielle consiste à mettre en œuvre un certain nombre de techniques


visant à permettre aux machines d'imiter une forme d'intelligence réelle. L'IA se retrouve
implémentée dans un nombre grandissant de domaines d'application.
La notion voit le jour dans les années 1950 grâce au mathématicien Alan Turing. Dans son livre
Computing Machinery and Intelligence, ce dernier soulève la question d'apporter aux
machines une forme d'intelligence. Il décrit alors un test aujourd'hui connu sous le nom « Test
de Turing » dans lequel un sujet interagit à l'aveugle avec un autre humain, puis avec une
machine programmée pour formuler des réponses sensées. Si le sujet n'est pas capable de
faire la différence, alors la machine a réussi le test et, selon l'auteur, peut véritablement être
considérée comme « intelligente ».
Exemple d’usage :
La vision artificielle, par exemple, permet à la machine de déterminer précisément le contenu
d'une image pour ensuite la classer automatiquement selon l'objet, la couleur ou le visage
repéré.
Fonctionnement :
Les machines dotées d'une intelligence artificielle mémorisent des comportements. Ce travail
de mémorisation leur permet par la suite de résoudre des problèmes, et d'agir correctement
face à telle ou telle situation. Cet apprentissage se réalise à l'aide de bases de données et
d'algorithmes. Ce travail complexe aide la machine à mesurer l'importance d'un problème, à
passer au crible les solutions possibles et les situations passées similaires afin de bien agir.

Derrière l'intelligence artificielle, se cache une multitude d'appareils qui ont un dénominateur
commun : le Machine Learning.
B – Machine Learning

Le Machine Learning est une technologie d’intelligence artificielle permettant aux


ordinateurs d’apprendre sans avoir été programmés explicitement à cet effet. Pour apprendre
et se développer, les ordinateurs ont toutefois besoin de données à analyser et sur lesquelles
s’entraîner.
Une étiquette est le résultat de la prédiction ; la variable y dans une régression linéaire simple
On distingue différents types d’algorithmes Machine Learning. Généralement, ils peuvent être
répartis en deux catégories : supervisés et non supervisés.
Apprentissage supervisé : on a entrée + sortie et on apprend la fonction
Les données utilisées pour l’entraînement sont déjà ” étiquetées “. Par conséquent, le modèle
de Machine Learning sait déjà ce qu’elle doit chercher (motif, élément…) dans ces données. À
la fin de l’apprentissage, le modèle ainsi entraîné sera capable de retrouver les mêmes
éléments sur des données non étiquetées.
Parmi les algorithmes supervisés, on distingue les algorithmes de classification (prédictions
non-numériques) et les algorithmes de régression (prédictions numérique). En fonction du
problème à résoudre, on utilisera l’un de ces deux archétypes.
Apprentissage non-supervisé : On a entrée et on cherche sortie + fonction
Cela consiste à entraîner le modèle sur des données sans étiquettes. La machine parcourt les
données sans aucun indice, et tente d’y découvrir des motifs ou des tendances récurrents.
Cette approche est couramment utilisée dans certains domaines, comme la cybersécurité.
Parmi les modèles non-supervisés, on distingue les algorithmes de clustering (pour trouver
des groupes d’objets similaires), et de réduction dimensionnelle (pour choisir ou extraire des
caractéristiques).
Nous avons donc 4 types d’algorithmes :
C – Futur

Les possibilités de l'IA semblent s'accroître de manière exponentielle. Ces dernières


années, nous sommes passés du simple chatbot à l'utilisation de l'intelligence artificielle pour
l'aide à la prise de décisions cruciales, que ce soit dans le domaine médical ou militaire. Avec
des champs d'applications si divers, les besoins en experts des données se font sentir dans
nombre de secteurs d'activité. C'est notamment le cas des acteurs de la Banque et des
assurances qui n'ont pas hésité à se préparer aux métiers de demain, avec des écoles
spécialisées et des formations pour devenir Data Analyst par exemple.
Alors qu'en 2015 le marché de l'intelligence artificielle pesait 200 millions de dollars, on estime
qu'en 2025, il s'élèvera à près de 90 milliards de dollars.
Puissance quantique :
Toujours dans le domaine de l’informatique, la physique quantique prend une place de plus
en plus importante. Un calculateur quantique serait le Saint Graal avec une puissance de calcul
sans commune mesure, mettant à mal certains systèmes de chiffrement… même si nous n’y
sommes pas encore.
Le système RSA et les autres algorithmes asymétriques (avec des clés privées et publiques)
pourraient devenir obsolètes du jour au lendemain. Mais il faut relativiser : les calculateurs
quantiques actuels sont encore très loin d’avoir suffisamment de qubits (ou bits quantiques)
pour espérer rivaliser, et il n’est pas si facile d’en ajouter puisque la cohérence quantique du
système doit être maintenue.
Mais lorsque des ordinateurs quantiques suffisamment performants seront disponibles, il sera
bien plus facile de décrypter d’anciens messages. La NSA, par exemple, conserve bien au
chaud des données chiffrées interceptées pour les décrypter plus tard, lorsqu’elle aura une
puissance de calcul suffisante

D – Ethique

La réflexion éthique porte sur des choix de société décisifs. Elle ne saurait se construire
indépendamment d’une prise en compte de cette dimension pluraliste et collective. Ceci est
d’autant plus vrai quand il s’agit d’un objet aussi transversal à toutes les dimensions de notre
vie individuelle et sociale que les algorithmes. Il ne serait guère envisageable de rassembler
en un unique comité l’ensemble des compétences et des regards nécessaire à l’examen des
enjeux soulevés par les algorithmes dans des secteurs aussi divers que la santé, l’éducation,
le marketing, la culture, la sécurité, etc.
La notion d’éthique fait souvent l’objet d’usages différents, laissant parfois place à une forme
d’ambigüité. Les définitions proposées par les dictionnaires renvoient l’éthique à la morale,
autrement dit à des normes qui n’ont pas nécessairement vocation à entrer dans le droit et
qui portent sur la conduite des individus. Chez les philosophes antiques, l’éthique n’est ainsi
rien d’autre que la réponse à la question suivante : « qu’est-ce qu’une vie bonne ? », c’est-à-
dire des principes d’action qui concernent d’abord l’individu.
Plus récemment, la notion d’éthique s’est notamment développée comme renvoyant à une
forme d’à côté du droit, évoqué entre autres par des acteurs privés comme les entreprises.
L’éthique est alors un ensemble de normes édictées par l’entreprise et qu’elle s’impose à elle-
même. Ces normes peuvent aller au-delà du droit. Souvent, elles peuvent n’avoir pour
principale fonction que de redire – consciemment ou pas – des normes juridiques. Certaines
évocations de l’utilisation « éthique » des données du client ne sont parfois rien d’autre
qu’une façon de dire que l’entreprise se plie à la loi.
II – Traitement de données

En informatique, le terme traitement de données renvoie à une série de processus qui


permettent d'extraire de l'information ou de produire du savoir à partir de données brutes.
Ces processus, une fois programmés, sont le plus souvent automatisés à l'aide d'IA et ou
d’automatisation.
Si la finalité n'est pas de présenter des résultats à un utilisateur humain, l'objectif du
traitement de données est généralement d'offrir une information de plus haut niveau ou une
information de meilleure qualité à un autre outil de traitement ou d'analyse. Ce traitement de
l'information peut alors relever de la fusion de données, de l'extraction d'information ou de
la transformation de la représentation. Par exemple, la fusion peut consister à combiner
plusieurs sources de données afin de les compiler en une information plus sûre et l'extraction
peut être un traitement destiné à sémantiser ou synthétiser les données.
Quand les données sont recueillies pour une étude scientifique ou en ingénierie, les termes «
traitement de données » et « système d'information » sont trop larges. Le terme « analyse de
données » leur est préféré : il renvoie à des algorithmes très spécialisés et très précis qui ont
peu d'utilité dans le monde des affaires. Les scientifiques et les ingénieurs font appel à des
logiciels qui demandent une excellente maîtrise des mathématiques. Cette divergence
apparaît, entre autres, dans la précision numérique des données : les mesures obtenues après
une analyse de données sont des nombres entiers, des nombres à virgule fixe ou des nombres
en BCD, alors que la majorité des données numériques présentées dans les autres domaines
sont des nombres à virgule flottante.
Algorithme BSBI ou indexation :
III – Algorithme
A – K-means

Le clustering est une discipline particulière du Machine Learning ayant pour objectif de
séparer vos données en groupes homogènes ayant des caractéristiques communes. C’est un
domaine très apprécié en marketing, par exemple, où l’on cherche souvent à segmenter les
bases clients pour détecter des comportements particuliers. L’algorithme des K-moyennes (K-
means) est un algorithme non supervisé très connu en matière de Clustering.
Explication :
Étant donnés des points et un entier k, l’algorithme vise à diviser les points en k groupes,
appelés clusters, homogènes et compacts. Regardons l’exemple ci-dessous :

Sur ce jeu de données en 2D il apparaît clair que l’on peut le diviser en 3 groupes.
Concrètement comment s’y prend-on ?
L’idée est assez simple et intuitive. La première étape consiste à définir 3 centroïdes
aléatoirement auxquels on associe 3 étiquettes par exemple 0,1,2. Ensuite nous allons pour
chaque point regarder leur distance aux 3 centroïdes et nous associons le point au centroïde
le plus proche et l’étiquette correspondante. Cela revient à étiqueter nos données.
Enfin on recalcule 3 nouveaux centroïdes qui seront les centres de gravité de chaque nuage
de points labellisés. On répète ces étapes jusqu’à ce que les nouveaux centroïdes ne bougent
plus des précédents. Le résultat final se trouve sur la figure de droite.
Notion de distance et initialisation
Vous l’aurez compris dans cet algorithme deux points sont clé : Quelle est la métrique utilisée
pour évaluer la distance entre les points et les centroïdes ? Quel est le nombre de clusters à
choisir ?
Dans l’algorithme des k-moyennes généralement on utilise la distance euclidienne, soient p =
(p1,….,pn) et q = (q1,….,qn)

Elle permet d’évaluer la distance entre chaque point et les centroïdes. Pour chaque point on
calcule la distance euclidienne entre ce point et chacun des centroïdes puis on l’associe au
centroïde le plus proche c’est-à-dire celui avec la plus petite distance.
Dans l’exemple précédent il était aisé de trouver le nombre idéal de clusters simplement en
visualisant graphiquement. Généralement les jeux de données ont plus de deux dimensions
et il est donc difficile de visualiser le nuage de points et d’identifier rapidement le nombre de
clusters optimal. Supposons dans l’exemple précédent que nous n’avons pas visualiser les
données avant et décidons de tester différentes fois avec un nombre de clusters initiaux
différents. Voici les résultats obtenus :

Le partitionnement est inexact car le nombre de clusters initiaux est bien supérieur au nombre
idéal en l’occurrence 3. Il existe des méthodes pour déterminer le nombre de clusters idéal.
La plus connu est la méthode du coude. Elle s’appuie sur la notion d’inertie. On définit cette
dernière comme ceci : la somme des distances euclidiennes entre chaque point et son
centroïde associé. Evidemment plus on fixe un nombre initial de clusters élevés et plus on
réduit l’inertie : les points ont plus de chance d’être à côté d’un centroïde. Regardons ce que
cela donne sur notre exemple :
On remarque que l’inertie stagne à partir de 3 clusters. Cette méthode est concluante. On
peut la coupler avec une approche plus précise mais qui requiert plus de temps de calcul : le
coefficient de silhouette. Il se définit comme suit :

Classification ascendante hiérarchique


La classification ascendante hiérarchique 1 est dite "ascendante" car elle part d'une situation
où tous les individus sont seuls dans une classe, puis sont rassemblés en classes de plus en
plus grandes.

Vous aimerez peut-être aussi