Académique Documents
Professionnel Documents
Culture Documents
Contexte
Une agence immobilière Loft’s Craft souhaite se munir d’un IA de façon à minimiser le nombre
de visite. Il souhaite faire une approche géographique du problème en fonction d’un jeu de
données de recensement aux USA en 1990.
Contraintes
• Utilisé K-means
• Jeu de données
• Approche Ethique
• Python
Problèmes
➢ Comment avoir une approche éthique de ton jeu de donnée ?
➢ Comment préparé ses données ?
➢ De quelle manière procédé pour séparer les données de manière distincte (en 2
parties) ?
Livrables
• Un projet python qui utilise K-means et qui utilise le jeu de donnée. (Notebook)
Généralisation
• IA
• Modèle
• Apprentissage
• Classification
• Préparation de données
Hypothèses
➢ Nous allons devoir choisir entre l’apprentissage supervisé et non-supervisé
➢ Pour séparer en 2 parties le jeu de donnée, on va faire de la classification
➢ La préparation des données est une étape à pas sous-estimé
➢ La séparation des données va permettre d’améliorer les performances de
l’algorithme
Plan d’action
I – Intelligence artificielle
A – Généralité
B – Machine learning
C – Futur
D – Ethique
II – Traitement de données
III – Algorithme
A – K-means
IV – Réalisation
A – Préparation des données
B – Notebook
I – Intelligence artificielle
A – Généralités
Derrière l'intelligence artificielle, se cache une multitude d'appareils qui ont un dénominateur
commun : le Machine Learning.
B – Machine Learning
D – Ethique
La réflexion éthique porte sur des choix de société décisifs. Elle ne saurait se construire
indépendamment d’une prise en compte de cette dimension pluraliste et collective. Ceci est
d’autant plus vrai quand il s’agit d’un objet aussi transversal à toutes les dimensions de notre
vie individuelle et sociale que les algorithmes. Il ne serait guère envisageable de rassembler
en un unique comité l’ensemble des compétences et des regards nécessaire à l’examen des
enjeux soulevés par les algorithmes dans des secteurs aussi divers que la santé, l’éducation,
le marketing, la culture, la sécurité, etc.
La notion d’éthique fait souvent l’objet d’usages différents, laissant parfois place à une forme
d’ambigüité. Les définitions proposées par les dictionnaires renvoient l’éthique à la morale,
autrement dit à des normes qui n’ont pas nécessairement vocation à entrer dans le droit et
qui portent sur la conduite des individus. Chez les philosophes antiques, l’éthique n’est ainsi
rien d’autre que la réponse à la question suivante : « qu’est-ce qu’une vie bonne ? », c’est-à-
dire des principes d’action qui concernent d’abord l’individu.
Plus récemment, la notion d’éthique s’est notamment développée comme renvoyant à une
forme d’à côté du droit, évoqué entre autres par des acteurs privés comme les entreprises.
L’éthique est alors un ensemble de normes édictées par l’entreprise et qu’elle s’impose à elle-
même. Ces normes peuvent aller au-delà du droit. Souvent, elles peuvent n’avoir pour
principale fonction que de redire – consciemment ou pas – des normes juridiques. Certaines
évocations de l’utilisation « éthique » des données du client ne sont parfois rien d’autre
qu’une façon de dire que l’entreprise se plie à la loi.
II – Traitement de données
Le clustering est une discipline particulière du Machine Learning ayant pour objectif de
séparer vos données en groupes homogènes ayant des caractéristiques communes. C’est un
domaine très apprécié en marketing, par exemple, où l’on cherche souvent à segmenter les
bases clients pour détecter des comportements particuliers. L’algorithme des K-moyennes (K-
means) est un algorithme non supervisé très connu en matière de Clustering.
Explication :
Étant donnés des points et un entier k, l’algorithme vise à diviser les points en k groupes,
appelés clusters, homogènes et compacts. Regardons l’exemple ci-dessous :
Sur ce jeu de données en 2D il apparaît clair que l’on peut le diviser en 3 groupes.
Concrètement comment s’y prend-on ?
L’idée est assez simple et intuitive. La première étape consiste à définir 3 centroïdes
aléatoirement auxquels on associe 3 étiquettes par exemple 0,1,2. Ensuite nous allons pour
chaque point regarder leur distance aux 3 centroïdes et nous associons le point au centroïde
le plus proche et l’étiquette correspondante. Cela revient à étiqueter nos données.
Enfin on recalcule 3 nouveaux centroïdes qui seront les centres de gravité de chaque nuage
de points labellisés. On répète ces étapes jusqu’à ce que les nouveaux centroïdes ne bougent
plus des précédents. Le résultat final se trouve sur la figure de droite.
Notion de distance et initialisation
Vous l’aurez compris dans cet algorithme deux points sont clé : Quelle est la métrique utilisée
pour évaluer la distance entre les points et les centroïdes ? Quel est le nombre de clusters à
choisir ?
Dans l’algorithme des k-moyennes généralement on utilise la distance euclidienne, soient p =
(p1,….,pn) et q = (q1,….,qn)
Elle permet d’évaluer la distance entre chaque point et les centroïdes. Pour chaque point on
calcule la distance euclidienne entre ce point et chacun des centroïdes puis on l’associe au
centroïde le plus proche c’est-à-dire celui avec la plus petite distance.
Dans l’exemple précédent il était aisé de trouver le nombre idéal de clusters simplement en
visualisant graphiquement. Généralement les jeux de données ont plus de deux dimensions
et il est donc difficile de visualiser le nuage de points et d’identifier rapidement le nombre de
clusters optimal. Supposons dans l’exemple précédent que nous n’avons pas visualiser les
données avant et décidons de tester différentes fois avec un nombre de clusters initiaux
différents. Voici les résultats obtenus :
Le partitionnement est inexact car le nombre de clusters initiaux est bien supérieur au nombre
idéal en l’occurrence 3. Il existe des méthodes pour déterminer le nombre de clusters idéal.
La plus connu est la méthode du coude. Elle s’appuie sur la notion d’inertie. On définit cette
dernière comme ceci : la somme des distances euclidiennes entre chaque point et son
centroïde associé. Evidemment plus on fixe un nombre initial de clusters élevés et plus on
réduit l’inertie : les points ont plus de chance d’être à côté d’un centroïde. Regardons ce que
cela donne sur notre exemple :
On remarque que l’inertie stagne à partir de 3 clusters. Cette méthode est concluante. On
peut la coupler avec une approche plus précise mais qui requiert plus de temps de calcul : le
coefficient de silhouette. Il se définit comme suit :