Ad Fiche

DATA - INTRODUCTION
Discret ou continue
En mathématiques, la différence entre une variable continue et une variable discrète est le type de valeurs qu'elles peuvent
prendre. Une variable continue peut prendre n'importe quelle valeur dans un intervalle donné, tandis qu'une variable
discrète ne peut prendre que des valeurs discrètes et séparées.
Distributions théoriques
Distribution normale
Une distribution normale est une distribution statistique qui suit une courbe en forme de cloche. La courbe est symétrique
autour de la moyenne, ce qui signifie que la moitié des valeurs se trouvent à gauche de la moyenne et l'autre moitié à
droite. La plupart des valeurs se trouvent près de la moyenne, et il y a de moins en moins de valeurs à mesure qu'on
s'éloigne de la moyenne. La forme de la courbe est déterminée par deux paramètres: la moyenne et l'écart-type. La
moyenne indique où se trouve la courbe, tandis que l'écart-type indique à quel point les valeurs sont dispersées autour de
la moyenne.
Distribution binomiale
Une distribution binomiale est une distribution statistique qui décrit le nombre de succès dans un échantillon de taille fixe
lorsque chaque essai a une probabilité fixe de succès. Par exemple, si vous lancez une pièce de monnaie 10 fois et que vous
comptez le nombre de fois où vous obtenez pile, vous pourriez utiliser une distribution binomiale pour modéliser le nombre
de fois où vous obtenez pile. La distribution binomiale est déterminée par deux paramètres: le nombre d'essais et la
probabilité de succès pour chaque essai. Elle peut être utilisée pour calculer la probabilité de différents résultats, tels que la
probabilité d'obtenir exactement 7 piles sur 10 lancers de pièces.
Distribution en loi de puissance
La distribution en loi de puissance est une distribution de probabilité continue qui s'applique à des variables positives. Elle a
une forme de courbe en forme de cloche qui est symétrique autour de sa moyenne.
Ce type de distribution est souvent trouvé dans les phénomènes naturels et sociaux, tels que les tailles des tremblements
de terre, la fréquence des mots dans une langue et la distribution des revenus ou de la richesse dans une population.
Tests statistiques – p-value
Le p-value est une mesure statistique qui est utilisée pour évaluer les preuves contre une hypothèse nulle. Dans un test
d'hypothèse, le p-value est la probabilité d'obtenir un résultat au moins aussi extrême que le résultat observé, en supposant
que l'hypothèse nulle est vraie. Plus le p-value est petit, plus les preuves contre l'hypothèse nulle sont fortes et plus il est
probable que l'hypothèse alternative est vraie. En général, un p-value inférieur à 0,05 est considéré comme statistiquement
significatif et indique que le résultat observé est peu probable d'être survenu par hasard.
Décrire une valeur
Variance
En analyse de données, la variance est une mesure de la dispersion des valeurs d'une variable aléatoire autour de sa
moyenne. Elle permet de savoir à quel point les différentes valeurs d'une variable sont éloignées de la moyenne. Plus la
variance est grande, plus les valeurs de la variable sont dispersées, et vice versa. La variance est généralement calculée en
utilisant l'écart-type, qui est la racine carrée de la variance. Elle est souvent utilisée en statistiques pour mesurer
l'incertitude d'une variable aléatoire.
Écart type - Standard Deviation
L'écart type est une mesure de la dispersion des valeurs d'une variable aléatoire autour de sa moyenne. Cela signifie que
l'écart type mesure à quel point les valeurs d'une variable aléatoire sont dispersées autour de la moyenne de cette variable.
Plus l'écart type est élevé, plus les valeurs d'une variable aléatoire sont dispersées autour de sa moyenne.
Écart Absolu Médian - MEAN Average Deviation (MAD)
L'écart-moyen absolue, aussi appelé écart absolu moyen, est une mesure de la dispersion des données autour de la
moyenne. Cette mesure est calculée en prenant l'écart absolu (la valeur absolue de la différence) entre chaque valeur de
données et la moyenne, puis en divisant le résultat par le nombre de données. L'écart-moyen absolue peut être utilisée
pour évaluer la précision des prévisions d'un modèle de prévision. Par exemple, si un modèle prévoit la valeur de quelque
chose avec une précision moyenne d'un dollar, on peut dire que l'écart-moyen absolue est d'un dollar.
Interactions de variable
Covariance
La covariance est une mesure statistique qui indique la relation linéaire entre deux variables. Plus précisément, elle mesure
la tendance des deux variables à varier ensemble. Si la covariance est positive, cela signifie que les deux variables
augmentent ensemble (ou diminuent ensemble si la covariance est négative). Si la covariance est nulle, cela signifie qu'il n'y
a pas de relation linéaire entre les deux variables.
Coefficient de corrélation de Pearson
Le coefficient de corrélation de Pearson est un outil statistique qui mesure la force et la direction d'une relation linéaire
entre deux variables quantitatives. Plus précisément, il mesure la covariance des deux variables, normalisée par la variance
de chacune d'entre elles, de sorte que le coefficient de corrélation de Pearson a une valeur comprise entre -1 et +1.
Corrélation de Spearman
Le coefficient de corrélation de Spearman est un outil statistique qui mesure la force et la direction d'une relation
monotone entre deux variables. Contrairement au coefficient de corrélation de Pearson, qui ne peut être utilisé que si les
deux variables sont quantitatives et si la relation entre elles est linéaire, le coefficient de corrélation de Spearman peut être
utilisé avec des variables de tout type (quantitatives, ordinales, catégorielles) et avec des relations non linéaires.
Interprétation des coefficients
Une valeur proche de +1 indique une forte corrélation positive, c'est-à-dire que les deux variables augmentent ou
diminuent ensemble. Une valeur proche de -1 indique une forte corrélation négative, c'est-à-dire que l'une des variables
augmente quand l'autre diminue. Une valeur proche de 0 indique une faible corrélation ou pas de corrélation du tout, c'est-
à-dire que les deux variables ne sont pas liées de manière significative.
SUPERVISED ML
Evaluation
MEAN Absolute Error (MAE)
Cette mesure calcule la moyenne des différences absolues entre les valeurs prédites et les valeurs réelles pour chaque
échantillon de données. On cherche à minimiser cette mesure (tendre vers 0).
MEAN Squarred Error (MSE)
Cette mesure calcule la moyenne des différences au carré entre les valeurs prédites et les valeurs réelles pour chaque
échantillon de données. On cherche à minimiser cette mesure (tendre vers 0).
Root MEAN Square Error (RMSE)
Cette mesure calcule la racine carrée de l'erreur quadratique moyenne pour chaque échantillon de données. En d'autres
termes, c'est la racine carrée de la moyenne des différences au carré entre les valeurs prédites et les valeurs réelles pour
chaque échantillon. On cherche à minimiser cette mesure (tendre vers 0).
R-Squarred (R²)
Cette mesure calcule le pourcentage de la variance des valeurs réelles qui est expliqué par les valeurs prédites. Plus R² est
proche de 1, plus les valeurs prédites sont précises.
Prédiction
Baseline
Une prédiction de référence est une prédiction simple utilisée comme point de comparaison pour évaluer l'efficacité de
méthodes plus avancées.
Linear Regression
La régression linéaire est un type de modèle statistique utilisé pour prédire une variable quantitative en fonction d'une ou
plusieurs variables explicatives. Cela implique l'ajustement d'une droite de régression (appelée aussi ligne de régression) à
des données pour modéliser la relation entre la variable dépendante (que l'on veut prédire) et la ou les variables
indépendantes (utilisées pour prédire la variable dépendante).
OLS – Méthode des moindres carrés (MCO)
C’est un algorithme utilisé pour ajuster une droite de régression linéaire à des données. Il est appelé "moindres carrés
ordinaires" parce qu'il minimise la somme des carrés des erreurs entre les valeurs prédites et les valeurs observées pour la
variable dépendante. En d'autres termes, la MCO cherche à trouver les coefficients de la droite de régression qui
minimisent l'écart entre les valeurs prédites et observées de la variable dépendante. La MCO est souvent utilisée pour
modéliser les relations entre les variables dans les données et pour faire des prévisions sur la base de ces relations.
Faiblesses de la MCO
Elle suppose que les données suivent une relation linéaire, ce qui peut ne pas être le cas dans la réalité. Si les données ne
suivent pas une relation linéaire, la droite de régression ajustée par la MCO ne représentera pas correctement les données
et les prédictions seront imprécises. En outre, la MCO peut être sensible aux valeurs aberrantes dans les données, ce qui
peut affecter la qualité de l'ajustement de la droite de régression. Enfin, la MCO ne prend pas en compte les erreurs dans
les variables indépendantes, ce qui peut également affecter la qualité des prédictions.
Forces de la MCO
Elle peut être utilisée avec une seule variable indépendante ou plusieurs variables indépendantes, ce qui en fait un outil
polyvalent pour modéliser les relations entre les variables. Enfin, la MCO est souvent utilisée comme base pour d'autres
méthodes plus avancées, ce qui en fait un outil important dans le domaine de l'analyse des données.
Non-linar Regression
Contrairement à la régression linéaire, qui utilise une droite pour modéliser la relation entre les variables, la régression non
linéaire utilise une courbe non linéaire pour représenter cette relation. En d'autres termes, la régression non linéaire
permet de modéliser des relations plus complexes entre les variables que la régression linéaire. Elle peut être utilisée pour
faire des prévisions sur la base de ces relations.
Decision Tree
Un arbre de décision en machine learning est un modèle de prédiction utilisé pour résoudre des problèmes de classification
ou d'apprentissage supervisé. Il consiste en un arbre logique qui permet de prendre des décisions en fonction de différentes
caractéristiques ou variables d'entrée. Chaque nœud de l'arbre représente une caractéristique ou un test sur une
caractéristique, et chaque branche représente une valeur possible pour la caractéristique en question. Les feuilles de l'arbre
représentent les prédictions finales, c'est-à-dire les classes auxquelles appartiennent les données d'entrée. L'arbre de
décision est construit en utilisant des algorithmes d'apprentissage automatique qui sélectionnent les caractéristiques les
plus pertinentes pour diviser les données en différentes classes.
Surapprentissage - Overfitting
Le surapprentissage est un problème courant en apprentissage automatique qui se produit lorsqu'un modèle est trop
complexe ou trop adapté aux données d'entraînement. Le résultat est un modèle qui a une très bonne performance sur les
données d'entraînement, mais qui est incapable de généraliser ces performances sur de nouvelles données. En d'autres
termes, le modèle a "appris" les détails et les bruits des données d'entraînement au lieu de capturer les relations réelles et
les tendances sous-jacentes. Le surapprentissage peut entraîner des prédictions imprécises sur de nouvelles données, ce qui
peut avoir des conséquences importantes dans les domaines où l'apprentissage automatique est utilisé, comme la
médecine ou la finance. Pour éviter le surapprentissage, il est important de sélectionner un modèle adapté aux données et
de mettre en œuvre des techniques de régularisation pour limiter la complexité du modèle.
Classification
Fonction sigmoïde
La fonction sigmoïde est une fonction mathématique utilisée en apprentissage automatique pour modéliser les probabilités.
Elle prend en entrée un nombre réel et produit en sortie un nombre compris entre 0 et 1.
Régression logistique
La régression logistique est un type de modèle utilisé en apprentissage automatique pour résoudre des problèmes de
classification. Elle est similaire à la régression linéaire, mais au lieu de prédire une variable quantitative, elle prédit la
probabilité qu'une observation appartienne à une certaine classe. La régression logistique utilise une fonction sigmoïde
pour modéliser les probabilités
UNSUPERVISED ML
C’est une forme d'apprentissage automatique dans laquelle un modèle informatique est entraîné sur des données non
étiquetées. Cela signifie que les données utilisées pour entraîner le modèle ne sont pas accompagnées d'étiquettes ou
d'indications sur la façon dont elles doivent être utilisées pour effectuer une tâche spécifique. Le modèle doit donc utiliser
ses propres algorithmes pour découvrir les structures et les relations dans les données, plutôt que d'être guidé par des
étiquettes prédéfinies.
Clustering
K-means
k-means est un algorithme de clustering utilisé en apprentissage automatique pour regrouper des données en différents
groupes ou "clusters". L'algorithme prend en entrée un nombre k de clusters et une collection de points de données dans
l'espace des caractéristiques. Il fonctionne en itérant sur les différents points de données et en les assignant au cluster dont
le centre est le plus proche. Le centre des clusters est ensuite recalculé en fonction des points de données qui lui sont
assignés, puis les points de données sont réassignés en fonction des nouveaux centres. Ce processus se répète jusqu'à ce
que les centres des clusters ne bougent plus. Le résultat final de l'algorithme k-means est un ensemble de clusters qui
regroupent les données en fonction de leurs similarités.
K-means++
Cet algorithme améliore la sélection initiale des centres des clusters en utilisant une stratégie d'échantillonnage pour
s'assurer que les centres choisis sont éloignés les uns des autres. Cela permet de réduire le nombre d'itérations nécessaires
pour converger vers une solution optimale.
Normalisation
La normalisation des données consiste à transformer les données de sorte qu'elles aient une moyenne de 0 et un écart-type
de 1. Cela peut être utile pour de nombreuses raisons. Tout d'abord, de nombreux algorithmes de machine learning sont
sensibles aux échelles des données en entrée, ce qui signifie que les données doivent être mises sur une échelle commune
avant d'être utilisées comme entrée pour l'algorithme. La normalisation des données peut également aider à accélérer
l'entraînement des modèles de machine learning, car elle peut réduire le temps nécessaire pour converger vers une solution
optimale. Enfin, la normalisation des données peut également améliorer la précision des modèles de machine learning en
réduisant l'influence de certaines variables sur le résultat final.
Mélanges gaussiens – Gaussian mixtures
Les modèles de mélanges gaussiens sont des modèles probabilistes utilisés pour décrire des distributions de données en
utilisant un nombre fini de distributions normales. Chaque distribution normale dans le mélange est définie par ses propres
paramètres de moyenne et de variance, et chaque point de donnée est attribué à l'une des distributions normales dans le
mélange avec une certaine probabilité. Cette approche permet de modéliser des distributions de données qui sont plus
complexes que ce que peut faire une seule distribution normale, et peut être utilisée pour des tâches telles que la
classification de données.
Algorithme EM (Expectation Maximization)
L'algorithme EM (expectation-maximization) est une technique d'optimisation utilisée pour entraîner des modèles
probabilistes lorsque les données sont incomplètes ou cachées. L'idée de base de l'algorithme EM est d'utiliser des
itérations pour améliorer les estimations des paramètres du modèle en utilisant les données observées et des hypothèses
sur les données cachées.
L'algorithme EM est souvent utilisé pour entraîner des modèles de mélanges gaussiens, car il permet de gérer les données
cachées (c'est-à-dire les probabilités d'appartenance à chaque distribution normale dans le mélange) de manière efficace.
Cependant, il peut également être utilisé dans d'autres contextes où les données sont incomplètes ou cachées.
DBSCAN
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est un algorithme de clustering utilisé pour regrouper
les données en clusters de manière automatique. Contrairement à d'autres algorithmes de clustering qui supposent un
nombre prédéfini de clusters, DBSCAN ne suppose aucun nombre prédéfini de clusters et permet de détecter
automatiquement les clusters de différentes tailles et formes dans les données.
Clustering evaluation
Evaluation interne
L'évaluation interne en clustering est une méthode pour évaluer la qualité des groupes formés par un algorithme de
clustering. Elle se base sur l'hypothèse que les groupes formés par l'algorithme sont bons si les éléments à l'intérieur d'un
même groupe sont similaires entre eux et différents des éléments des autres groupes.
Pour évaluer la qualité des groupes formés par un algorithme de clustering, on peut utiliser des mesures comme la
silhouette ou le coefficient de Davies-Bouldin. Ces mesures calculent la similitude des éléments à l'intérieur d'un même
groupe et la différence entre les groupes, et évaluent ensuite la qualité des groupes en fonction de ces deux critères.
C’est est une méthode utile pour comparer différents algorithmes de clustering et choisir celui qui forme les groupes les
plus cohérents et bien séparés.
Evaluation externe
L'évaluation externe en clustering est une méthode pour évaluer la qualité des groupes formés par un algorithme de
clustering en les comparant à des groupes connus a priori. Elle est utilisée pour savoir si les groupes formés par l'algorithme
correspondent à des groupes réels dans la donnée.
Pour évaluer la qualité des groupes formés par un algorithme de clustering, on peut utiliser des mesures comme l'indice de
Rand ou l'indice de Jaccard. Ces mesures calculent le pourcentage d'éléments qui sont correctement classés dans les
groupes formés par l'algorithme par rapport aux groupes connus a priori.
C’est une méthode utile pour savoir si les groupes formés par l'algorithme de clustering correspondent à des groupes réels
dans la donnée.
Indice de Rand – Rand index
L'indice de Rand est une mesure de l'évaluation externe en clustering qui permet de savoir si les groupes formés par un
algorithme de clustering correspondent à des groupes connus a priori. Il est calculé en comptant le nombre d'éléments qui
sont correctement classés dans les groupes formés par l'algorithme par rapport aux groupes connus a priori, et en le
comparant au nombre total d'éléments dans la donnée.
Coefficient de silhouette
Le coefficient de silhouette est une mesure de l'évaluation interne en clustering qui permet d'évaluer la qualité des groupes
formés par un algorithme de clustering. Il est calculé pour chaque élément de la donnée en comparant la similitude de cet
élément avec les autres éléments de son groupe à la similitude de cet élément avec les éléments des autres groupes.
NETWORK DATA MINING
Densité d’un graphe
La densité d'un graphe est le rapport entre le nombre de liens présents dans le graphe et le nombre maximum de liens qu'il
pourrait avoir. Par exemple, si un graphe a 6 liens et qu'il pourrait avoir au maximum 10 liens, sa densité serait de 0,6.
Clustering coefficient
Le coefficient de clustering mesure le degré de liaison des nœuds dans un réseau. Plus précisément, il mesure la probabilité
que deux nœuds qui sont connectés à un même nœud soient eux-mêmes connectés. Plus le coefficient de clustering est
élevé, plus le réseau est "clusté" et plus les nœuds ont tendance à se regrouper en communautés. Le coefficient de
clustering peut être calculé pour l'ensemble du réseau ou pour des sous-ensembles de nœuds, ce qui peut être utile pour
étudier la structure du réseau à différentes échelles.
Centralité de proximité – Closeness centrality
Cette mesure de centralité peut être utile pour identifier les nœuds qui jouent un rôle important dans le réseau, en tant que
ponts ou hubs qui relient des parties du réseau entre elles. Elle peut également être utilisée pour évaluer la robustesse du
réseau, en mesurant la capacité des nœuds à continuer à communiquer en cas de perte d'un ou plusieurs autres nœuds.
Centralité intermédiaire - Betweeness centrality
Cette mesure de centralité peut être utile pour identifier les nœuds qui jouent un rôle de "médiateur" dans le réseau, en
permettant aux différentes parties du réseau de communiquer entre elles. Elle peut également être utilisée pour évaluer la
robustesse du réseau, en mesurant la capacité des nœuds à continuer à communiquer en cas de perte d'un ou plusieurs
autres nœuds.
Centralité d’un vecteur propre - Engenvector centrality
C’est une mesure de la centralité d'un nœud dans un graphe. Cette mesure est basée sur les vecteurs propres d'une matrice
associée au graphe, en particulier sur les valeurs propres les plus grandes. Un vecteur propre associé à une valeur propre de
grande valeur indique que le nœud est connecté à d'autres nœuds importants dans le graphe, ce qui en fait un nœud
central. La centralité d'un vecteur propre est souvent utilisée en analyse de réseaux pour mesurer l'importance d'un nœud
dans le graphe.
PageRank centrality
C’est une mesure de la centralité des noeuds dans un graphe qui a été développée par Google pour classer les pages web en
fonction de leur importance. Cette mesure est basée sur l'idée que les pages web importantes devraient recevoir un lien
depuis d'autres pages web importantes, ce qui leur donne une certaine autorité. La centralité de PageRank d'un noeud dans
un graphe est calculée en prenant en compte le nombre et la qualité des liens qui pointent vers ce noeud. Plus un noeud
reçoit de liens de qualité depuis d'autres noeuds importants, plus sa centralité de PageRank sera élevée.
Community detection
Le community detection ou détection de communauté est un processus utilisé en clustering pour regrouper les noeuds d'un
graphe en communautés ou groupes de noeuds qui ont des liens forts entre eux. Le but de cette technique est de découvrir
les structures cachées dans les données en identifiant les groupes de noeuds qui ont des caractéristiques similaires. Cette
technique est souvent utilisée en analyse de réseaux pour comprendre comment les différentes parties d'un réseau sont
connectées et comment elles interagissent.
Method by Girvan & Newman
La méthode de Girvan et Newman est une approche de détection de communauté en clustering qui vise à diviser un graphe
en communautés en supprimant les liens les plus forts entre les noeuds. Cette méthode utilise une mesure de centralité de
proximité pour identifier les liens les plus forts dans le graphe et les supprime jusqu'à ce que les différentes communautés
soient isolées les unes des autres. Cette approche permet de découvrir les structures cachées dans les données en
identifiant les groupes de noeuds qui ont des liens forts entre eux.
Modularity
La modularité d'un graphe est une mesure de la qualité des communautés ou groupes de noeuds dans un graphe. Plus
précisément, la modularité mesure à quel point les noeuds d'une communauté sont fortement connectés entre eux par
rapport à la quantité de liens qu'on attendrait dans un graphe aléatoire similaire. Plus la modularité d'un graphe est élevée,
plus les communautés sont bien définies et distinctes les unes des autres. La modularité peut être utilisée pour évaluer et
comparer différentes solutions de détection de communauté en clustering.
Louvain algorithm
L'algorithme de Louvain est une méthode de détection de communauté en clustering qui vise à trouver des communautés
de nœuds dans un graphe en maximisant la modularité. Cet algorithme utilise une approche itérative pour identifier les
liens les plus forts entre les nœuds et regrouper les nœuds en communautés en fonction de ces liens. L'algorithme de
Louvain est souvent utilisé en analyse de réseaux pour comprendre comment les différentes parties d'un réseau sont
connectées et comment elles interagissent.
Infomap
Infomap est une méthode de détection de communauté en clustering qui vise à trouver des communautés de nœuds dans
un graphe en utilisant une approche de codage de l’information. Cette méthode utilise les transitions entre les nœuds dans
le graphe pour encoder la structure du graphe en un flux de information. Les communautés sont alors identifiées en
recherchant des groupes de nœuds qui ont un flux de information élevé entre eux.
Stochastic block models
Les modèles de blocs stochastiques sont des modèles probabilistes qui utilisent des variables aléatoires pour décrire les
relations entre les éléments d'un ensemble. Dans un SBM, les éléments de l'ensemble sont regroupés en différents blocs, et
la probabilité de relation entre deux éléments dépend du bloc auquel ils appartiennent.
Par exemple, dans le cas d'un réseau social, les éléments peuvent être des personnes, et les blocs peuvent représenter
différents groupes d'amis. Si nous voulons savoir la probabilité qu'une personne A soit amie avec une personne B, nous
pouvons utiliser un SBM pour déterminer quels sont les blocs auxquels appartiennent ces deux personnes et utiliser cette
information pour calculer la probabilité de leur relation.
Intrinsec evaluation of community structure
L'évaluation intrinseque d'une structure de communauté consiste à mesurer la qualité de cette structure sans faire
référence à des données externes. Cela peut être utile lorsque nous voulons évaluer différents algorithmes de détection de
communauté ou différentes hypothèses sur la structure d'un réseau sans avoir à faire appel à des données externes pour
valider ces hypothèses.
Il existe plusieurs approches pour l'évaluation intrinsèque d'une structure de communauté, chacune ayant ses propres
avantages et inconvénients. L'une des approches les plus couramment utilisées consiste à mesurer la qualité d'une structure
de communauté en utilisant un critère de modularité. La modularité mesure à quel point les liens dans un réseau sont
concentrés au sein de communautés plutôt que entre elles, ce qui permet de savoir si la structure du réseau reflète une
structure de communauté claire.
RECOMMENDER SYSTEMS
User-based KNN
L'algorithme k-plus proches voisins (k-NN) est un algorithme de classification non supervisée qui peut être utilisé pour
prédire la classe d'un élément en fonction des classes des éléments les plus proches de celui-ci. Dans une approche basée
sur l'utilisateur, k-NN utilise les préférences des utilisateurs pour calculer la similarité entre les éléments.
Pour utiliser l'algorithme k-NN de manière basée sur l'utilisateur, nous avons besoin d'une base de données contenant les
préférences des utilisateurs pour différents éléments. Par exemple, dans le cas d'une recommandation de film, la base de
données peut contenir les notes attribuées par les utilisateurs à différents films.
Cosine similarity
La similarité cosinus est un mesure de la similitude entre deux vecteurs dans un espace vectoriel. Elle est calculée en
utilisant le produit scalaire des vecteurs et la norme de chacun d'entre eux.
La similarité cosinus prend des valeurs comprises entre -1 et 1. Une valeur de 1 indique une similitude parfaite entre les
vecteurs, tandis qu'une valeur de -1 indique une similitude totale. Une valeur de 0 indique que les vecteurs sont
orthogonaux, c'est-à-dire qu'ils sont perpendiculaires l'un à l'autre.
La similarité cosinus est souvent utilisée en analyse de texte pour mesurer la similarité entre des documents ou des parties
de documents. Elle peut également être utilisée dans d'autres domaines pour mesurer la similarité entre des éléments,
comme les utilisateurs d'un site de réseautage social ou les produits d'un magasin en ligne.
Collaborative filtering
Le filtrage collaboratif (non supervisé) fonctionne en utilisant les préférences des utilisateurs pour calculer la similarité entre
ces utilisateurs. Par exemple, si deux utilisateurs ont des préférences similaires pour les films, il est probable qu'ils
apprécieront les mêmes films à l'avenir. Le filtrage collaboratif utilise cette information pour prédire les préférences d'un
utilisateur en fonction des préférences des utilisateurs similaires.
Item-based
Dans le filtrage collaboratif basé sur l'élément, la similarité entre les éléments est calculée en utilisant les préférences des
utilisateurs pour ces éléments.
User-based
Dans le filtrage collaboratif basé sur l'utilisateur, la similarité entre les utilisateurs est calculée en utilisant leurs préférences
pour différents éléments.
Matrix Factorization (MF)
La factorisation de matrice est une technique utilisée en filtrage collaboratif pour prédire les préférences des utilisateurs en
fonction des préférences des utilisateurs similaires. Elle consiste à représenter les préférences des utilisateurs sous la forme
d'une matrice, où chaque ligne représente un utilisateur et chaque colonne représente un élément. Les éléments de la
matrice sont les préférences des utilisateurs pour les différents éléments.
La factorisation de matrice utilise des algorithmes d'optimisation pour trouver deux matrices de facteurs, appelées matrice
d'utilisateurs et matrice d'éléments, qui multipliées ensemble approximent la matrice des préférences des utilisateurs. La
matrice d'utilisateurs contient les informations sur les utilisateurs, tandis que la matrice d'éléments contient les
informations sur les éléments.
Une fois que les matrices de facteurs ont été calculées, elles peuvent être utilisées pour prédire les préférences des
utilisateurs pour des éléments qu'ils n'ont pas encore évalués. Par exemple, si un utilisateur n'a pas encore évalué un film,
nous pouvons utiliser la matrice d'utilisateurs et la matrice d'éléments pour prédire sa préférence pour ce film en
multipliant les lignes et colonnes correspondantes des deux matrices.
La factorisation de matrice est souvent utilisée en filtrage collaboratif car elle permet de traiter des matrices de préférences
très larges, même lorsqu'il y a un grand nombre d'utilisateurs et d'éléments. Elle est également efficace pour traiter des
matrices creuses, c'est-à-dire des matrices dans lesquelles la plupart des éléments sont manquants.
SVD (Singular Value Decomposition)
La décomposition en valeurs singulières (SVD) est un algorithme de factorisation de matrice utilisé en apprentissage
automatique et en traitement du signal. Il permet de décomposer une matrice en trois matrices de taille inférieure,
appelées matrices U, S et V. La matrice U est une matrice orthogonale (c'est-à-dire dont les colonnes sont orthogonales
entre elles), la matrice S est une matrice diagonale (c'est-à-dire dont les éléments en dehors de la diagonale principale sont
égaux à zéro) et la matrice V est une matrice orthogonale.
La SVD est souvent utilisée en apprentissage automatique pour réduire la dimensionnalité des données, c'est-à-dire pour
simplifier les données en enlevant les dimensions redondantes. Elle peut également être utilisée pour trouver des
structures sous-jacentes dans les données, comme les communautés dans un réseau social ou les thèmes dans un corpus de
texte.
Regularization
La régularisation est une technique utilisée en apprentissage automatique pour empêcher l'overfitting (ou
surapprentissage), c'est-à-dire l'ajustement trop précis des données d'entraînement par un modèle. Elle consiste à ajouter
une contrainte sur les paramètres du modèle pour limiter la complexité de ce dernier et éviter qu'il ne soit trop adapté aux
données d'entraînement.
Evaluation of recommender systems
L'évaluation des systèmes de recommandation consiste à mesurer la qualité des recommandations produites par ces
systèmes. Il existe plusieurs approches pour évaluer les systèmes de recommandation, chacune ayant ses propres
avantages et inconvénients.
L'une des approches les plus couramment utilisées consiste à mesurer l'erreur de prédiction des systèmes de
recommandation. Cette approche consiste à calculer la différence entre les préférences réelles des utilisateurs et les
préférences prédites par le système de recommandation. Plus l'erreur est faible, meilleures sont les recommandations
produites par le système.
D'autres approches pour l'évaluation des systèmes de recommandation incluent la mesure de la couverture (c'est-à-dire la
proportion de produits ou d'éléments recommandés par le système) ou la mesure de la diversité (c'est-à-dire la variété des
recommandations produites par le système)
Non-negative Matrix Factorization (NMF)
La factorisation de matrice non-négative (NMF) est une variante de la factorisation de matrice utilisée en apprentissage
automatique et en traitement de signal. Elle consiste à décomposer une matrice en deux matrices de taille inférieure,
appelées matrices W et H, de manière à ce que tous les éléments de ces matrices soient non-négatifs (c'est-à-dire
supérieurs ou égaux à zéro).
La NMF se distingue de la factorisation de matrice classique en imposant des contraintes sur les éléments des matrices W et
H. Cela permet de produire des matrices de facteurs qui ont des propriétés intéressantes pour certaines applications,
comme la possibilité de représenter des données binaires ou la facilité d'interprétation des matrices de facteurs.
PATTERN MINING
Le pattern mining, également appelé fouille de motifs, est une technique utilisée en analyse de données pour trouver des
modèles récurrents ou des patrons dans des ensembles de données. Ces modèles peuvent être utilisés pour prédire ou
expliquer certaines caractéristiques des données et peuvent également être utilisés pour prendre des décisions
commerciales ou pour résoudre des problèmes pratiques.
Structure
Une structure peut être définie comme un modèle ou un patron dans un ensemble de données qui peut être utilisé pour
prédire ou expliquer certaines caractéristiques des données. Par exemple, dans un ensemble de données de transactions
financières, une structure pourrait être un modèle de fraude couramment utilisé par les escrocs pour voler de l'argent. Dans
un ensemble de données de texte, une structure pourrait être un motif de mots ou de phrases qui apparaît souvent dans les
documents et qui peut être utilisé pour catégoriser les documents ou pour prédire leur contenu. En général, une structure
en pattern mining est un modèle ou un patron dans les données qui peut être utilisé pour résoudre un problème ou
prendre une décision.
Fonction de score
En général, la fonction de score en pattern mining permet de mesurer la qualité ou la significativité des modèles ou des
patrons dans les données pour prendre des décisions ou résoudre des problèmes. Par exemple, dans un ensemble de
données de texte, la fonction de score pourrait être basée sur la fréquence d'occurrence des mots ou des phrases dans les
documents, sur la similarité sémantique entre les mots ou les phrases, ou sur la capacité du modèle à classer correctement
les documents
Frequent Itemset Mining (FIN)
Le frequent itemset mining, également appelé fouille d'itemsets fréquents, est une technique utilisée en analyse de
données pour trouver des ensembles d'items ou d'éléments qui apparaissent fréquemment dans un ensemble de données.
Support
En général, le support en pattern mining est une mesure de la fréquence d'occurrence des modèles ou des patrons dans les
données et peut être utilisé pour évaluer leur pertinence ou leur qualité.
Minsup
En général, minsup en pattern mining est utilisé pour définir une limite de fréquence d'occurrence pour les modèles ou les
patrons considérés comme significatifs dans les données.
Algorithme APriori
L'algorithme Apriori est un algorithme de pattern mining utilisé pour trouver des ensembles d'items ou d'éléments qui
apparaissent fréquemment dans un ensemble de données. L'algorithme Apriori est basé sur la règle de l'Apriori, qui stipule
que si un itemset est fréquent dans les données, alors tous les sous-ensembles de cet itemset le sont également.
L'algorithme Apriori utilise cette règle pour générer des candidats à l'itemset fréquent et vérifie ensuite leur support dans
les données pour sélectionner les itemsets fréquents significatifs. Il implique généralement plusieurs itérations pour générer
et vérifier les candidats à l'itemset fréquent, ce qui peut prendre du temps pour des ensembles de données volumineux.
1. L'algorithme génère tous les ensembles d'items possibles dans les données, appelés candidats à l'itemset fréquent.
2. L'algorithme calcule le support de chaque candidat dans les données et ne retient que ceux qui ont un support suffisant
selon la valeur minimale de support (minsup) fixée par l'utilisateur.
3. L'algorithme utilise les itemsets fréquents trouvés pour générer de nouveaux candidats à l'itemset fréquent.
4. L'algorithme répète les étapes 2 et 3 jusqu'à ce que tous les candidats à l'itemset fréquent soient vérifiés et que tous les
itemsets fréquents significatifs soient trouvés.
5. L'algorithme sort les itemsets fréquents significatifs trouvés et les retourne en tant que résultat
Règle d’association
La règle d'association en pattern mining est un modèle ou un patron dans un ensemble de données qui peut être utilisé
pour prédire ou expliquer la co-occurrence d'items ou d'éléments dans les données. Par exemple, dans un ensemble de
données de transactions financières, une règle d'association pourrait être un modèle qui montre qu'un client qui achète
souvent du lait est également susceptible d'acheter du pain. Dans un ensemble de données de texte, une règle d'association
pourrait être un modèle qui montre qu'un document contenant le mot "chien" est également susceptible de contenir le mot
"os". Les règles d'association sont généralement exprimées sous la forme "si A alors B", où A et B sont des items ou des
éléments co-occurrents dans les données.
Confiance
Elle permet de mesurer la fiabilité d’une règle d’association ou son degré de certitude dans un ensemble de données. Plus la
confiance est élevée, plus la règle est fiable et applicable dans les données. La confiance peut être calculée en divisant le
nombre d'occurrences de la règle dans les données par le nombre d'occurrences de la condition A de la règle. Par exemple,
si une règle d'association a une confiance de 80%, cela signifie que dans 80% des cas où la condition A de la règle est
vérifiée, la condition B de la règle est également vérifiée.

Ad Fiche

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Ad Fiche

Transféré par

Droits d'auteur :

Formats disponibles

DATA - INTRODUCTION

Vous aimerez peut-être aussi