Data Science

Datascience
pikachuman
March 2024
1 Machine Learning
1.1 TODO
Do the following models :
• Entropy in information theory

• Multi-Logistic Regression
• Mixed Modelling
• Random Forest
• Arimax
• K-means clustering
• Apriori Algorithm
• Naive Bayes Algorithm
• Decision trees
• time series
• DWH
• See all of Aric LaBarr and Krish Naik videos
• Stationnary
• AR and MA developping
• p-value
• AdaboostClassifier
• Gradient Boosting
• Stacking Classifier
1
• Decision Tree
• code python de base pour les algos
• seasonality
• MOSA algorithms
1.2 Metrics
1.2.1 Classification Problems
Il faut définir :
• Vrais positif : Résultat déclaré positif et qui est effectivement positif.
• Faux positif : Résultat déclaré positif alors qu’il est négatif.

• Vrais négatif : Résultat déclaré négatif et qui est effectivement négatif.
• Faux négatif : Résultat déclaré négatif alors qu’il est positif.
En gros quand c’est faux c’est que le test a merdé.
• Précision / Accuracy : observations correctes

total des observations .
• Précision / Precision : vrais positifs

total des positifs vrais positifs + faux positifs .
• Rappel / Recall : vrais positifs

total des observations réelles positives vrais positifs + faux négatifs .
• Score F1 : Moyenne harmonique de la précision et du rappel. F 1 =

2 × Précision×Rappel
Précision+Rappel .
• Matrice de confusion :
• ROC-AUC : L’aire sous la courbe ROC. Compare le taux de vrais positifs
(sensibilité) au taux de faux positifs (1-spécificité) pour différents seuils.
1.2.2 Pour les Régressions

Pn
yi −xi
• MAE (Mean Absolute Error) : | i=1
n |
• MSE (Mean Squared Error) : M SE(θ̂) = E((θ̂ − θ)2 ) And from this
formula we can get M SE(θ̂) = Bias(θ̂)2 + V ar(θ̂)
qP
n (yˆi −yi )2
• RMSE (Root Mean Squared Error) : RM SE = i=1 n
• R-squared (Coefficient of Determination) : On a R2 = 1− sum squared regression (SSR)

total sum of squares (SST)
Pn
(yi −yˆi )2
soit R2 = 1 − Pi=0
n 2 .
i=0 (yi −ȳ)
2
1.3 P-value
On va vulgariser le concept de p-value.
1.3.1 Quand est-ce qu’on l’utilise ?

Lorsqu’on veut étudier deux groupes différents en isolant une variable.
1.3.2 Facteurs chance

C’est impossible d’avoir toutes les variables identique à par une seule. Par
exemple, si on compare deux échantillons pour déterminer quel est le meilleur
entrainement le facteur chance réside dans d’autres variables qu’on ne peut pas
controler comme la génétique, l’alimentation, le mental...
1.3.3 Significativité
Donc avec le facteur chance présent et qui fausse les résultats, on regarde à quel
point la variable isolé a quand même améliorer les performances sportives dans
notre exemple. On veut voir à quel point notre variable est significative.
• Différence significative : Peu de chances que les résultats soient dus

au hasard.
• Différence non significative : beaucoup de chance que les résultats
soient dus au hasard.
Ces différences sont-elles bien réelles ou sont-elles dues au hasard
?
1.3.4 p-value et seuil alpha

Les résultats sont-ils dus au hasard ?
Pour cela on applique un test staistique avec un risque d’erreur. Ce risque
d’erreur est appelé p-value.
Une p-value proche de 1 signifie que le résultat a de fortes chances d’être dû au
hasard. Au contraire, une p-value proche de 0 signifie que le résultat a peu de
chances d’être dû au hasard.
Néanmoins, il y a toujours une chance que le résultat soit dû au hasard même s’il
est minime. Donc, on doit fixer un seuil à partir duquel on est prêt à accepter ce
hasard et dire que la probabilité qu’il soit dû au hasard est telle qu’on accepte
le résultat. Ce seuil d’erreur on l’appelle alpha.
En général, les statisticiens sont d’accord pour fixer le seuil à 5%. (p < 0.05)
1.3.5 La taille de l’effet

Il s’agit d’évaluer la différence relative entre les moyennes afin d’établir un ordre
de grandeur de l’importance de cet effet.
0,2 pour un effet faiblen, 0,5 pour un effet moyen et 0,8 pour un effet fort.
3
1.4 Articles scientifique
• * : 0.01 < P < 0.05
• ** : 0.001 < P < 0.01
• *** : P < 0.001
Figure 1: P-value et seuil Alpha
1.5 Bagging
Bootstrap aggregating, also called bagging (from bootstrap aggregating) :
• creates various models.
• we use different smaller datasets for every model (Row sampling with
replacement).
• Bootstrap is using row sampling with replacement.
• Aggregation is using all the results of the models and combining them
together.
4
Figure 2: Schéma de bagging (Bootstrap Aggregating)
1.6 Logistic Regression

C’est un modèle de régression binomiale.
Figure 3: Exemple de Regression Logistique
1.7 ARIMA
1.7.1 AR and MA models
• AR (Auto-Regressive) : stands for forecast a series solely on the past
values in the series - called lags. They are called long memory models.
• MA (Moving Average) : forecast a series based solely on the past errors
in the series - called error lags.
• I : Stands for integrated. Essentially you need to make your data station-
ary. (Distribution depends on difference in time not location in time).
5
By combining both models (AR and MA) we get this expression :
Yt = ω + ϕ1 Yt−1 + ... + ϕp Yt−p + θ1 et−1 + ... + θq et−q + et

ARIMA models are typically written as the following:
ARIMA(p,d,q)
With :
• p : Number of AR terms
• d : Number of first differencies
• q : Number of MA terms
For example :
Yt − Yt−1 = Wt
Wt = ω + ϕ1 Wt−1 + θ1 et−1 + et
1.8 Multinomial Logistic regression

You have a model and want to predict the outcome. And in this model you have
independent and dependant variables. The purpose is to convert multinomial
into many binomial.
Figure 4: Conversion de multinomial en plusieurs binomials
6
Then we compute the probability to belong to each group.
1.8.1 Example : Which ice cream will be chosen by kids
Dependent variable: Ice cream

type:
• Vanilla
• Strawberry
• Chocolate
Independent variable:
• Age
• Gender
• etc...
Figure 5: Ice Cream Types
1.9 Decision Tree
Figure 6: exemple de decision tree ou d’arbre de classification
Voici un exemple de classification de données de R2 avec un arbre de classi-

fication :
7
Figure 7: exemple de classification avec un decision tree ou arbre de classification
But it can be difficult to build this decision tree and this is where the machine
learning part comes into place.
1.9.1 Information theory

In order to determine how to build the decision tree we use the entropy variable
:
X
Entropy = −pi log(pi )
1.10 Random Forest

Better than decision tree but why ?
2 Deep Learning
3 Business

Data Science

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Data Science

Transféré par

Droits d'auteur :

Formats disponibles

Datascience

• Entropy in information theory

• Vrais positif : Résultat déclaré positif et qui est effectivement positif.

• Faux positif : Résultat déclaré positif alors qu’il est négatif.

En gros quand c’est faux c’est que le test a merdé.

• Précision / Accuracy : observations correctes

• Précision / Precision : vrais positifs

• Rappel / Recall : vrais positifs

• Score F1 : Moyenne harmonique de la précision et du rappel. F 1 =

1.2.2 Pour les Régressions

• R-squared (Coefficient of Determination) : On a R2 = 1− sum squared regression (SSR)

1.3.1 Quand est-ce qu’on l’utilise ?

1.3.2 Facteurs chance

• Différence significative : Peu de chances que les résultats soient dus

1.3.4 p-value et seuil alpha

1.3.5 La taille de l’effet

• *** : P < 0.001

Figure 1: P-value et seuil Alpha

• creates various models.

1.6 Logistic Regression

Figure 3: Exemple de Regression Logistique

Yt = ω + ϕ1 Yt−1 + ... + ϕp Yt−p + θ1 et−1 + ... + θq et−q + et

1.8 Multinomial Logistic regression

Figure 4: Conversion de multinomial en plusieurs binomials

1.8.1 Example : Which ice cream will be chosen by kids

Dependent variable: Ice cream

1.9 Decision Tree

Figure 6: exemple de decision tree ou d’arbre de classification

Voici un exemple de classification de données de R2 avec un arbre de classi-

1.9.1 Information theory

1.10 Random Forest

Vous aimerez peut-être aussi