Vous êtes sur la page 1sur 8

Datascience

pikachuman
March 2024

1 Machine Learning
1.1 TODO
Do the following models :

• Entropy in information theory


• Multi-Logistic Regression
• Mixed Modelling
• Random Forest
• Arimax
• K-means clustering
• Apriori Algorithm
• Naive Bayes Algorithm
• Decision trees
• time series
• DWH
• See all of Aric LaBarr and Krish Naik videos
• Stationnary
• AR and MA developping
• p-value
• AdaboostClassifier
• Gradient Boosting
• Stacking Classifier

1
• Decision Tree
• code python de base pour les algos
• seasonality
• MOSA algorithms

1.2 Metrics
1.2.1 Classification Problems
Il faut définir :

• Vrais positif : Résultat déclaré positif et qui est effectivement positif.

• Faux positif : Résultat déclaré positif alors qu’il est négatif.


• Vrais négatif : Résultat déclaré négatif et qui est effectivement négatif.
• Faux négatif : Résultat déclaré négatif alors qu’il est positif.

En gros quand c’est faux c’est que le test a merdé.

• Précision / Accuracy : observations correctes


total des observations .

• Précision / Precision : vrais positifs


total des positifs vrais positifs + faux positifs .

• Rappel / Recall : vrais positifs


total des observations réelles positives vrais positifs + faux négatifs .

• Score F1 : Moyenne harmonique de la précision et du rappel. F 1 =


2 × Précision×Rappel
Précision+Rappel .

• Matrice de confusion :
• ROC-AUC : L’aire sous la courbe ROC. Compare le taux de vrais positifs
(sensibilité) au taux de faux positifs (1-spécificité) pour différents seuils.

1.2.2 Pour les Régressions


Pn
yi −xi
• MAE (Mean Absolute Error) : | i=1
n |

• MSE (Mean Squared Error) : M SE(θ̂) = E((θ̂ − θ)2 ) And from this
formula we can get M SE(θ̂) = Bias(θ̂)2 + V ar(θ̂)
qP
n (yˆi −yi )2
• RMSE (Root Mean Squared Error) : RM SE = i=1 n

• R-squared (Coefficient of Determination) : On a R2 = 1− sum squared regression (SSR)


total sum of squares (SST)
Pn
(yi −yˆi )2
soit R2 = 1 − Pi=0
n 2 .
i=0 (yi −ȳ)

2
1.3 P-value
On va vulgariser le concept de p-value.

1.3.1 Quand est-ce qu’on l’utilise ?


Lorsqu’on veut étudier deux groupes différents en isolant une variable.

1.3.2 Facteurs chance


C’est impossible d’avoir toutes les variables identique à par une seule. Par
exemple, si on compare deux échantillons pour déterminer quel est le meilleur
entrainement le facteur chance réside dans d’autres variables qu’on ne peut pas
controler comme la génétique, l’alimentation, le mental...

1.3.3 Significativité
Donc avec le facteur chance présent et qui fausse les résultats, on regarde à quel
point la variable isolé a quand même améliorer les performances sportives dans
notre exemple. On veut voir à quel point notre variable est significative.

• Différence significative : Peu de chances que les résultats soient dus


au hasard.
• Différence non significative : beaucoup de chance que les résultats
soient dus au hasard.
Ces différences sont-elles bien réelles ou sont-elles dues au hasard
?

1.3.4 p-value et seuil alpha


Les résultats sont-ils dus au hasard ?
Pour cela on applique un test staistique avec un risque d’erreur. Ce risque
d’erreur est appelé p-value.
Une p-value proche de 1 signifie que le résultat a de fortes chances d’être dû au
hasard. Au contraire, une p-value proche de 0 signifie que le résultat a peu de
chances d’être dû au hasard.
Néanmoins, il y a toujours une chance que le résultat soit dû au hasard même s’il
est minime. Donc, on doit fixer un seuil à partir duquel on est prêt à accepter ce
hasard et dire que la probabilité qu’il soit dû au hasard est telle qu’on accepte
le résultat. Ce seuil d’erreur on l’appelle alpha.
En général, les statisticiens sont d’accord pour fixer le seuil à 5%. (p < 0.05)

1.3.5 La taille de l’effet


Il s’agit d’évaluer la différence relative entre les moyennes afin d’établir un ordre
de grandeur de l’importance de cet effet.
0,2 pour un effet faiblen, 0,5 pour un effet moyen et 0,8 pour un effet fort.

3
1.4 Articles scientifique
• * : 0.01 < P < 0.05
• ** : 0.001 < P < 0.01

• *** : P < 0.001

Figure 1: P-value et seuil Alpha

1.5 Bagging
Bootstrap aggregating, also called bagging (from bootstrap aggregating) :

• creates various models.

• we use different smaller datasets for every model (Row sampling with
replacement).
• Bootstrap is using row sampling with replacement.
• Aggregation is using all the results of the models and combining them
together.

4
Figure 2: Schéma de bagging (Bootstrap Aggregating)

1.6 Logistic Regression


C’est un modèle de régression binomiale.

Figure 3: Exemple de Regression Logistique

1.7 ARIMA
1.7.1 AR and MA models
• AR (Auto-Regressive) : stands for forecast a series solely on the past
values in the series - called lags. They are called long memory models.
• MA (Moving Average) : forecast a series based solely on the past errors
in the series - called error lags.
• I : Stands for integrated. Essentially you need to make your data station-
ary. (Distribution depends on difference in time not location in time).

5
By combining both models (AR and MA) we get this expression :

Yt = ω + ϕ1 Yt−1 + ... + ϕp Yt−p + θ1 et−1 + ... + θq et−q + et


ARIMA models are typically written as the following:
ARIMA(p,d,q)
With :

• p : Number of AR terms
• d : Number of first differencies
• q : Number of MA terms

For example :

Yt − Yt−1 = Wt
Wt = ω + ϕ1 Wt−1 + θ1 et−1 + et

1.8 Multinomial Logistic regression


You have a model and want to predict the outcome. And in this model you have
independent and dependant variables. The purpose is to convert multinomial
into many binomial.

Figure 4: Conversion de multinomial en plusieurs binomials

6
Then we compute the probability to belong to each group.

1.8.1 Example : Which ice cream will be chosen by kids

Dependent variable: Ice cream


type:

• Vanilla
• Strawberry
• Chocolate
Independent variable:

• Age
• Gender
• etc...
Figure 5: Ice Cream Types

1.9 Decision Tree

Figure 6: exemple de decision tree ou d’arbre de classification

Voici un exemple de classification de données de R2 avec un arbre de classi-


fication :

7
Figure 7: exemple de classification avec un decision tree ou arbre de classification

But it can be difficult to build this decision tree and this is where the machine
learning part comes into place.

1.9.1 Information theory


In order to determine how to build the decision tree we use the entropy variable
:
X
Entropy = −pi log(pi )

1.10 Random Forest


Better than decision tree but why ?

2 Deep Learning
3 Business

Vous aimerez peut-être aussi