Vous êtes sur la page 1sur 15

Résumé Deep Learning :

Qu'est-ce que le Machine Learning ?


✔️ Une méthode qui permet aux ordinateurs d'apprendre à
partir de données sans être explicitement programmés.
Qu'est-ce que le Deep Learning ?
✔️ Un type d'apprentissage automatique basé sur des réseaux
de neurones artificiels profonds.
Quels sont les algorithmes DL que nous avons vus ?
✔️ ANN (Artificial Neural Networks)

Un ANN est un modèle informatique inspiré du cerveau humain qui


apprend à partir de données.
Composé de neurones artificiels organisés en couches recevant des
signaux d'entrée, les traitant et produisant une sortie, il est utilisé
pour une variété de tâches telles que la classification, la prédiction
et la reconnaissance de motifs.
✔️ CNN (Convolutional Neural Networks)

Un CNN est un type de modèle Machine Learning utilisé


principalement pour analyser des images en détectant des motifs et
des caractéristiques visuelles dans une image grâce aux filtres de
convolution.
Les CNN sont utilisés dans des applications telles que la
reconnaissance d'objets, la classification d'images et la
segmentation sémantique.

✔️ RNN (Recurrent Neural Networks)

Conçu pour traiter des données séquentielles, comme des


séquences de texte ou de temps, Il est capable de mémoriser des
informations à partir d'itérations précédentes grâce à des
connexions récurrentes entre les neurones.
Ils sont utilisés pour des tâches telles que la génération de texte, la
traduction automatique et l'analyse de séries temporelles.
✔️ LSTM (Long Short-Term Memory)

Un LSTM est une version améliorée des RNN conçue pour mieux
capturer les dépendances à long terme dans les données
séquentielles.
Il est doté d'une mémoire à court terme qui lui permet de stocker
et d'accéder à des informations sur de longues périodes de temps.
Ils sont utilisés dans des domaines où la compréhension du
contexte à long terme est importante, tels que la traduction
automatique et la génération de texte.

Quelles sont les étapes à suivre pour créer un


programme Machine Learning?
Quelles sont les Bibliothèques utilisée ?

✔️ Streamlit : Cette bibliothèque est utilisée pour créer des


applications web conviviales pour la visualisation et le
déploiement de modèles d'apprentissage automatique.

✔️ scikit-learn : Cette bibliothèque est utilisée pour


l'apprentissage automatique et fournit une gamme
d'algorithmes et d'outils pour la classification, la régression, le
clustering, etc.

✔️ pandas : Une bibliothèque Python pour la manipulation et


l'analyse des données.

✔️ matplotlib, plotly, seaborn : Ces bibliothèques sont utilisées


pour la visualisation des données.

✔️ tensorflow et keras : Ces bibliothèques sont utilisées pour la


construction, l'entraînement et le déploiement de modèles de
deep learning.

✔️ ultralytics et opencv : Ces bibliothèques sont utilisées pour


la détection et le suivi d'objets dans les vidéos.
Quelles sont les fonctions et commandes importantes ?
1. Pour la manipulation des données :

✔️ pd.read_csv(), pd.concat(), pd.DataFrame(): Lecture et


manipulation de données à partir de fichiers CSV, et création de
DataFrames.

✔️ fillna(): Remplissage des valeurs manquantes dans les


données.

✔️ MinMaxScaler(): Normalisation des données dans un certain


intervalle.

✔️ train_test_split(): Division du jeu de données en ensembles


d'entraînement et de test.

✔️ get_dummies(): Encodage des variables catégorielles en


variables indicatrices.

2. Pour la construction et l'entraînement des modèles :

✔️ RandomForestClassifier(), LogisticRegression(): Initialisation


des modèles d'apprentissage automatique.

✔️ Sequential(), LSTM(), Dense(), Dropout(): Construction de


modèles de réseaux de neurones avec Keras.

✔️ model.compile(): Compilation du modèle avec une fonction


de perte et un optimiseur.

✔️ model.fit(): Entraînement du modèle sur les données


d'entraînement.

✔️ model.evaluate(): Évaluation de la performance du modèle


sur les données de test.
✔️ from sklearn.metrics import accuracy_score: Calcul de la
précision du modèle pour l'apprentissage supervisé.

3. Pour la visualisation des données et des résultats :

✔️ plt.plot(), plt.show(), plt.title(), plt.xlabel(), plt.ylabel(),


plt.legend(): Création de graphiques et de visualisations avec
Matplotlib.

✔️ px.histogram(), px.pie(): Visualisation interactive des


données avec Plotly Express.

✔️ st.header(), st.image(), st.slider(), st.sidebar(), st.write(),


st.subheader(): Création d'éléments d'interface utilisateur dans
les applications Streamlit.

4. Pour le traitement des images et des vidéos :

✔️ tf.keras.utils.image_dataset_from_directory(): Chargement
des données d'images à partir de répertoires pour
l'apprentissage en utilisant TensorFlow.

✔️ cv2.VideoCapture(), cap.read(), cv2.imshow(): Capture et


affichage d'images ou de vidéos avec OpenCV.

✔️ YOLO(), model.track(): Détection et suivi d'objets dans les


vidéos avec YOLO.
Exemple de la partie problème
Situation : Vous travaillez pour une entreprise de transport qui veut
prédire les prix futurs du diesel afin d'optimiser la planification
budgétaire pour l'année fiscale à venir. Votre tâche consiste à
développer une application "Smart Diesel Price", qui prévoit avec
précision les prix du diesel en se basant sur des données
historiques.

1. Quel paradigme de programmation va-t-on utilisé :


Classique ou Machine Learning ? Justifier votre réponse.
Nous allons utiliser le Machine Learning car notre objectif est de
développer une application de prédiction des prix futurs du diesel
en se basant sur des données historiques.

2. Quels langages, architecture et bibliothèques va-t-on utilisé


? Justifier votre réponse.
Nous allons utiliser Python pour sa large gamme de bibliothèques,
telles que pandas pour la manipulation des données et scikit-learn
pour la construction du modèle.

3. Discuter le Dataset qu’on doit utiliser


Le Dataset doit être constitué de données historiques précises et
représentatives de la variation des prix du diesel au fil du temps.

4. Proposer un modèle d’apprentissage


La régression linéaire peut être approprié pour ce problème en
raison de sa simplicité et de sa capacité à modéliser la relation
linéaire entre les caractéristiques telles que les données historiques
sur le diesel et son prix.
5. Proposer un code pour cette application
# Importing libraries
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import RandomForestRegressor

# Importing dataset
dataset = pd.read_csv('diesel_prices.csv')

# model
X = dataset.drop('diesel_price', axis=1)
y = dataset['diesel_price']

# Splitting dataset into training and testing sets


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

# Train
model = LinearRegression()
model.fit(X_train, y_train)

# Test
accuracy = model.score(X_test, y_test)
print("Model accuracy:", accuracy)
Questions Coursera :
NB: Pour l'examen, la certification "Machine Learning with
Python" sera présente soit partie QCM ou Partie Problème

Introduction au Machine Learning

Question : L'apprentissage supervisé traite-t-il les données non


étiquetées, tandis que l'apprentissage non supervisé traite-t-il
les données étiquetées ?
Réponse : Faux

Question : La technique de "Régression" en apprentissage


automatique est-elle un groupe d'algorithmes utilisés pour :
Réponse : Prédire une valeur continue ; par exemple, prédire le
prix d'une maison en fonction de ses caractéristiques

Question : Lors de la comparaison entre l'apprentissage


supervisé et l'apprentissage non supervisé, cette phrase est-elle
vraie ou fausse ?
"Contrairement à l'apprentissage supervisé, l'apprentissage
non supervisé dispose de plus de modèles et de méthodes
d'évaluation qui peuvent être utilisés afin de garantir que le
résultat du modèle est précis."
Réponse : Vrai
Régression

Question : Quelles sont les exigences pour les variables


indépendantes et dépendantes dans la régression ?
Réponse : Les variables indépendantes peuvent être soit
catégorielles soit continues. Les variables dépendantes doivent
être continues.

Question : La principale différence entre la régression simple et


multiple est :
Réponse : Pour estimer une seule variable dépendante, la
régression simple utilise une seule variable indépendante
tandis que la régression multiple en utilise plusieurs.

Question : Supposez que nous essayons de prédire les


émissions de CO2 avec des informations sur les voitures.
Maintenant, si nous pouvons décrire la relation comme suit :
CO2_emission = 130 - 2.4cylindres + 8.3consommation_carburant.
Qu'est-ce qui est VRAI de cette relation ?
Réponse : Lorsque "cylindres" diminue de 1 tandis que la
consommation de carburant reste constante, les émissions de
CO2 augmentent de 2,4 unités.

Question : Quelle pourrait être la cause d'un modèle


produisant une haute précision d'entraînement et une faible
précision hors échantillon ?
Réponse : Le modèle est entraîné sur un petit ensemble
d'entraînement, donc il sera juste.
Question : La régression linéaire multiple est appropriée pour :
Réponse : Prédire la quantité de pluie demain en fonction de la
vitesse du vent et de la température.

Classification Linéaire
Question : Quel est l'objectif de SVM en termes d'hyperplans ?
Réponse : Choisir l'hyperplan qui représente la plus grande
marge entre les deux classes.

Question : La régression logistique est utilisée pour prédire la


probabilité de :
Réponse : Une variable dépendante catégorique.

Question : Dans quels cas devrions-nous envisager d'utiliser


SVM ?
Réponse : Lorsque la mise en correspondance des données
dans un espace de caractéristiques de dimension supérieure
peut mieux séparer les classes.

Question : Quel est un inconvénient de la classification one-vs-


all ?
Réponse : Elle ne peut pas produire des estimations de
probabilité des classes.
Clustering

Question : L'objectif du clustering k-means est-il :


Réponse : Séparer les échantillons dissimilaires et regrouper les
similaires.

Question : Quelle option ordonne correctement les étapes du


clustering k-means ?
- Reclusteriser les points de données
- Choisir k observations aléatoires pour calculer la moyenne de chaque -
cluster
- Mettre à jour le centroïde pour prendre la moyenne du cluster
- Répéter jusqu'à ce que les centroïdes soient constants
- Calculer la distance du point de données aux centroïdes

Réponse : 2, 5, 3, 1, 4

Question : Comment pouvons-nous évaluer les performances


d'un modèle de clustering k-means lorsque la vérité terrain
n'est pas disponible ?
Réponse : Prendre la moyenne de la distance entre les points
de données et leurs centroïdes de cluster.

Question : Lorsque le paramètre K pour le clustering k-means


augmente, que se passe-t-il avec l'erreur ?
Réponse: Elle peut augmenter ou diminuer en fonction de la
proximité des points de données avec le centroïde.
Question : Lequel des éléments suivants est vrai pour le
clustering basé sur la partition mais pas pour les algorithmes de
clustering hiérarchique ou basés sur la densité ?
Réponse : Le clustering basé sur la partition produit des clusters
de type sphère.

Examen Final
Question : Lequel des éléments suivants est un exemple de
problème de classification ?
Réponse : Toutes les réponses ci-dessus (Prédire si un e-mail
est un spam ou non, si un client achètera un article particulier
en fonction d'une campagne publicitaire et si un client achètera
un produit associé en fonction des achats précédents.)

Question : Lequel des éléments suivants n'est pas une


technique d'apprentissage automatique (Heuristics,
Associations, Regression/Estimation, Clustering) ?
Réponse : Heuristiques

Question : Quels sont certains avantages de la régression


logistique par rapport à SVM ?
Réponse : Il se concentre sur l'obtention de la bonne
probabilité pour chaque classe de sortie.
Question : Quand les arbres de décision sont-ils plus adaptés
que les arbres de régression ?
Réponse : La variable dépendante est catégorique au lieu d'être
continue.

Question : Dans lequel des éléments suivants utiliseriez-vous la


régression linéaire multiple ?
Prédire les émissions de CO2 d'une voiture en fonction de la taille du
moteur
Prédire si un client est susceptible de rembourser un prêt en fonction de
l'âge et du revenu
Prédire la production de pommes dans un verger en fonction de la
température et des précipitations
Recommander des produits aux clients en fonction de leurs
caractéristiques démographiques.

Réponse : Prédire la production.

Question : La précision et le rappel sont adaptés pour mesurer


les performances de quelles tâches ?
Réponse : Classification

Question : Quelle affirmation est FAUSSE concernant le


clustering k-means ?
Réponse : Comme k-means est un algorithme itératif, il garantit
toujours qu'il convergera vers l'optimum global.
Question : Quelles déclarations suivantes sont VRAIES à propos
de la régression logistique ? (sélectionnez deux)
Réponses :
-La régression logistique trouve une ligne de régression à
travers les données pour prédire la probabilité d'un point
appartenant à une classe.
-La régression logistique peut être utilisée à la fois pour la
classification binaire et la classification multiclasse.

@ym-G6

Vous aimerez peut-être aussi