Vous êtes sur la page 1sur 8

Analyse de données

1. Révision

1. Définition de données
Données : ensemble des caractéristiques-propriétés (propres à l’objet) (en statistiques caractères)
d’un objet quelconque – entreprise : nom social/forme juridique/taille …
Données ne sont pas traitées, sous forme brute, contrairement à l’information + accessibles à tout le
monde
Information pour l’informaticien / données pour statisticiens
Base de données : ensemble des tables

2. Typologie
i.e. catégorisation
Classification : on classe les objets selon les caractéristiques
Unité d’étude : objet/individu
Critères :
- Nature : Possibilité de quantifier la propriété ou non (ex : sexe non quantifiable, ou niveau
d’études), mais pour les deux on peut quantifier la fréquence ou l’effectif, pas la modalité →
données quantitatives ou qualitatives : critère nature

- Production : Utiliser des données existantes ou générer ses propres données :


respectivement données secondaires (préexistantes de seconde main, faite par tiers) ou
primaires (produites par le statisticien)

- Architecture : comment la donnée est organisée → donnée structurée, i.e. peut être
représentée sous forme de tableau (ex : tableau statisticien, table informaticien, tableur
outil) (colonne, ligne, cellule) / ou non structurée, i.e. textes
Etudiant sexe age
E1 C11 C12
E2 C21 C22

S.Q.L = ex: select from table étudiant where sexe=M and taille= 1.60
Les données structurées sont facilement manipulables avec SQL

Les données non structurées utilisent le langage No SQL pour les Big Data (texte, vidéo,
image, icones comme j’aime)
Logiciels utilisés
En Vivo
Mongo DB : Vectorisation de caractères on donne à chaque lettre un index (coder chaque
lettre par un chiffre)
NLTK : comme python (ex : pour analyse des commentaires sur YouTube)
Analyse lexicale (trouver un mot comme unité), suivie par analyse sémantique (le sens),
analyse thématique, analyse des sentiments
Kits d’entretien 
- Données varient selon le temps pour un individu (série temporelle ou chronologique pour
chiffre d’affaire d’une entreprise en 5 ans), selon les individus, ou selon l’échantillon :
variables sont des données qui varient selon ces 3 critères → on parle dès à présent de
variables
Si l’on fait varier à la fois l’échantillon et le temps : les données de panel / si l’on garde le
même échantillon c’est le cohrt

Les valeurs possibles que peut prendre une variable qualitative : modalités / les valeurs
quantitatives sont appelées valeurs

- Nombre d’individu qui présentent une modalité ou une valeur : effectif n → premier niveau
de traitement des données
- Fréquence : nombre d’étudiants n l’échantillon ou sondage (ni÷n) / sur la population N
recensement (ni÷N)

3. Définition d’analyses
Analyser : décomposer un tout (ensemble) en éléments + chercher les causes + traitements manuelle
ou automatique (rechercher les données, puis les collecter automatique ou manuelle, puis
représentation tabulaire/visuelle sous forme de graphiques, schémas, et icônes/synthétique sous
forme d’indicateurs, et interprétation : reporting)

Types d’indicateurs de tendance centrale, dispersion, et concentration

Synthétique ex : Note moyenne = (∑ci * ni) ÷ n = (16,5*2 + 17,5*3) ÷ 5


note ni
15-17 →16,5 2
17-18 →17,5 3

Power BI : permet de faire graphiques et indicateurs

La discipline qui regroupe tout ça : Data Science → mathématiques appliquées (optimisation …) /
analyse de données / informatique (utilisation – développement : développer des applications,
développement Web – recherche opérationnel, en fonction du critère d’optimalité)

Matrice M n,p : n lignes et p colonnes


Statistiques inférentielles : avec échantillon

Echantillon doit respecter représentativité de la population : échantillonnage, est-ce que les


proportions des variables/modalités sont les mêmes que dans la population

Site Anaconda

On note les varaibles en statistiques en maj : X / écriture indicielle X1


Pi : probabilité / fi : fréquence ni÷N / pi : pourcentage (ni÷N) *100
N
∑ → pour généralisation
i=1, p= (pas)
Si X varie selon l’individu alors on note Xi, et i prend ses valeurs de 1 à n, où n est la taille de
l’échantillon
Xi : N→R
i→Xi
(les nbres irrationnelles n’ont pas de lim dans la virgule)
Si X varie selon le temps alors on note Xt, où t représente le temps

Opérateur de somme : ∑, toujours appliqué à X / vi : valeur initale ; vf : valeur finale ; pi : pas
d’incrémentation
Vf
∑ Xi
I=Vi, pi

Utilisation de l’opérateur de somme : X barre : la moyenne arithmétique = (∑Xi * i) ÷ n

Propriétés d●e ∑:
① : ∑ Xi = X1+X2+ …. +Xn
②: ∑ a*Xi = a * ∑Xi
③: ∑a = n*a
④: ∑(a*Xi + b) = a∑Xi +bn
⑤: ∑(Xi+Yi) = ∑ Xi + ∑Yi
⑥: ∑ ∑X i j: bi-indexation
J i

Note X / niveau Y1 : primaire Y2 : secondaire Y3 : sup


d’étude Y
X1 : 13 2 : n11 3 : n12 4 : n13 N1●
X2 : 14 1 : n21 2 : n22 1 : n23 N2●
X3 : 17 3 : n31 1 : n32 2 : n33 N●3
n●1 = n●2 n●3 n●●
n11+n21+n31

On met ● pour noter l’invariabilité de i ou de j

Différents opérateurs : /X/ : valeur absolue = max {-X, X} + f(X) + dX (différentielle) + f(X)*dX (dx = X2
– X1) donc = longueur*largeur = aire + intégrale + lim

Codification : transformation des variables


On peut transformer variable quantitatif en variable qualitatif (ex : 0-14 ans = enfant)
Coefficient de corrélation r : covariance sur variance
RR et Or basé sur le test de Khi-deux : dépendance entre la nature qualitatif d’une variable et ….
ACP : Analyse en Composante Principale (utiliser matrices)
AFCM : analyse factorielle des composantes multiples
Cluster : apprentissage non supervisé ≠ classification : apprentissage supervisé
Il faut connaitre la nature, le nombre des variables, pour ensuite choisir la méthode adéquate

Peut-être on va étudier chatbot si temps restant : agent de service conversationnel


Analyse univariée : quantitatif ou qualitatif

Analyse univariée quantitative (1 variable) :


1. Analyse graphique
 Continue : histogramme
 Discrète : diagramme en béton
Comment lire une représentation graphique : commencer par axe des abscisses Xi,
puis lire axe des ordonnées où on trouve le mode : ni (effectif), ou fi fréquence, ou pi
pourcentage

2. Les indicateurs :
 De tendance centrale
- Mode : la valeur la plus fréquente
- Médiane : valeur de la variable qui divise la population ou l’échantillon en deux parties
égales ; i.e. 50%>me et 50%<me
Tri de la série :
Pour n est impair
X = 3, 11, 13, 15, 17
K= n-1 ÷ 2 = 5-1 ÷ 2 = 2
La médiane correspond à la position k+1, c’est donc la position 3 et le nombre 13
Pour n est pair
La médiane se trouve entre la position k et la postion k+1
X= 11, 13, 15, 3
Médiane = (11, 13) = (ei-1 + ei) ÷ 2 = 11+13 ÷ 2 = 12
- Moyenne
 De dispersion
 De concentration
Moyenne mobile : tendance : on calcule la moyenne entre chaque pic de hausse et de baisse sur un
graphique pour créer une droite (la tendance)
Formule générale de la moyenne :
Photo

Les valeurs possibles de m vont donner les types de moyenne :


- Moyenne arithmétique pour m=1 : X1 barre = 1/n * ∑ Xi
- Moyenne quadratique pour m=2
Photo
- Moyenne géométrique m=0
Photo
- Moyenne harmonique m= -1
Par ordre de difficulté
Connaissances conditionnelles

Collecte des données : différents logiciels = Sphinx, CS pro // mais toujours le même processus
Administration des opérations :
 Conception, et élaboration du questionnaire
 Groupe de questions, modalités de réponse
 Activation
 Collecte
 Analyse statistique de base
Questions :
 Modalité de réponse : fermé – choix de réponses proposés (réponse unique, choix multiples
…) / ouvert (numérique, texte, …)
 Type : texte, numérique, date …
 Source : primaire / secondaire

Satisfaction : groupe générique de questions + pour chaque aspect note, échelle de Likert
Contrôle de saisie (contrôle du type de donnée demandé), et contrôle de renvoi (réponse à question
conditionnée par réponse à une question avant)

LimeSurvey / Survey / Access (SQL)

Graphiques :
 Variable qualitative : diagramme circulaire
 Variable quantitative discrète : diagramme en bâton
 Variable quantitative continue : histogramme

Statistique descriptive :
 Tendance circulaire : mode, moyennes, médiane
 Dispersion : Variance, ecart-type, coeff de variation, étendue
Mode : la valeur qui correspond à l’effectif le plus élevé
Médiane : la valeur qui divise la population en deux partie 50% supérieur et 50% inférieur
Moyenne :
 Arithmétique : si tous les individus ont la même valeur, cette valeur sera la moyenne
 Géométrique
 Quadrique
 Statistique
Etendue : Ex = Xmin – Xmax
Variance ;

ACCESS

Language SQL :

1. Afficher des colonnes


 SELECT * FROM SE ; → * = toutes les colonnes, SE = nom de la table
 SELECT quantite, pu, libelle FROM SE; →nom des colonnes exactes

2. Afficher des colonnes avec lignes répondant à des critères

PS : parenthèses non obligatoires


 SELECT quantite, pu,libelle,fourniss FROM SE WHERE (fourniss = "majdouline") ; →« » pour un
texte
 SELECT quantite, pu,libelle,fourniss FROM SE WHERE (pu=3) ; →nombre
 SELECT quantite, pu,libelle,fourniss FROM SE WHERE (NOT pu=3) ; →fonction not – le contraire
de condition
 SELECT quantite, pu,libelle,fournisseur FROM SE WHERE ( libelle="A1" AND pu=3) ; →  et 
 SELECT quantite, pu,libelle,fournisseur FROM SE WHERE ( libelle="A1" OR pu=3) ; → fonction ou
 SELECT * FROM SE WHERE quantite BETWEEN 30 AND 40 ; → fonction between (inf-sup ou
égale)
 SELECT * FROM SE WHERE quantite NOT BETWEEN 30 AND 40 ; → fonction not between
 SELECT DISTINCT libelle FROM SE ; → fonction distinct afficher une fois chaque valeur de colonne
(pas de repetition)
 SELECT COUNT(N°) AS nombretotal FROM SE WHERE (fourniss="majdouline") ; → fonction count,
nombretotal = appellation
 SELECT * FROM SE ORDER BY fourniss ASC ; → classement croissant
 SELECT * FROM SE ORDER BY pu DESC ; → classement décroissant
 SELECT MAX(quantite) AS quantitemaximale FROM SE ; → fonction max
 SELECT MIN(pu) AS puminimale FROM SE ; → fonction min
 SELECT SUM(quantite) AS SOMME FROM SE ; → fonction somme
 SELECT AVG(quantite) AS moyenne FROM SE ; → fonction moyenne

SPSS
Variable qualitative : ordinale (catégoriser) ou nominale
Variable quantitative : discrète ou continue

 Nominale. Une variable peut être traitée comme étant nominale si ses valeurs
représentent des catégories sans classement intrinsèque (par exemple, le service de la
société dans lequel travaille un employé). La région, le code postal ou l'appartenance
religieuse sont des exemples de variables nominales.
 Ordinal. Une variable peut être traitée comme étant ordinale si ses valeurs
représentent des catégories associées à un classement intrinsèque (par exemple, des
niveaux de satisfaction allant de Très mécontent à Très satisfait). Exemples de variable
ordinale : des scores d'attitude représentant le degré de satisfaction ou de confiance, et
des scores de classement des préférences.
 Echelle. Une variable peut être traitée comme une variable d'échelle (continue) si ses
valeurs représentent des catégories ordonnées avec une mesure significative, de sorte
que les comparaisons de distance entre les valeurs soient adéquates. L'âge en années et
le revenu en milliers de dollars sont des exemples de variable d'échelle.

Variable quantitative continue : histogramme


Discrete : diagramme en batons
Quaitative : circulaire

Vous aimerez peut-être aussi