Académique Documents
Professionnel Documents
Culture Documents
1. Révision
1. Définition de données
Données : ensemble des caractéristiques-propriétés (propres à l’objet) (en statistiques caractères)
d’un objet quelconque – entreprise : nom social/forme juridique/taille …
Données ne sont pas traitées, sous forme brute, contrairement à l’information + accessibles à tout le
monde
Information pour l’informaticien / données pour statisticiens
Base de données : ensemble des tables
2. Typologie
i.e. catégorisation
Classification : on classe les objets selon les caractéristiques
Unité d’étude : objet/individu
Critères :
- Nature : Possibilité de quantifier la propriété ou non (ex : sexe non quantifiable, ou niveau
d’études), mais pour les deux on peut quantifier la fréquence ou l’effectif, pas la modalité →
données quantitatives ou qualitatives : critère nature
- Architecture : comment la donnée est organisée → donnée structurée, i.e. peut être
représentée sous forme de tableau (ex : tableau statisticien, table informaticien, tableur
outil) (colonne, ligne, cellule) / ou non structurée, i.e. textes
Etudiant sexe age
E1 C11 C12
E2 C21 C22
S.Q.L = ex: select from table étudiant where sexe=M and taille= 1.60
Les données structurées sont facilement manipulables avec SQL
Les données non structurées utilisent le langage No SQL pour les Big Data (texte, vidéo,
image, icones comme j’aime)
Logiciels utilisés
En Vivo
Mongo DB : Vectorisation de caractères on donne à chaque lettre un index (coder chaque
lettre par un chiffre)
NLTK : comme python (ex : pour analyse des commentaires sur YouTube)
Analyse lexicale (trouver un mot comme unité), suivie par analyse sémantique (le sens),
analyse thématique, analyse des sentiments
Kits d’entretien
- Données varient selon le temps pour un individu (série temporelle ou chronologique pour
chiffre d’affaire d’une entreprise en 5 ans), selon les individus, ou selon l’échantillon :
variables sont des données qui varient selon ces 3 critères → on parle dès à présent de
variables
Si l’on fait varier à la fois l’échantillon et le temps : les données de panel / si l’on garde le
même échantillon c’est le cohrt
Les valeurs possibles que peut prendre une variable qualitative : modalités / les valeurs
quantitatives sont appelées valeurs
- Nombre d’individu qui présentent une modalité ou une valeur : effectif n → premier niveau
de traitement des données
- Fréquence : nombre d’étudiants n l’échantillon ou sondage (ni÷n) / sur la population N
recensement (ni÷N)
3. Définition d’analyses
Analyser : décomposer un tout (ensemble) en éléments + chercher les causes + traitements manuelle
ou automatique (rechercher les données, puis les collecter automatique ou manuelle, puis
représentation tabulaire/visuelle sous forme de graphiques, schémas, et icônes/synthétique sous
forme d’indicateurs, et interprétation : reporting)
La discipline qui regroupe tout ça : Data Science → mathématiques appliquées (optimisation …) /
analyse de données / informatique (utilisation – développement : développer des applications,
développement Web – recherche opérationnel, en fonction du critère d’optimalité)
Site Anaconda
Opérateur de somme : ∑, toujours appliqué à X / vi : valeur initale ; vf : valeur finale ; pi : pas
d’incrémentation
Vf
∑ Xi
I=Vi, pi
Propriétés d●e ∑:
① : ∑ Xi = X1+X2+ …. +Xn
②: ∑ a*Xi = a * ∑Xi
③: ∑a = n*a
④: ∑(a*Xi + b) = a∑Xi +bn
⑤: ∑(Xi+Yi) = ∑ Xi + ∑Yi
⑥: ∑ ∑X i j: bi-indexation
J i
Différents opérateurs : /X/ : valeur absolue = max {-X, X} + f(X) + dX (différentielle) + f(X)*dX (dx = X2
– X1) donc = longueur*largeur = aire + intégrale + lim
2. Les indicateurs :
De tendance centrale
- Mode : la valeur la plus fréquente
- Médiane : valeur de la variable qui divise la population ou l’échantillon en deux parties
égales ; i.e. 50%>me et 50%<me
Tri de la série :
Pour n est impair
X = 3, 11, 13, 15, 17
K= n-1 ÷ 2 = 5-1 ÷ 2 = 2
La médiane correspond à la position k+1, c’est donc la position 3 et le nombre 13
Pour n est pair
La médiane se trouve entre la position k et la postion k+1
X= 11, 13, 15, 3
Médiane = (11, 13) = (ei-1 + ei) ÷ 2 = 11+13 ÷ 2 = 12
- Moyenne
De dispersion
De concentration
Moyenne mobile : tendance : on calcule la moyenne entre chaque pic de hausse et de baisse sur un
graphique pour créer une droite (la tendance)
Formule générale de la moyenne :
Photo
Collecte des données : différents logiciels = Sphinx, CS pro // mais toujours le même processus
Administration des opérations :
Conception, et élaboration du questionnaire
Groupe de questions, modalités de réponse
Activation
Collecte
Analyse statistique de base
Questions :
Modalité de réponse : fermé – choix de réponses proposés (réponse unique, choix multiples
…) / ouvert (numérique, texte, …)
Type : texte, numérique, date …
Source : primaire / secondaire
Satisfaction : groupe générique de questions + pour chaque aspect note, échelle de Likert
Contrôle de saisie (contrôle du type de donnée demandé), et contrôle de renvoi (réponse à question
conditionnée par réponse à une question avant)
Graphiques :
Variable qualitative : diagramme circulaire
Variable quantitative discrète : diagramme en bâton
Variable quantitative continue : histogramme
Statistique descriptive :
Tendance circulaire : mode, moyennes, médiane
Dispersion : Variance, ecart-type, coeff de variation, étendue
Mode : la valeur qui correspond à l’effectif le plus élevé
Médiane : la valeur qui divise la population en deux partie 50% supérieur et 50% inférieur
Moyenne :
Arithmétique : si tous les individus ont la même valeur, cette valeur sera la moyenne
Géométrique
Quadrique
Statistique
Etendue : Ex = Xmin – Xmax
Variance ;
ACCESS
Language SQL :
SPSS
Variable qualitative : ordinale (catégoriser) ou nominale
Variable quantitative : discrète ou continue
Nominale. Une variable peut être traitée comme étant nominale si ses valeurs
représentent des catégories sans classement intrinsèque (par exemple, le service de la
société dans lequel travaille un employé). La région, le code postal ou l'appartenance
religieuse sont des exemples de variables nominales.
Ordinal. Une variable peut être traitée comme étant ordinale si ses valeurs
représentent des catégories associées à un classement intrinsèque (par exemple, des
niveaux de satisfaction allant de Très mécontent à Très satisfait). Exemples de variable
ordinale : des scores d'attitude représentant le degré de satisfaction ou de confiance, et
des scores de classement des préférences.
Echelle. Une variable peut être traitée comme une variable d'échelle (continue) si ses
valeurs représentent des catégories ordonnées avec une mesure significative, de sorte
que les comparaisons de distance entre les valeurs soient adéquates. L'âge en années et
le revenu en milliers de dollars sont des exemples de variable d'échelle.