Vous êtes sur la page 1sur 32

Chapitre 1: Nature des données et des bases de

données

 Survey Questions : Opportunity to grow in


Statistics
 Syllabus
 Suggestions ?

 Chap 1:

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
1
or duplicated, or posted to a publicly accessible website, in whole or in part.
Chapitre 1: Nature des données et des bases de
données

 I. Statistique
 II. Données
 III. Statistique Descriptive
 IV. Statistique Inférencielle
 V. Guide éthique et pratique statistique

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
2
or duplicated, or posted to a publicly accessible website, in whole or in part.
But du Cours

 Statistique= comprendre le monde réel par la


collection et l’interprétation des données

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
3
or duplicated, or posted to a publicly accessible website, in whole or in part.
I. Statistique, Données & Bases de données

 Information Statistique =un chiffre tel qu’une moyenne,


une médiane, un pourcentage, etc. qui nous aide à
comprendre des situations économiques diverses.

 La Science statistique = l’art et la science de collecter,


d’analyser, de présenter et d’interpréter des données

 Une donnée =un chiffre ou un nombre collecté,


analysé et résumé en vue d’une présentation et d’une
interprétation.
 Base de données =toutes les données collectées en vue
d’une étude particulière.

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
4
or duplicated, or posted to a publicly accessible website, in whole or in part.
Eléments, Variables, et Observations
 Eléments sont les entités sur lesquelles les données sont
collectées.  Element=Unité d’analyse
 variable = une charactéristique pertinente d’un élément

 Observation: l’ensemble des valeurs (informations)


Obtenues pour un élément particulier.
 Une base de données avec n éléments
Contients n observations

 Le nombre total de valeur dans une base de données


est le nombre d’éléments multiplié par le nombre de variables

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
5
or duplicated, or posted to a publicly accessible website, in whole or in part.
II. Données, Base de données
Eléments, Variables, et Observations
Observation Variables
Elément
Noms Bourse Ventes Earn/
Company /an($M) Share($)

Nana Lt
Kouyate Inc.
GHA 73.10 0.86
MTN
Coris Insurance
CERAPEX

Base de données
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
6
or duplicated, or posted to a publicly accessible website, in whole or in part.
Typologie des données

Types de données:
Nominal Interval
Ordinal quotient

Le type de donnée détermine la quantité/qualité


d’information contenue dans la donnée.

Le type de donnée indique le type de résumé et


d’analyse statistiques les plus appropriés.

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
7
or duplicated, or posted to a publicly accessible website, in whole or in part.
Typologie des données

 Nominal

Une donnée nominale est un label ou un nom utilisé


Pour identifier l’attribut d’un élément.

Un label (code) non numérique ou numérique


peut être utilisé à cet effet.

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
8
or duplicated, or posted to a publicly accessible website, in whole or in part.
Typologie des données

 Ordinal
Une donnée ordianale a toutes les propriétés d’une
donnée nominale. Mais en plus de cela l’ordre
ou le rang est important.
Un label (code) non numérique ou numérique
peut être utilisé à cet effet.

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
9
or duplicated, or posted to a publicly accessible website, in whole or in part.
Typologie des données

 Interval

La donnée a toutes les propriétés d’une donnée


ordinale et l’interval entre les observation est exprimé
en termes d’unité de mesure fixe.

Les données qui sont des intervals sont toujours


numériques

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
10
or duplicated, or posted to a publicly accessible website, in whole or in part.
Typologie des données

 Interval

Example:
Fanta a une note de 18/20, alors que Tanga a une note de
15/20. Fanta a 3 points de plus que Issa.

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
11
or duplicated, or posted to a publicly accessible website, in whole or in part.
Typologie des données

 Ratio

Un quotient a toutes les propriétés d’un interval et


le quotient de deux valeurs est pertinent.

Des variables telles que la distance, la taille, le poids,


et le temps utilisent des quotients.

Ce type de données a toujours une valeur nulle


(ou de base) qui Indique que rien ne se passe à cette
valeur nulle.

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
12
or duplicated, or posted to a publicly accessible website, in whole or in part.
Typologie des données

 Ratio

Exemple: Fanta a déjà validé 4 cours alors que Tanga


n’a validé que 2 cours. Fanta a donc validé 2 fois
ie, (4/2=2) plus de cours que Tanga.

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
13
or duplicated, or posted to a publicly accessible website, in whole or in part.
Données Catégorielles et Quantitatives

Les données peuvent aussi être classifiées en données


Catégorielle ou quantitative

L’analyse statistiques la plus appropriée dépend


de la nature catégorielle ou quantitative des données.

En général il y a davantage d’options d’analyse,


quand les données sont quantitatives

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
14
or duplicated, or posted to a publicly accessible website, in whole or in part.
Données Catégorielles

Des labels ou des noms utilisés pour identifier


un attribut de chaque élément.

Souvent appelées données qualitatives

Sont soit de type nominal ou ordinal

Peut être numéric ou non numéric

Très peu de d’options d’analyse

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
15
or duplicated, or posted to a publicly accessible website, in whole or in part.
Données Quantitatives

Indicate une quantité: combien?


discret, si n ε N, ensemble des entiers naturels
continu, n ε R, ensemble des réels

Données quantitatives sont toujours numériques.

Les opérations arithmetiques ordinaires sont possibles


Avec les données quantitatives

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
16
or duplicated, or posted to a publicly accessible website, in whole or in part.
Typologie des données (Echelle de mesure)

Données

Categorielle Quantitative

Numeriq Non-numeriq Numeriq

Nominal Ordinal Nominal Ordinal Interval Ratio

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
17
or duplicated, or posted to a publicly accessible website, in whole or in part.
Données transversalles (cross sectional)

Données transversales sont rassemblées


durant une période précise dans le temps.

Exemple: donnée sur le nombre d’entreprises créées


dans les grandes villes de CI en mars 2014 .

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
18
or duplicated, or posted to a publicly accessible website, in whole or in part.
Données en séries chronologiques

Séries chronologiques =rassemblées sur


plusieurs périodes (semaines, mois, années)

Exemple: donnée sur le nombre d’entreprises créées


dans les grandes villes de CI mensuellement durant
L’année 2014 ou annuellement de 2010 à 2015.

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
19
or duplicated, or posted to a publicly accessible website, in whole or in part.
Données en séries chronologiques

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
20
or duplicated, or posted to a publicly accessible website, in whole or in part.
. Panel data:séries chronologiques transverales

Dépenses éducation (vs UA, Khartoum, 2006, 1%)


(Ghana> CI, de 44% en moyenne sur 10 ans)

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
21
or duplicated, or posted to a publicly accessible website, in whole or in part.
Origines des données

 Etudes statistiques- Experimentales

Etudes experimentales:

la variable d’intérêt est d’abord identifiée.


Ensuite une ou plusieurs variables sont identifiées
et controlées pour que les données sur l’influence
de ces dernières sur la première soit suffisamment
disponibles.

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
22
or duplicated, or posted to a publicly accessible website, in whole or in part.
Origines des données

 Etudes Statistiques- Etudes non experimentales

Aucun effort n’est fait pour essayer de controler


ou d’influencer la variable d’intérêt.
Ex: Une enquête

Une étude sur les fumeurs et non-fumeurs est


Non expérimentale, parce le chercheur ne
s’efforce pas de déterminer ou de controler
qui fumera ou qui ne fera pas.

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
23
or duplicated, or posted to a publicly accessible website, in whole or in part.
III. Statistique Descriptive

 La plupart des données statistiques dans les


journaux, magazines, rapports d’activités et autres
publications consistent en des données qui sont
résumées et présentées dans une forme plus facile à
comprendre.
 Statistique descriptive : les résumés des données qui
peuvent être graphiques, numériques, etc..

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
24
or duplicated, or posted to a publicly accessible website, in whole or in part.
Example: Hudson Auto Repair (Mécanique)

Le manager de Hudson Auto souhaiterait avoir une


meilleur compréhension des coûts des pièces
détachées utilisées dans les visites techniques des
véhicules dans son garage. Elle étudie le cas de 50
clients. Les coûts des pièces détachés sont listés ci-
dessous.

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
25
or duplicated, or posted to a publicly accessible website, in whole or in part.
Example: Hudson Auto Repair

 Echantillon du coût des pièces détachées ($) pour


50 visites techniques

91 78 93 57 75 52 99 80 97 62
71 69 72 89 66 75 79 75 72 76
104 74 62 68 97 105 77 65 80 109
85 97 88 68 83 68 71 69 67 74
62 82 98 101 79 105 79 69 62 73

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
26
or duplicated, or posted to a publicly accessible website, in whole or in part.
Tabular Summary:
Frequence absolues et relatives
 Exemple: Hudson Auto

Fréquence
Coûts ($) Frequency relative
absolue
50-59 2 4
60-69 13 26
(2/50)100
70-79 16 32
80-89 7 14
90-99 7 14
100-109 5 10
50 100

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
27
or duplicated, or posted to a publicly accessible website, in whole or in part.
Résumé Graphique: Histogramme

 Example: Hudson Auto


18
Coûts des visites techniques
16
14
12
Fréquence

10
8
6
4
2
coûts ($)
50-59 60-69 70-79 80-89 90-99 100-110
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
28
or duplicated, or posted to a publicly accessible website, in whole or in part.
Information numérique de statistique
descriptive
 L’information de statistique descriptive la plus commune
est la moyenne.
 La moyenne est une mesure de tendance centrale
de la variables d’intérêt.
 Etant donné les 50 coûts de visites techniques, le coût
moyen de Hudson’s est de $79
=somme des coûts divisée par 50.

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
29
or duplicated, or posted to a publicly accessible website, in whole or in part.
IV. Inférence Statistique

Population - l’ensemble de tous les éléments


d’une étude particulière
- Un sous-ensemble de la population
Echantillon

Inference Statistique - Le processus d’utiliser les données


obtenues d’un échantillon pour estimer
et conduire des test d’hypothèses sur
les charactéristiques de la population.
Recencement - Collecter les données pour toute une populat

Survey (échantillonnage)Collection d’information sur


- un échantillon
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
30
or duplicated, or posted to a publicly accessible website, in whole or in part.
Processus de l’Inference Statistique

1. Population 2. Un échantillon de 50
Tous les coûts. Visites techniques
Coût moyen inconnu. est étudié.

4. Le coût moyen de 3. De l’échantillon on


l’échantillon est utilisé calcul un coût moyen
Pour estimer le coût de l’échantillon
moyen dans la population qui est de $79

© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
31
or duplicated, or posted to a publicly accessible website, in whole or in part.
V. Guide Ethique de la Pratique Statistique

 Dans une étude statistique, les comportements non


Éthiques sont variés:
• Mauvais Echantillonnage
• Analyse Inappropriée des données
Construction et usage de graphs qui induisent en erreur
• Interprétation biaisée de l’information statistiques
 Vous devez vous efforcer d’être juste, précis, objectif,
et neutre dans la collection, l’analyse et
la présentation des données
 En tant que potentiel utilisateur de données
statistiques, être conscients de la possibilité
des comportements peu éthiques.
© 2011 Cengage Learning. All Rights Reserved. May not be scanned, copied
Slide
32
or duplicated, or posted to a publicly accessible website, in whole or in part.

Vous aimerez peut-être aussi