Vous êtes sur la page 1sur 17

PROJET RÉALISÉ PAR L'ÉQUIPE XXX

RAPPORT DE GROUPE EN SCIENCES DES


DONNÉES 2 + BASES DE DONNÉES

Benosmane Yacine, Benmouloud Mehdi, Lassouani Mohamed-Yacine Mouanou


Mitori Guichel

Département MIASHS, UFR 6 Informatique, Mathématique et Statistique


Université Paul Valéry, Montpellier 3

Mai 2023

Soumis comme contribution partielle


pour le cours Science des données 2 et Bases de données
Déclaration de non plagiat

Nous déclarons que ce rapport est le fruit de notre seul travail, à part lorsque cela
est indiqué explicitement.

Nous acceptons que la personne évaluant ce rapport puisse, pour les besoins de
cette évaluation:

ˆ la reproduire et en fournir une copie à un autre membre de l'université; et/ou,


ˆ en communiquer une copie à un service en ligne de détection de plagiat (qui
pourra en retenir une copie pour les besoins d'évaluation future).

Nous certions que nous avons lu et compris les règles ci-dessus.

En signant cette déclaration, nous acceptons ce qui précède.

Signature: Date:

Signature: Date:

Signature: Date:

Signature: Date:

i
Remerciements

Nos plus sincères remerciements vont à notre encadrant pédagogique pour les con-
seils avisés sur notre travail.

07/05/2023.

ii
Résumé

iii
Table des matières

Chapitre 1 Introduction 1

Chapitre 2 Base de donnée 2


2.1 Descriptif des tables . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2 Modèles MCD et MOD . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3 Import des données . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.3.1 Prétraitement des données : . . . . . . . . . . . . . . . . . . 3
2.4 Requêtes réalisées . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Chapitre 3 Analyse statistique des Données 5


3.1 Description de la situation statistique . . . . . . . . . . . . . . . . . 5
3.2 Analyse spécique des résultats des entreprises . . . . . . . . . . . . 5
3.3 Analyse spécique des chires d'aaires des entreprises . . . . . . . 9

Chapitre 4 Conclusion et perspectives 11

Bibliographie 12
Codes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

iv
Chapitre 1
Introduction

Investir dans le secteur des entreprises a toujours été un sujet d'intérêt pour les
investisseurs. Les opportunités d'investissement dans l'industrie vont de l'achat de
participations dans de grandes chaînes à l'investissement direct dans des startups.
Cependant, avec la récente perturbation économique causée par la pandémie de
COVID-19, beaucoup se demandent si investir dans le secteur des entreprises sera
toujours rentable en 2023. Alors que certains secteurs d'activité ont été durement
touchés par la pandémie, d'autres ont connu une croissance importante en raison de
l'augmentation des achats en ligne et de la demande accrue pour certains produits.
Dans ce projet , nous examinons les tendances actuelles du marché, les oppor-
tunités d'investissement dans le secteur des entreprises, ainsi que les risques et les
dés qui y sont associés.
Nous évaluerons également si investir dans le secteur commercial peut être con-
sidéré comme rentable en 2023 et s'il s'agit d'un bon choix pour les investisseurs à
la recherche de rendements attractifs.

Est-t-il intéressant d'investir dans le secteur commercial pour l'année


2023 ?

1
Chapitre 2
Base de donnée

2.1 Descriptif des tables

Nom colonne Type Signication

Id_Indicateur int(11) Identiant de l'entreprise


Millesime_1(2,3) year(4) Année du bilan nancier
Date_cloture_1(2,3) date Date de clôture d'exercice
Chire_d'aaire_1(2,3) bigint(11) Chire d'aaire réalisé
Resultat_1(2,3) bigint(11) Resultat net de l'entreprise
tranche_CA_millesime_1(2,3) varchar(20) Tranche de chire d'aaire

Table: INDICATEUR (3561L × 16C)


Cette table permettra d'évaluer la performance nancière d'une entreprise sur
plusieurs années an de nous aider à prendre des décisions d'investissement dans le
secteur commercial

Table 2.2: ACTIVITE (83L × 2C)

Nom colonne Type Signication

code_ape varchar(5) Code activité principale exercé


Description varchar(84) Description de l'activité principale

Cette table permet de spécialiser l'activité principale de l'entreprise.

Table 2.3: ENTREPRISE (3561L × 5C)

Nom colonne Type Signication

Numero_Siren int(14) Identiant d'entreprise


Denomination varchar(1000) Nom de l'entreprise
ID_Region int(5) Identiant de la région
Debut_activite date Date de début d'activité
Activite_principale varchar(20) Code APE

Les diérentes informations sur les entreprises permettront de prendre des déci-
sions d'investissement au sein de ce secteur.

2
Table 2.4: REGIONS (1725L × 2C)

Nom colonne Type Signication

ID_Région int(5) Identiant de la région


Ville varchar(32) Nom de la région

2.2 Modèles MCD et MOD

Figure 2.1: MCD Figure 2.2: MOD

2.3 Import des données


2.3.1 Prétraitement des données :

Le prétraitement des données est une étape importante dans l'obtention de données
de qualité dans un but analytique.
Tout d'abord plusieurs colonnes inutiles ont été retiré des données concernant
l'ensemble des entreprises françaises car elles n'étaient pas assez pertinentes dans
notre analyse. Il y a les données suivante:
- NIC,Forme juridique, Adresse, Numéro de département, Numéro de région, Code
gree, Appelation du code gree ,Date de radiation,Statut,Géolocalisation,3 durées
d'activité des 3 dernières années , 3 eectifs des 3 dernières années, Fiche identité
Ensuite, nous avons ltré les données de la colonne libellé pour prendre unique-
ment les entreprises du secteur commercial. Cela nous a permis de nous concentrer
sur le domaine de notre étude
Nous avons également ltré les données des colonnes des chires d'aaire 1,
chire d'aaire 2 et chire d'aaire 3 an de retirer toutes les données qui ne
contenaient pas ces informations. Ainsi, nous avons pu nous assurer que les données
sur les chires d'aaires étaient complètes.
Nous avons par la suite extrait les colonnes code postal et ville pour les mettre
dans un autre chier CSV car ces informations concernaient une autre table de
données
Enn, nous avons extrait tous les codes APE et les avons reliés à un chier CSV
externe contenant l'ensemble des codes APE relié à leurs dénominations propre.
Cette étape nous a permis d'avoir une meilleure compréhension des activités des
entreprises analysées.

3
En somme, le prétraitement des données est une étape cruciale pour obtenir des
données de qualité avant de les analyser. Les modications apportées au chier
CSV Chire clés ont permis de s'assurer que les données étaient pertinentes et
complètes, et ont ainsi facilité l'importation des données.

2.4 Requêtes réalisées


1) On souhaite acher le nombre d'entreprise ayant un résultat moyent positif au
cours des 3 dernières années . (2978 entreprises)

SELECT*
FROM entreprise, INDICATEUR
WHERE
ENTREPRISE.Numero_Siren=INDICATEUR.ID_Indicateur
AND ( resultat_1+resultat_2+resultat_3)/3 >0;

2) On souhaite acher le résultat maximal au cours des 3 dernières années


On obtient: ( resultat_max_1 = 423461219 | resultat_max_2 = -124621133 |
resultat_max_3 = 3708236783)

SELECT MAX(i.resultat_1) AS resultat_max_1, MIN(i.resultat_2) AS resultat_max_2


FROM indicateur i;

3) Achage de la moyenne des chires d'aaires au cours des 3 dernières années.

SELECT AVG(CA_total) AS moyenne_CA_total


FROM (
SELECT SUM(Chiffre_affaire_1 + Chiffre_affaire_2 + Chiffre_affaire_3) AS CA_tot
FROM INDICATEUR
GROUP BY ID_indicateur
) AS CA_total_entreprises; `

4) Achage des entreprises d'un domaine (ex : véhicule) ayant un résultat


croissant au cours des trois dernières années. ( 2 entreprises )

SELECT DISTINCT des.ACT_DES,des.ACT_CODE


FROM(SELECT ACTIVITE.Description as ACT_DES,ACTIVITE.code_ape as ACT_CODE
FROM ENTREPRISE
INNER JOIN INDICATEUR
ON ENTREPRISE.Numero_Siren=INDICATEUR.ID_Indicateur
INNER JOIN ACTIVITE
ON ENTREPRISE.Activite_Principale=ACTIVITE.code_ape
INNER JOIN REGION
ON ENTREPRISE.ID_Région=REGION.code_postal
WHERE INDICATEUR.Resultat_1<INDICATEUR.Resultat_2 AND INDICATEUR.Resultat_2<IND
WHERE des.ACT_DES LIKE '%vehicule%';

4
Chapitre 3
Analyse statistique des Données

La pandémie de Covid-19 a bouleversé de nombreux secteurs de l'économie mondi-


ale et le secteur commercial n'a pas été épargné, les conséquences de cette dernières
ont entraîné des changements dans les comportements d'achat des consommateurs
ainsi que des perturbations dans les chaînes d'approvisionnement pour l'obtention
des marchandises. Dans ce contexte, l'analyse statistique des données peut jouer un
rôle crucial dans l'identication des enteprises les plus résilientes et les plus promet-
teuses pour l'investissement. En utilisant les outils que R nous met a disposition,
nous pourrons d'une part analyser et comparer les performances nancières pré
et post-pandémie des entreprises pour comprendre les diérences et les tendances
émergentes. D'autre part nous pourrons examiner les chires clés des entreprises
par le biais des indices statistiques pour chaque année.En combinant ces analyses,
nous pourrons fournir des infomations pour orienter les décisions d'investissement
dans le secteur commercial.

3.1 Description de la situation statistique


La situation statistique présente comme population des entreprises du secteurs com-
mercial,et possède chacuns 4 variables qualitative nominal qui sont leur Nom, leur
département, leurActivité principale et leur code siren. Aussi, elle possède des
variables quantitative discrète qui sont chire d'aaire 1,2 et 3 correspondant aux
3 dernières années, ainsi que le résultats 1,2 et 3 correspondant aux 3 dernières
années.Ces données étaient présenté sous le format d'un chier csv répertoriant
l'ensemble des entreprises se situant en France

3.2 Analyse spécique des résultats des entreprises


Dans le but de pouvoir mener à bien notre étude nous avons décidé de faire l'études
descriptif de notre population il s'agit entre autre de déterminer les indicateurs
comme la moyenne,médiane,etc. . . et ensuite donner une interprétation. Nous
allons donc étudier les résultats en fonction des 3 dernières années
En prémier lieu nous allons comparer les moyennes: Moyenne1

## [1] 705557.6
Moyenne 2

## [1] 385546.7
Moyenne3

## [1] 1070420

5
On observe que la moyenne de l'année 2020 étant égale à 1069857 est largement
surperieur à celle de 2022 et 2020.
Le diagramme cirulaire ci-dessous reprensente en pourcentage les dierents moyennes

Moyenne des trois resultats

32.6 %

17.8 %

2022
2021
49.5 % 2020

Les quantiles de 2020

## 25% 50% 75%


## 1112 24912 102610
## [1] 101498
L'ecart interquantile étant très élévé(101502.5 )Par rapport à ce resultat on peut
arme qu'on a une grande dispertion au seins de cette population
Les quantiles de 2021

## 25% 50% 75%


## 6989.5 40177.0 132540.5
## [1] 125551
L'ecart interquantile étant élévé(125534 ) Par rapport à ce resultat on peut dire
qu'on a une grande dispertion au seins de cette population
Les quantiles de 2022

## 25% 50% 75%


## 4341.5 42706.5 176975.2
## [1] 172633.8
L'ecart interquantile étant très élévé(172652.5 ) Par rapport à ce resultat on
peut dire qu'on a une grande dispertion au seins de cette population
En troisième lieu il y a les écartypes
Année 2020

## [1] 1.232102e+14
## [1] "ecart type de resultat1"
## [1] 11100007
Au vu des résultats, l' ecart type est tres grande dons on a une grande dispersion
autour de moyenne
Année 2021

## [1] 4.048048e+13
## [1] "ecart type de resultat2"

6
## [1] 6362428
Certes la dispersion est grande en 2020 mais elle ne l'es pas autant qu'en 2021
cela est causé par la covid qui a mis tout le monde à terre
Année 2022

## [1] 4.074842e+15
## [1] "ecart type de resultat2"
## [1] 63834493
Là aussi la dispersion est grande est lègerement plus élévé qu'en 2021 cela
s'explique par la relance économique après covid
Ci contre, se présente les distributions pour chacunes des années

Distribution 1
2500
Frequency

1500
500
0

−2e+08 1e+08 4e+08

Valeurs

A travers ces trois graphes on a donc une conclusion 2020 qui est supérieur en
terme de résultat et malgré la crise de 2021 on a une croissance en 2022

Nous allons dorénavant étudier la relation entre les résultats et l'activité princi-
pale sur les trois dernières années. On obtient les graphiques suivant:

| | |
Ces graphiques nous permette de conclure que l'activité des commerces surgelés
prédomine le marché en therme de résultats. Nous allons donc proceder à un test
de l'anova sur les trois années an de déterminer si l'activité principale inue sur
le résultat.

7
Figure 3.1: anova_2020.

Figure 3.2: anova_2021.

Figure 3.3: anova_2022.

ˆ
Les résultats de l'analyse ANOVA ont montré que la valeur p associée au facteur
code_ape était supérieure à la valeur seuil de 0,05 (p>0,05), montrant qu'il n'y
avait pas de diérence signicative entre la moyenne des groupes déterminée par
ce facteur. La somme des carrés de la variation résiduelle est élevée,ce qui peut
suggérer la présence d'autres facteurs inuençant les variables analysées mais qui
n'ont pas été pris en compte dans cette analyse
Nous allons donc procédé à l'analyse de la liaisons entre les résultats observé
par entreprise selon la localité. Pour chaque année on obtient le même graphique
ci contre (à quelques variance près)

8
ˆ
Nous observons que les hubs obtiennent les résultats les plus importants. Cela
s'explique par la relance économique ainsi que la concentration d'entreprise proche
entre elle ce qui réduit le prix d'importation.

3.3 Analyse spécique des chires d'aaires des entreprises


De la même manière que précédemment, nous allons tenter d'étudier de manière
la plus précise les tendances concernant les chires d'aaires de chacunes des en-
treprises.

ˆ
On peut remarquer une certaine évolution des recettes des entreprises de manière
importante, il est donc important de déterminer si l'activité principal est un facteur
de cette expension.
Nous allons donc étudier graphiquement la moyenne du chire d'aaire selon
l'activité principal
On obtient alors de manière uniforme le même graphique pour chaque année. En
eet, tout comme l'analyse des résultats des entreprises, l'activité des commerces
surgelés prédomine le marché.

ˆ
Il est donc trivial de proceder à un test de l'anova sur les trois années an de
déterminer si l'activité principale inue sur le résultat.
Notons que l'année 2021 montre que la F-value est de 2,385 et la p-value associée
est de 9.18e-11, ce qui est inférieur au seuil de signication de 0,05. Cela suggère

9
que les moyennes des groupes comparés sont signicativement diérentes, et donc
que l'hypothèse nulle d'égalité des moyennes peut être rejetée.
Etudions dorénavant, le liens entre le chire d'aaire et la localité. Pour se faire,
nous avons mis en place une heatmap à l'aide de RStudio. Certaines valeurs sont
manquante et apparaisse en gris car ces informations sont manquantes dans la base
de données initial

ˆ
Remarquons que la moyenne du chire d'aaire selon la localité reste tout à fait
homogène. Cependant, nous ne pouvons négliger que certaines zones comme Paris
les Yvelines et Saine-Saints-Denis, possèdent une certaines densité de population
qui pousse à la consommation ce qui explique cette écart de chire d'aaires avec
les autres départements qui sont homogènes

10
Chapitre 4
Conclusion et perspectives

A l'aide les analyses eectuées précédemment on a remarques la COVID a eu une


grande inuence sur l'ensemble des activité de ces trois dernières années notamment
en 2021 malgré cela ,Nous pensons donc que ce secteur va continuer à croître dans le
futur. La localité ne nous a pas semblé être un facteur déterminant, même si avec
d'autres données, nous aurions certainement pu prouver le contraire. Le secteur
commercial est donc un secteur prometteur. Cependant, malgré la profondeur de
notre analyse, nous ne pouvons pas conclure que ce secteur sera à coup sûr rentable.
Il nous faudrait d'autres indicateurs tels que le ROI, la rentabilité ou encore la
protabilité pour évaluer sa performance nancière.

Lister également les dicultés rencontrées dans la partie BD (e.g., taille de la


base, manque de données, . . . ) et dans la partie statistique.

11
Bibliographie

CHIFFRE CLES
CODE AFE
CODE POSTAUX
-Le logiciel R: Maîtriser le langage, eectuer des analyses (bio)statistiques Broché
 9 octobre 2014 - Comprendre et réaliser les tests statistiques à l'aide de R: Manuel
de biostatistique Broché  Livre grand format, 30 janvier 2018 - SQL 2015

Codes
Ajouter vos codes informatique ici. Les codes doivent être correctement indentés et
commentés.

12

Vous aimerez peut-être aussi