Vous êtes sur la page 1sur 57

Abonnez-vous à DeepL Pro pour éditer ce docum

Visitez www.DeepL.com/pro pour en savoir plus.


Lignes directrices
sur l'analyse
des données

Bureau du contrôleur et de l'auditeur général de l'Inde

2017
6

3
Préface

La technologie joue un rôle important dans la gouvernance moderne pour


améliorer la fourniture de biens et de services publics. Les divers systèmes
technologiques produisent en permanence des volumes de données sous
des formes disparates, ce qui ouvre d'immenses possibilités d'analyse des
données.
En tant qu'institution supérieure de contrôle réactive, nous devons faire
preuve d'agilité institutionnelle pour suivre le rythme de ces évolutions et
saisir les nouvelles possibilités offertes par l'analyse des données. La
politique de gestion des grandes données (Big Data Management Policy),
formulée en 2015, a défini les grandes lignes du cadre analytique des
données pour le département. La création du Centre de gestion et d'analyse
des données a constitué la première étape de la mise en place de ce cadre.
Les lignes directrices pour l'analyse des données constituent une initiative
majeure pour institutionnaliser la pratique et l'utilisation de l'analyse des
données au sein du département. Ces lignes directrices expliquent le
concept de l'analyse des données, décrivent le processus d'analyse des
données et envisagent le développement de modèles d'analyse des
données. L'analyse des données est une discipline en constante évolution et
ces lignes directrices devront donc être revues et mises à jour
périodiquement.
Je suis certain que les fonctionnaires et le personnel du département
trouveront ces lignes directrices utiles et les appliqueront de manière ciblée
pour améliorer la qualité de la comptabilité publique et de l'audit.

Shashi Kant Sharma


Contrôleur et vérificateur général de
l'Inde
Septembre 2017
1. Analyse des données
Introduction

1. L'analyse des données est l'application des approches de la


science des données1 pour obtenir des informations à partir des
données. Elle implique une séquence d'étapes commençant par
la collecte des données, la préparation des données et
l'application de diverses techniques d'analyse des données afin
d'obtenir des informations pertinentes. Ces informations
comprennent, entre autres, les tendances, les modèles, les écarts,
les incohérences et les relations entre les éléments de données
identifiés par l'analyse, la modélisation ou la visualisation, qui
peuvent être utilisés lors de la planification et de la réalisation
des audits.
L'analyse des données apporte un avantage concurrentiel en
permettant une prise de décision basée sur l'information. Comme
il s'agit d'une discipline en pleine évolution, les utilités possibles de
l'analyse des données sont encore en cours d'expérimentation et
d'exploration, tant dans le secteur public que dans le secteur privé.
2. Ces lignes directrices prescrivent la méthodologie d'utilisation de
l'analyse des données dans la fonction d'audit du département
indien de l'audit et de la comptabilité (IA&AD). Les principes et
méthodes d'analyse des données seront toutefois applicables aux
domaines de la comptabilité et de l'administration.
3. Ces lignes directrices ont été élaborées dans le cadre du suivi de la
politique de gestion des Big Data publiée en septembre 2015 et
des initiatives ultérieures relatives à l'utilisation de l'analyse des
données dans l'IA&AD, en particulier dans le domaine de l'audit.
1
La science des données fait référence à un domaine de travail émergent qui concerne la collecte, la préparation,
l'analyse, laElles s'inspirent
visualisation, la gestion etdes lignes de
la préservation directrices existantes
grandes collections surBienl'audit
d'informations. de
que le nom
Data Science semble se rattacher plus fortement à des domaines tels que les bases de données et l'informatique,
performance, l'audit de conformité et l'audit financier,
de nombreux types de compétences différentes Ͳ y compris des compétences nonͲmathématiques Ͳ sont
nécessaires ͲAn Introduction to Data Science ͲJeffrey Stanton, Syracuse University.

Lignes directrices sur l'analyse des données - 1


C&AG of India
Normes d'audit et autres instructions et manuels pertinents de
l'IA&AD.
Possibilité d'initiative individuelle et de jugement professionnel
4. Bien que ces lignes directrices soient de nature normative, elles ne
sont pas destinées à remplacer le jugement professionnel du
comptable général2 . Le comptable général est censé procéder à
des ajustements spécifiques à une situation ou à un sujet donné
par rapport aux dispositions énoncées dans les présentes lignes
directrices. Toutefois, les comptables généraux devront justifier
tout écart important par rapport aux lignes directrices et obtenir
l'autorisation de l'autorité compétente.
Analyse des données et IA&AD
5. L'IA&AD a un mandat d'audit très large, qui comprend l'audit du
gouvernement de l'Union et des gouvernements des États et
s'étend aux organismes ou autorités tels que les sociétés
statutaires, les entreprises publiques, les organismes autonomes
constitués en sociétés, les sociétés fiduciaires ou à but non lucratif,
les organismes urbains et locaux et à tout autre organisme ou
autorité dont l'audit peut être confié au contrôleur et au
vérificateur général de l'Inde. Les audits sont réalisés sur la base
des comptes, des pièces justificatives et des registres reçus par le
bureau d'audit et/ou le bureau des comptes et peuvent inclure des
données, des informations et des documents en ligne de l'entité à
auditer. Les normes d'audit prévoient l'obtention d'éléments
probants suffisants et appropriés pour étayer le jugement et les
conclusions de l'auditeur concernant l'organisation, le programme,
l'activité ou la fonction faisant l'objet de l'audit. Cela implique
l'étude et l'analyse des données collectées avant et pendant les
audits. Les ressources disponibles étant limitées, l'audit adopte
2
une approche fondée sur le risque et applique des méthodes
Le terme "comptable général" englobe tous les chefs de département (CdD) de grade administratif supérieur et
plus, au seinanalytiques.
de l'IA&AD.

Lignes directrices sur l'analyse des données - 2


C&AG of India
Les procédures d'audit, les tests de contrôle et les contrôles
substantifs sur les données disponibles et sélectionnées au cours
de la planification et de l'exécution des audits.
Avec l'informatisation rapide, la plupart des activités des entités à
contrôler sont enregistrées électroniquement dans divers
systèmes informatiques. Ces enregistrements électroniques ou
"données", s'ils sont interprétés correctement, peuvent fournir
des informations sur les événements passés, guider les actions
correctives dans le présent et prévoir les événements futurs,
améliorant ainsi l'efficacité de l'auditeur.
1.6 L'audit dispose aujourd'hui de données sous différentes formes et
provenant de différentes sources. L'analyse des données permet
d'analyser ces ensembles de données et d'obtenir des
informations qui facilitent les processus d'audit en identifiant des
modèles, des tendances, des descriptions, des exceptions, des
incohérences et des relations dans les ensembles de données et
leurs variables. Les informations ainsi obtenues aideraient à définir
l'orientation des audits, en identifiant principalement les domaines
1.7 d'intérêt
L'analyseou de
desrisque et en identifiant
données commencelespar exceptions.
l'identification et la
collecte de diverses sources de données pour un audit particulier.
L'analyse des données dans l'audit
L'analyse des données à l'aide de diverses techniques d'analyse
des données permettra de mieux comprendre le fonctionnement
de l'entité contrôlée. Les zones de risque ou les domaines
d'intérêt identifiés grâce à cet exercice aideront à définir les
objectifs de l'audit et à élaborer une matrice de conception de
l'audit. L'analyse des données permettra également d'identifier
l'échantillon d'unités d'audit dans lequel des contrôles de fond
seront effectués.

1.8 Les différentes analyses peuvent ensuite être intégrées dans un


modèle analytique de données ré-exécutable. Ainsi, les résultats de
l'analyse des données pourront être utilisés de manière répétitive
avec une mise à jour périodique des données. La mise en place
d'un mécanisme
Lignes directrices sur l'analysede
des réception
données - périodique des données sera3
C&AG ofcruciale
India pour une telle approche. Le champ d'application du
modèle, une fois construit, peut être élargi de la manière suivante
l'intégration du retour d'information des contrôles de fond et
l'apport de sources de données supplémentaires. Ainsi, l'analyse
de données dans l'IA&AD n'est pas envisagée comme un processus
unique pour un audit spécifique, mais devrait évoluer au fil du
temps.
1.9 Le diagramme schématique du processus est présenté ci-dessous :

Retour
d'informa
tion

Figure 1ͲProcessus d'analyse des données

Le processus d'analyse des données a été expliqué en détail dans


les chapitres suivants.
1.10 Le Centre de gestion et d'analyse des données (CDMA) sera l'organe
central chargé de piloter les activités d'analyse des données au
sein de l'IA&AD. Le CDMA fournira des conseils aux bureaux locaux
en matière d'analyse de données et sera à l'avant-garde de la
recherche et du développement dans l'orientation future de
l'analyse de données.

Lignes directrices sur l'analyse des données - 4


C&AG of India
Dans la structure envisagée pour l'analyse des données au sein de
l'IA&AD, l'analyse des données doit être menée par chaque bureau
extérieur conformément à son plan annuel. Les activités d'analyse
des données dans un bureau extérieur seront donc sous la
responsabilité du chef de département, qui constituera un groupe
d'analyse des données. Les groupes d'analyse de données
constitués dans les bureaux locaux sous la responsabilité d'un chef
de groupe seront chargés de piloter l'analyse de données dans les
bureaux locaux. Pour obtenir des informations significatives pour
l'audit à partir de l'analyse des données, il est essentiel d'avoir des
connaissances dans le domaine de l'audit. L'exercice de l'analyse
des données est donc envisagé comme un effort de collaboration,
les connaissances techniques des groupes d'analyse des données
et l'expertise dans le domaine des groupes fonctionnels du bureau
local se complétant mutuellement. Une répartition indicative des
rôles pour les activités d'analyse des données figure à l'annexe 1.
Recrutement d'experts externes
1.11 Dans les domaines spécialisés, les bureaux locaux pourraient
envisager d'engager des experts externes si le besoin s'en fait
sentir. L'engagement d'experts externes doit toutefois être
conforme aux lignes directrices publiées périodiquement par
IA&AD. Certains des domaines spécialisés pour lesquels un tel
recrutement pourrait être envisagé sont liés au traitement des
données, à l'application de techniques avancées d'analyse des
données ou à la gestion d'un référentiel de données.

Lignes directrices sur l'analyse des données - 5


C&AG of India
2. l'acquisition et la préparation des données
1. Le processus d'analyse des données comprend l'acquisition des
données, la préparation des données, l'analyse des données, les
résultats et les modèles analytiques. Ce chapitre traite de
l'identification et de la collecte des données, ainsi que du traitement
des données collectées et de leur préparation en vue de l'analyse. Il
est toutefois important de comprendre les types de données et leurs
sources avant d'entamer le processus d'acquisition, de préparation
et d'analyse.
Comprendre les types de données
2. Les données sont au cœur de l'analyse des données. Les données
peuvent être mesurées, collectées, analysées et visualisées pour
donner une interprétation significative des faits et des raisons. Les
données peuvent être comprises et classées comme suit :

Figure 2ͲTypes de données

 Données non structurées ou structurées : Les données non


structurées comprennent des données telles que des textes,
des images, des données audio ou vidéo, qui ne peuvent pas
être facilement "tabulées" à des fins d'analyse statistique ou
mathématique. Les données structurées, quant à elles, se
réfèrent à des données sous forme de tableaux. Les données
structurées
Lignes directrices peuvent
sur l'analyse être catégoriques
des données - ou numériques. 6
C&AG of India
 Données catégorielles ou numériques : Les données
catégorielles peuvent être nominales (données ne pouvant
être ordonnées, par exemple le nom ou le sexe d'une
personne) ou ordinales (données pouvant être ordonnées, par
exemple le classement basé sur la qualité du service : très
satisfait ; satisfait ; non satisfait). Les données numériques
peuvent être des données d'intervalle (par exemple, la
température qui se prête à l'identification des différences de
valeurs) ou des données de ratio (par exemple, les dépenses
Fonctionnement Nominal Ordinaire Intervalle Ratio
d'une entreprise qui peuvent être comparées comme des
Compter    
multiples
Ordre les unes des autres).
des valeurs   
Mode    
Médiane   
Moyenne  
Addition/soustraction  
Multiplication/Division 
Existe-t-il un vrai zéro ? 
Figure 3Ͳ Opérations possibles avec les types de données

 Nombre de variables - Données univariées, bivariées ou


multivariées : En fonction du nombre de variables d'un
ensemble de données, on parle de données univariées,
bivariées ou multivariées. Les données univariées ne
comportent qu'une seule variable. Elles sont essentiellement
de nature descriptive. L'analyse des données univariées
consiste à résumer et à identifier des modèles dans les
données. Les données bivariées comportent deux variables et
l'analyse statistique peut être appliquée pour comprendre la
relation entre deux variables. Elles peuvent être représentées
sur l'axe XͲY et la représentation visuelle à l'aide de
graphiques tels que le diagramme de dispersion sera utile pour
comprendre les schémas de relation dans ce type de données.
Les données multivariées impliquent plusieurs variables. Une
analyse statistique sera nécessaire pour analyser les données
et découvrir
Lignes directrices sur l'analyseles
desrelations
données - et les dépendances entre 7les
C&AG of Indiavariables. La représentation visuelle est un outil utile pour
Les graphiques peuvent être tracés sur trois dimensions, X, Y et
Z. Les graphiques peuvent donc inclure plus de trois variables
en utilisant des approches de visualisation appropriées.
Sources de données

3. L'identification des différentes sources de données dont dispose


l'IA&AD est la pierre angulaire du cadre de gestion des données. La
politique de gestion des Big Data classe les différentes sources de
données dans les catégories suivantes :
Sources de données internes : Elles comprennent
 Comptes combinés des finances et des recettes
 Base de données VLC
 Données sur les GPF et les pensions dans les bureaux A&E
 Données générées par le processus d'audit
 Toute autre donnée disponible dans le département
Sources de données externes : Elles comprennent
a) Les données des entités auditées dont dispose le département
en sa qualité de professionnel et qui comprennent
 Données financières et non financières des entités auditées
 Données spécifiques au programme, y compris les bases de
données des bénéficiaires
 Autres données relatives aux entités contrôlées
b) les données de tiers, qui comprennent les données disponibles
dans le domaine public et incluent :
 Données publiées par les autorités gouvernementales et
statutaires telles que
o Données de recensement
o Données de l'ONSS
o Données publiées par les
différents
ministères/départements
o Données disponibles sur
Lignes directrices sur l'analyse des données -
data.gov.in 8
C&AG of India
o Rapports de diverses commissions
o Autres rapports et données concernant le
gouvernement de l'Union/les États
 Autres données disponibles dans le domaine public
o Enquêtes et informations publiées par les ONG
o Informations spécifiques à l'industrie publiées par
CII, FICCI/NASSCOM, etc.
o Informations sectorielles publiées par différents
organisations
o Médias sociaux, etc.

4. Les bureaux locaux peuvent être confrontés à des situations où les


données requises sont disponibles sous forme manuelle. Les
bureaux extérieurs doivent alors décider si les données manuelles
peuvent être converties sous forme électronique en créant des
ensembles de données électroniques. Par exemple, les détails
contenus dans les ordres de sanction reçus par les bureaux d'audit
peuvent être convertis en un fichier de données électronique, qui
peut être utilisé pour l'analyse des données.
Identification des données
5. Dans le cadre de la collecte et de la mise à jour d'une base de
données complète sur les entités contrôlées, les bureaux locaux
doivent mettre en place un mécanisme permettant d'identifier la
disponibilité des données électroniques concernant les entités
contrôlées/les données de tiers dans leur juridiction et de les
mettre à jour périodiquement.
Acquisition de données
6. L'acquisition de données consiste à obtenir l'accès aux données et
à les collecter en tenant compte de la propriété, de la sécurité et
de la fiabilité des données collectées.
Accès aux données
7. Étant donné que l'IA&AD n'est pas propriétaire de plusieurs
Lignes directrices sur l'analyse des données - 9
sources de données nécessaires à l'analyse des données, la
C&AG of India
disponibilité des données restera un défi dans le cadre de l'analyse
des données.
à moyen terme. Ce problème est exacerbé par la réticence de
nombreuses entités auditées à communiquer leurs données. La
persuasion et le suivi continus des entités contrôlées, en
s'appuyant sur les dispositions pertinentes de la loi de 1971 sur les
devoirs, les pouvoirs et les conditions de service du CAG et du
règlement de 2007 relatif à l'audit et aux comptes, permettront de
résoudre ce problème.
8. Les données peuvent être fournies aux auditeurs sur les sites de
l'entité par le biais d'un accès au système. Il peut s'agir d'un accès
en lecture seule, sans aucun droit de transaction, afin de ne pas
affecter les performances du système. Les données peuvent être
fournies par le biais de fichiers de sauvegarde créés dans
l'environnement de l'entité et partagés avec les auditeurs sur un
support amovible. Les données peuvent également être partagées
électroniquement au moyen de transferts électroniques par
l'intermédiaire de réseaux Ͳ LAN ou WAN ou d'Internet ou d'un
VPN, selon le cas.
9. La progression de la manière dont les auditeurs peuvent accéder
aux données de leurs entités contrôlées est indiquée ci-dessous,
en commençant par les enregistrements manuels jusqu'au partage
de données en ligne et en temps réel. Toutefois, il n'est pas
indispensable que la progression soit séquentielle et les auditeurs
qui n'ont accès qu'aux enregistrements manuels peuvent
commencer à accéder aux données en temps réel par voie
électronique sans passer par les étapes intermédiaires. L'accès aux
données dépend uniquement des capacités des auditeurs, de
l'environnement d'audit et du niveau d'accès établi entre les deux.

Lignes directrices sur l'analyse des données - 10


C&AG of India
Figure 4ͲAccès aux données

10. L'un des moyens de traiter la question de l'accès aux données


consiste à impliquer l'audit dès la phase de conception des
systèmes informatiques, lorsqu'il est possible d'intégrer les
exigences de l'audit en matière de données dans la conception du
système. Cela faciliterait l'acquisition des données dans le format
requis. Pour ce faire, les bureaux extérieurs devraient
communiquer les exigences en matière de données d'audit aux
entités concernées au stade des développements importants du
système, ce qui faciliterait l'accès aux données requises lorsque le
système sera opérationnel. Ces exigences en matière de données
pourraient couvrir les ensembles d'informations à acquérir, le
format des données, le mode de transfert et la périodicité des
données à mettre à la disposition de l'audit. En même temps,
l'accès au système complet ou aux données complètes, s'il est
nécessaire pour un audit spécifique, tel que les audits de
performance, les audits de systèmes, les audits informatiques, les
audits spéciaux, etc. ne devrait pas être empêché par la
participation des auditeurs au stade du développement du
système.

Traitement des données à différents niveaux des modes d'accès


aux données

11. Lorsque les données sont partagées sur des supports amovibles, 11
Lignes directrices sur l'analyse des données -
les
C&AG of Indiaauditeurs doivent disposer d'un matériel compatible avec ces
supports (CD, DVD, lecteur de bande, lecteur USB, etc.). Outre la
capacité à faire fonctionner le support, les auditeurs doivent
(comme le SGBDR) où les données peuvent être lues à partir du
support. Il faut donc créer un environnement similaire à la source
d'où proviennent les données pour pouvoir les lire. Les droits de
lecture seule sont généralement les droits de consultation
accordés aux auditeurs des systèmes de l'entité, ce qui devrait
faciliter la consultation/copie des données requises. Dans le cas du
transfert électronique de données, les données sous forme de
fichiers sont transférées via des réseaux tels que le courrier, les
protocoles de transfert de fichiers, etc. Dans le cas de l'accès en
ligne, les données sont mises à disposition par l'intermédiaire d'un
nuage à partir d'un serveur distant. Les systèmes en temps réel
permettent d'accéder à des systèmes en direct et aux informations
qu'ils contiennent en temps réel. L'accès aux données en temps
réel offre la possibilité d'un traitement en temps réel, permettant
ainsi le développement d'approches d'audit continu par le biais de
modules d'audit intégrés3 .
Tous les bureaux extérieurs devraient s'efforcer de mettre en place
un mécanisme d'accès aux données approprié avec les
organisations sources de données afin d'accéder aux données sur
une base périodique/en temps réel dans leur référentiel de
données/modèles d'analyse de données.
Collecte des données
2.12 La collecte de données est l'approche systématique de la collecte et
de la mesure d'informations provenant de diverses sources afin
d'obtenir une image complète et précise d'un domaine d'intérêt.
Le système informatique doit être étudié et compris lors de la
collecte des données, ce qui facilitera l'identification et la demande
des données pertinentes. Il peut s'agir de bases de données
complètes, de tableaux sélectionnés dans les bases de données, de
champs de données sélectionnés dans les tableaux des bases de
3 Module d'audit embarquéͲ Module d'audit embarqué/intégré dans les systèmes informatiques, recevant ainsi
données ou de données relatives à des critères/conditions
des données en ligne.
spécifiques
y compris des pour
données en temps réel.une période, un lieu, une classe, etc. particuliers.

En fonction
Lignes directrices de la des
sur l'analyse taille des - données, celles-ci peuvent être
données 12
C&AG ofobtenues
India sous forme de fichiers plats ou d'images.
les formats de fichiers "dump". Lorsqu'il n'est pas possible
d'obtenir les données/tableaux pertinents pour l'analyse,
l'ensemble des données peut être collecté.
13. Lors de la collecte des données, l'authenticité, l'intégrité, la
pertinence, la facilité d'utilisation et la sécurité des ensembles de
données doivent être assurées4 . Pour garantir l'intégrité des
données (c'est-à-dire que certaines données ne sont pas perdues),
des contrôles tels que le comptage du nombre total
d'enregistrements ou la somme des colonnes numériques qui
s'additionnent (totaux de hachage) peuvent être effectués. Pour
s'assurer que les données sont complètes, des mesures de
contrôle de l'exhaustivité doivent être prises, par exemple, les
taxes collectées par les contribuables individuels doivent
correspondre au total des taxes collectées par le bureau des
impôts. L'auditeur doit obtenir un certificat attestant que les
données sont complètes et identiques à celles figurant dans le
système informatique de l'entité auditée au moment de la
réception des données. Un modèle indicatif de ce certificat est
fourni à l'annexe 2. Il convient de veiller à ce que seul le personnel
autorisé s'occupe des transferts de données entre les sources de
données et les auditeurs. L'accès à ces données doit se faire par le
biais de contrôles d'accès appropriés afin d'empêcher tout accès
non autorisé aux données.
Données provenant d'une entité ne relevant pas de la juridiction
d'audit
14. Les bureaux locaux peuvent avoir besoin d'ensembles de données
qui n'appartiennent pas à des entités contrôlables relevant de leur
4
Politique de gestion des big data,
compétence section IVͲ2.Le
d'audit. Les protocoles
bureaude gestion
localdespeut
données alors
doivent garantir que les
demander
données satisfont aux exigences de la politique de gestion des Big Data.
l'assistance
les caractéristiques suivantes :du bureau local concerné qui est compétent pour
Authenticité ͲLes données sont créées selon le processus qu'elles revendiquent. Intégrité ͲLes données sont
complètes, l'audit
exactes etde cesdeentités
dignes contrôlables
confiance. Pertinence Ͳ Les et le bureau
données local concerné
sont appropriées et pertinentesdoit
pour
l'objectif identifié. Facilité d'utilisation ͲLes données sont facilement accessibles de manière pratique. Sécurité
ͲLes données fournir toute
sont sécurisées l'assistance
et accessibles nécessaire
uniquement à l'obtention des ensembles
aux parties autorisées.
de données requis.
Lignes directrices sur l'analyse des données - 13
C&AG of India
Propriété des données
15. Les ensembles de données restent la propriété de l'entité
auditée/des sources de données tierces et l'IA&AD ne détient ces
données qu'à titre fiduciaire. Une fois que les ensembles de
données sont obtenus auprès des sources de données, les chefs
d'équipe doivent assumer la propriété des ensembles de données
et exercer les contrôles de sécurité et de confidentialité des
données prévus pour le propriétaire des données dans l'entité
auditée. Les préoccupations et les instructions des propriétaires
des données, le cas échéant, doivent être vérifiées et gardées à
l'esprit. Les données fournies par les sources de données doivent
être conservées en lieu sûr à des fins de référence et toutes les
analyses ne doivent être effectuées que sur des copies des
données sources. L'audit doit garantir le respect de l'ensemble des
règles, procédures et accords relatifs à la sécurité des données, à
la confidentialité et à l'utilisation des données de l'entité
auditée/du tiers, dans le cadre général de la protection et de la
sécurité des données prescrites par IA&AD de temps à autre.
Sécurité des données
16. Dans le cas des documents électroniques, il est plus facile et plus
rapide de faire des copies multiples, de modifier les données, de
les supprimer, etc. que dans le cas des documents manuels. Les
protocoles de sécurité des données applicables à l'entité auditée
peuvent être suivis par les auditeurs pour traiter les ensembles de
données acquises. Les résultats de l'analyse des données peuvent
toutefois être traités de la manière prescrite par l'IA&AD.
17. Lors du traitement des données, l'approche de base devrait
consister à limiter au strict nécessaire le nombre de personnes
ayant accès aux données brutes et à établir une trace des
personnes ayant accédé aux données. Un enregistrement complet
et chronologique de toutes les données échangées entre le
propriétaire de la source de données et l'auditeur doit être stocké
Lignes directrices
de manièresur l'analyse
inaltéréedes
et données - Il convient de veiller à ce que14
sécurisée. les
C&AG of India
ordinateurs utilisés pour l'analyse des données ne soient pas
connectés à l'internet.
18. Compte tenu du caractère sensible des données obtenues de
l'entité auditée, celles-ci doivent être traitées avec la diligence
requise pour éviter toute divulgation non autorisée de la part des
auditeurs. Les mesures de sécurité de l'information du
gouvernement5 , celles spécifiées dans le manuel de sécurité des
systèmes d'information de l'IA&AD, ainsi que tout accord
spécifique entre l'auditeur et le propriétaire de la source de
données doivent être suivis pour garantir la confidentialité et la
sécurité des données.
Fiabilité des données
19. Les données sont dites fiables lorsqu'elles reflètent avec précision
le paramètre qu'elles représentent. La fiabilité des données est
fonction de l'authenticité, de l'intégrité, de la pertinence et de la
facilité d'utilisation des données. La fiabilité des données peut être
affectée par les méthodes de génération
/capture des données. Étant donné que l'AI&DA doit s'appuyer sur
des données générées par d'autres sources, il est important que la
fiabilité de chaque source de données soit comprise a priori afin
qu'une prudence adéquate puisse être exercée lors de son
utilisation.
20. En règle générale, les auditeurs disposent de moyens limités pour
garantir la fiabilité des données lorsqu'ils reçoivent les données de
l'entité à contrôler, car la fiabilité ne peut être évaluée qu'après
l'utilisation des données dans le cadre du processus d'audit,
lorsque l'analyse peut révéler des incohérences internes ou des
lacunes. Toutefois, les auditeurs doivent être vigilants quant à la
fiabilité des données et prendre les précautions qui s'imposent
lorsqu'ils obtiennent des données de la part des entités à contrôler.
En général, si le système manuel et le système informatique
5 fonctionnent
Lignes directrices endeparallèle,
pour l'utilisation les risques
dispositifs informatiques d'erreurs
sur le réseau dans les
du gouvernement, données
datées du 14
octobre 2014,
sont plus élevés. De même, un système d'information
http://meity.gov.in/writereaddata/files/Guidelines%20for%20Use%20of%20IT%20Devices%20on%20Governm
de gestion
impliquant une saisie manuelle des données est susceptible d'être
ent%20Network%20_0.pdf

moins fiable
Lignes directrices sur l'analyseque des
lesdonnéessystèmes- dans lesquels les données 15
C&AG ofd'information
India de gestion sont directement générées par le biais
d'un système informatique. L'audit du système d'information, s'il a
21. Les auditeurs doivent clairement différencier les objectifs pour
lesquels l'ensemble de données sera utilisé lorsqu'ils examinent la
fiabilité des données. La prise en compte de la fiabilité des
données serait nettement plus importante pour les ensembles de
données destinés à être utilisés comme éléments probants pour
étayer les conclusions de l'audit que pour les ensembles de
données destinés à tirer des conclusions générales lors de la
planification. La politique de gestion des Big Data mentionne
diverses sources de données tierces qui peuvent être utilisées pour
l'audit dans le cadre de l'IA&AD. Bien que les données de tiers
puissent renforcer le processus de planification de l'audit,
l'auditeur doit faire preuve de jugement professionnel lorsqu'il
utilise ces sources de données comme éléments probants et doit
s'assurer qu'elles répondent aux critères établis par les normes
d'audit du CAG de l'Inde. Par exemple, les données d'enquête d'un
établissement universitaire relatives à l'assainissement peuvent
être utilisées pour identifier les problèmes dans le secteur et
peuvent alimenter le processus d'échantillonnage (identification
des unités administratives à haut risque/faible risque), ainsi que
d'autres paramètres dans la phase de planification de l'audit.
Toutefois, la possibilité d'utiliser les résultats analytiques des
données de l'enquête comme éléments probants dépend de leur
conformité aux conditions, critères et normes d'éléments probants
définis pour l'IA&AD.

Préparation des données

22. Les ensembles de données identifiés, lorsqu'ils sont disponibles,


ne sont pas toujours dans la forme, la taille ou la qualité
souhaitées pour l'analyse. Les données doivent donc être
préparées à partir du format disponible vers le format souhaité. La
compréhension des données est une condition préalable pour que
l'auditeur puisse décider du "format souhaité" des données pour
l'analyse ultérieure.
Lignes
23. directrices sur l'analyse
La préparation des des données
données 16
- le processus d'organisation des
est
C&AG of India
données à des fins d'analyse. Elle implique diverses activités telles
que la restauration, l'importation de données, la sélection de
la transformation. Ces activités peuvent être interconnectées ou
constituer une série d'étapes indépendantes. La préparation des
données est une phase spécifique du projet6 . Bien que les
grandes étapes ne varient pas de manière significative, l'ordre des
sous-processus ou des tâches impliqués peut varier en fonction du
projet. En outre, il peut être nécessaire de revenir en arrière ou de
répéter certaines étapes/tâches.
Restauration des données
24. Les données de la source de données doivent être copiées et
restaurées dans l'ordinateur de l'auditeur en vue d'une analyse
plus approfondie. Lors de l'utilisation de données sous forme de
vidage/sauvegarde, il sera nécessaire de ramener les tables de
données à leur format d'origine par le biais d'un processus de
restauration des données.
Avant de restaurer un fichier de sauvegarde/décharge de base de
données, certaines informations de base telles que la version du
logiciel de base de données, le système d'exploitation et la taille de
la base de données sont nécessaires. Sur la base de ces
informations, un environnement doit être créé pour restaurer le
fichier de sauvegarde/décharge, s'il n'existe pas déjà. La
restauration d'une base de données nécessite une connaissance
technique adéquate de la base de données, car les étapes à suivre
lors de la restauration d'une base de données peuvent varier en
fonction du logiciel de la base de données. Bien qu'il soit possible
de restaurer un fichier de sauvegarde/décharge d'une version
inférieure dans une version supérieure du logiciel de base de
données, cela peut entraîner des problèmes de compatibilité, qui
doivent être confirmés par l'administrateur de la base de données.
Identification des tables/champs d'intérêt
25. Afin
6 Un projet, ici, estd'optimiser ladevitesse
un projet d'analyse etdans
données soit la lecapacité de calcul,
cadre d'un audit, soit dans leilcadre
estd'une
essentiel
analyse
de données obtenues à partir de sources de données, qui n'est pas nécessairement liée à un audit.
que seules les variables de données pertinentes soient conservées
à des fins d'analyse. L'identification du champ, de la table ou de17la
Lignes directrices sur l'analyse des données -
C&AG ofvariable
India d'intérêt doit être effectuée avec le plus grand soin, car
tous les champs, tables et variables d'intérêt sont conservés à des
fins d'analyse.
les étapes de la procédure peuvent devoir être répétées si, à un
stade ultérieur, un champ/table/variable supplémentaire s'avère
pertinent.
Importation dans l'outil d'analyse
26. La plupart des outils d'analyse offrent la possibilité de lire des
fichiers plats dans le logiciel ou de se connecter à une base de
données et de lire des tableaux. Certains logiciels d'analyse offrent
la possibilité d'importer uniquement les colonnes/tables
pertinentes et de modifier le type de données avant de lire le
fichier dans la plateforme. L'outil analytique lui-même offre
diverses options pour nettoyer et améliorer les données. En
fonction de la qualité et de la quantité des données, l'auditeur
peut choisir de procéder au nettoyage/à l'amélioration des
données au sein de la plateforme analytique ou à l'extérieur, dans
un tableur ou un SGBDR. Les étapes d'importation et de nettoyage
des données peuvent se précéder ou se suivre en fonction des
ensembles de données et de la disponibilité d'outils appropriés.
Fusionner et scinder des fichiers de données
27. Les données reçues des sources de données peuvent se rapporter
à des périodes ou à des lieux différents ou peuvent simplement
être divisées en plusieurs parties. Pour que les données puissent
être analysées, il sera essentiel de fusionner les ensembles de
données en un seul. Cela peut se faire en annexant les fichiers de
données. De même, les différents ensembles de données relatifs à
une entité contiennent des détails sur différentes
fonctions/paramètres. Dans ce cas, tous les fichiers de données
peuvent être réunis afin de rassembler tous les paramètres dans
un seul fichier à des fins d'analyse.
28. Les fichiers de données peuvent également être divisés pour
alléger les ensembles de données et permettre ainsi une analyse
efficace. Les fichiers peuvent être divisés en fonction du nombre
d'enregistrements ou du nombre de paramètres. La fusion et18le
Lignes directrices sur l'analyse des données -
C&AG offractionnement
India des fichiers peuvent être effectués par
l'intermédiaire du SGBDR ou des outils d'analyse de données.
Nettoyage des données
29. Des données de bonne qualité, c'est-à-dire propres, complètes et
dépourvues d'erreurs, sont essentielles pour une bonne analyse.
Le nettoyage des données est le processus de détection et de
correction ou de suppression des enregistrements corrompus ou
inexacts d'un ensemble d'enregistrements, d'une table ou d'une
base de données. Il s'agit d'identifier les parties incomplètes,
incorrectes, inexactes ou non pertinentes des données, puis de
remplacer, modifier ou filtrer les données inexactes ou
corrompues. Le processus de nettoyage des données peut
impliquer la suppression des erreurs typographiques ou la
validation et la correction des valeurs par rapport à une liste
connue d'entités ou par recoupement avec un ensemble de
données validées. Le nettoyage des données peut impliquer le
rejet ou la correction des enregistrements et la vérification de
l'existence de toute valeur invalide.
30. L'enrichissement des données est également un processus de
nettoyage des données qui consiste à rendre les données plus
complètes en ajoutant des informations connexes. Elle implique
des activités telles que l'harmonisation et la normalisation des
données. Par exemple, l'ajout du nom d'une banque à un code
bancaire quelconque améliore la qualité des données. De même,
l'harmonisation des codes courts (st, rd, etc.) avec les mots réels
(rue, route, etc.) pourrait être réalisée. La normalisation des
données est un moyen de transformer un ensemble de données
de référence en une nouvelle norme, par exemple en utilisant des
codes standard.
Valeurs manquantes et autres étapes de préparation des données
31. On parle de valeurs manquantes lorsqu'aucune valeur n'est
disponible pour la variable dans un champ de l'ensemble de
données. Il s'agit d'un phénomène courant, qui réduit la
représentativité de l'ensemble de données et peut fausser les
Lignes directrices
déductionssur l'analyse 19
des données - tirées des données. Les valeurs
et les conclusions
C&AG of India
manquantes peuvent se produire au hasard ou selon un certain
schéma. Il est important de comprendre les raisons et la nature
soit en supprimant les valeurs manquantes, soit en leur attribuant
d'autres valeurs telles que la moyenne, la médiane ou le mode des
valeurs disponibles.
32. Les autres étapes de la préparation des données comprennent la
suppression des colonnes non désirées, le formatage et le
renommage de diverses colonnes et l'insertion de colonnes
supplémentaires (par exemple, l'insertion d'une colonne "ANNÉE"
supplémentaire pour l'analyse des tendances).
Intégration de données : relier plusieurs bases de données
33. L'intégration des données est le processus par lequel les données
collectées à partir de différentes sources de données ou de
différents tableaux au sein d'une même source de données sont
combinées pour obtenir l'ensemble de données final à des fins
d'analyse. Les données provenant de différentes sources peuvent
être intégrées sur la base de n'importe quel champ commun tel
que l'identifiant unique du client, le numéro de facture ou le nom
du village, etc. Par exemple, pour comprendre si la couverture des
bénéficiaires d'un certain régime de sécurité sociale est corrélée à
la distribution de la population, les données sur les bénéficiaires
peuvent être liées (jointes) aux données de recensement au niveau
du district, du taluk ou même à d'autres niveaux de granularité. La
compréhension des métadonnées7 des différentes sources de
données facilitera le processus d'intégration des données.
34. Lors de la mise en relation de plusieurs ensembles de données, il
n'est pas nécessaire d'avoir un champ commun dans les
ensembles de données, car les données peuvent être agrégées à
un niveau plus élevé pour permettre des comparaisons. Par
exemple, s'il n'est pas possible de relier un bénéficiaire individuel
dans la base de données des bénéficiaires de pension et dans la
base de données BPL, les données peuvent être agrégées au
7 Les métadonnées sont les données d'autres ensembles de données. Elles contiennent des informations sur les
niveau du village/bloc/district afin d'identifier les villages où il y a
ensembles de données de manière à faciliter leur identification.
une incohérence entre ces chiffres. Les raisons de cette non-
concordance
Lignes directrices peuvent
sur l'analyse des alors être -explorées lors du contrôle de fond
données 20
C&AG ofeffectué
India par l'audit.
3. l'analyse des données et la modélisation
Approches analytiques des données

1. Après avoir été dûment préparées, les données sont analysées


pour en tirer des enseignements à l'aide de diverses approches
analytiques. Les approches suivantes peuvent être utilisées pour
l'analyse des données :
 L'analyse descriptive tente de répondre à la question "que
s'est-il passé ? Dans l'analyse descriptive, les données brutes
sont résumées de façon à ce qu'elles puissent être comprises
par l'utilisateur. L'analyse descriptive permet de comprendre
les transactions passées qui ont eu lieu dans l'organisation.
L'analyse descriptive implique l'agrégation de transactions
individuelles et fournit ainsi une signification et un contexte
aux transactions individuelles dans une perspective plus large.
Elle consiste à résumer les données au moyen de descriptions
numériques ou visuelles.
 L'analyse diagnostique est une forme avancée d'analyse
descriptive et tente de répondre à la question "pourquoi cela
s'est-il produit" ou "comment cela s'est-il produit". L'analyse
diagnostique implique une compréhension de la relation entre
les ensembles de données et l'identification de transactions
spécifiques ou d'ensembles de transactions, ainsi que leur
comportement et les raisons sous-jacentes. Les techniques
d'exploration et les techniques statistiques telles que la
corrélation aident à comprendre les causes de divers
événements.
 L'analyse prédictive, comme son nom l'indique, tente de
prédire "ce qui va se passer", "quand cela va se passer", "où
cela va se passer", sur la base de données antérieures.
8 Les techniques de prévision et d'estimation impliquent l'utilisation de données antérieures, de

Diverses
connaissances/documents techniques
disponibles, deet prévision
d'hypothèses et d'estimation
de risques identifiés peuvent
et font partie des8disciplines de la
recherche opérationnelle et des techniques quantitatives.
être utilisées pour prédire, dans une certaine mesure, le
résultat
Lignes directrices futur d'une
sur l'analyse activité.-
des données 21
C&AG of India
 L'analyse prescriptive prend le relais de l'analyse prédictive et
permet à l'auditeur de "prescrire" une série d'actions possibles
en tant qu'entrées, de sorte que les sorties futures puissent
être modifiées en fonction de la solution souhaitée. Dans
l'analyse prescriptive, plusieurs scénarios futurs peuvent être
identifiés sur la base de différentes interventions d'entrée.
Techniques d'analyse des données
2. Les techniques d'analyse des données sont utilisées pour tirer parti
des approches susmentionnées. Les techniques analytiques qui
utilisent des approches descriptives et diagnostiques aident
l'auditeur à comprendre l'entité à contrôler et à identifier les
problèmes qu'elle présente. Une technique prédictive telle que la
régression permet de comprendre le comportement d'une (ou de
plusieurs) variable(s) en fonction de l'évolution d'un autre
ensemble de variables. Ces techniques d'analyse peuvent être
classées en deux grandes catégories : les techniques statistiques et
les techniques visuelles (9 ).
 Les techniques statistiques consistent à utiliser des mesures
statistiques pour obtenir des informations sur l'ensemble des
données.
 Les techniques de visualisation consistent à utiliser des
éléments visuels, des graphiques et des tableaux pour
comprendre et appréhender l'ensemble des données.
Une combinaison de diverses techniques statistiques et visuelles
est généralement employée pour l'analyse des données.
3. Il existe des algorithmes intégrés pour les approches
susmentionnées dans les logiciels d'analyse de données.
Cependant, il n'existe pas d'étapes séquentielles établies pour
9
l'application des techniques d'analyse des données, qui peuvent
Bien que la plupart des techniques de visualisation, comme les graphiques et les tableaux, soient
êtrestatistiques,
essentiellement décrites de différentes.
elles sont manière générale comme l'approche "zoom
dans le sens où la compréhension est obtenue non pas à partir de simples mesures statistiques, mais en
comparant,arrière
en analysant-et en
zoom
tirant desavant - visuelles.
conclusions filtre". Les données sont d'abord
appréhendées
Lignes directrices sur l'analyseà partir d'une -vue d'ensemble, puis elles sont
des données 22
C&AG ofapprofondies
India afin de les comprendre à un niveau plus profond.
Ensuite, un filtre est effectué ou une requête est exécutée pour
les exceptions, si nécessaire. Par exemple, dans un ensemble de
données contenant des demandes et des recouvrements d'impôts
fonciers, un zoom arrière permet de comprendre la fourchette
moyenne des demandes/recouvrements d'impôts et la fourchette
des contribuables, ainsi que leur répartition entre les zones. Avec
un zoom avant, on peut comprendre la corrélation entre les
variables et discerner les schémas de paiement des impôts dans
les zones. Par la suite, les arriérés d'impôts peuvent être filtrés
dans la zone à plus haut risque identifiée. Une analyse de
régression peut également être effectuée pour déterminer les
zones les plus susceptibles d'avoir des arriérés maximums à
l'avenir.
Techniques statistiques
3.4 Une fois les données préparées, il est possible, dans un premier
temps, de produire des statistiques descriptives de l'ensemble de
données afin de résumer les données d'une manière ou d'une
autre, chaque mesure statistique décrivant l'ensemble de
données. Ces statistiques peuvent être complétées par des
représentations graphiques simples telles que des graphiques
linéaires, des histogrammes ou des diagrammes de dispersion. Par
exemple, les mesures de la tendance centrale décrivent le
comportement normal attendu de l'entité et de ses éléments par
rapport à un paramètre ou à une variable particulière. Les mesures
de dispersion indiquent la distribution des points de données. La
10
La corrélation est utilisée pour mesurer la force de l'association entre deux variables et varie de Ͳ1 à
+1. relation entre deux ou plusieurs variables peut être explorée ou
11
L'analyse établie à donne
de régression l'aideunedes techniques
explication numériquede de lacorrélation
relation entre les et deetrégression
10variables 11 .
permet de prédire
la valeur de la variable dépendante.
(y) compte L'identification ou la séparation des paramètres importants peut
tenu de la variable indépendante.
12
L'analyse en composantes principales vise à réduire le nombre de variables interͲcorrélées à un ensemble plus
restreint quiêtre réalisée à l'aide de la régression, de l'analyse des
explique la variabilité globale. 12
13 composantes ou de l'analyse des facteurs13 . Le regroupement14
L'analyse factorielle vise à regrouper et à résumer les variables qui sont corrélées, ce qui permet de réduire les
données. et la classification15 peuvent être utilisés pour
14
L'analyse en grappes est une technique multivariée utilisée pour regrouper des individus/variables sur la base
de caractéristiques communes.
(Réf. : www.statstutor.ac.uk)
présente dans les données s'appelle la
Le processus d'organisation des données en groupes ou classes homogènes en fonction de certaines
classification.
15

caractéristiques communes.
Lignes directrices sur l'analyse des données - 23
(Ref:
C&AG of India
http://www.emathzone.com/tutorials/basic Ͳstatistics/classificationͲofͲdata.html#ixzz4r
2Rlugdu)
identifier un ou plusieurs groupes dans les ensembles de données
sur la base d'une ou plusieurs similitudes. Les résultats des
différents tests statistiques doivent être lus ensemble pour obtenir
une compréhension finale de l'ensemble de données.
Visualisation des données
5. La visualisation des données répond à deux objectifs distincts :
 Analyse exploratoire des données (AED) : Il s'agit d'une
approche de l'analyse des ensembles de données visant à
résumer leurs principales caractéristiques, souvent à l'aide de
méthodes visuelles. L'AED est principalement entreprise pour
voir ce que les données peuvent nous apprendre au-delà de
l'analyse statistique et de la modélisation.
 Communication des résultats/rapports : Les informations
tirées des données peuvent être communiquées aux
utilisateurs tels que les cadres supérieurs ou les lecteurs des
rapports d'audit. La visualisation des données est une
technique puissante pour communiquer les résultats de
l'analyse des données.
6. La visualisation des données vise à atteindre un ou plusieurs des
objectifs suivants :
 Compréhensibilité : rend les informations et les relations
facilement compréhensibles.
 Exhaustivité : présentation des caractéristiques/informations
de l'ensemble des données sélectionnées/de la taille de
l'échantillon, par opposition à une présentation sélective.
 Communication ciblée : facilite une communication concise et
directe.
 Réduire la complexité : simplifier la présentation de grandes
quantités de données.
 Établissement de modèles et de relations : permet d'identifier
des modèles et des relations dans les données.

Lignes directrices sur l'analyse des données - 24


C&AG of India
 Analyse : favorise la réflexion sur la "substance" plutôt que sur
la "méthodologie". Elle se concentre sur l'essence de la
conclusion communiquée plutôt que sur la procédure de
communication.
Le guide du praticien de l'IA&AD pour l'utilisation de la
visualisation des données et des infographies doit être consulté
pour les principes de la visualisation des données.
7. Il convient de noter qu'une seule technique ne permet pas
d'obtenir une compréhension globale de l'ensemble des données.
Un auditeur doit appliquer une combinaison de techniques
statistiques et visuelles pour obtenir des informations.
L'adéquation des techniques dépend de l'ensemble de données et
de l'objectif de l'auditeur.
Statistique de population au lieu de statistique d'échantillon
8. Grâce aux outils modernes d'analyse des données, il est possible
d'analyser l'ensemble des données. Ainsi, il est possible de faire
des déductions sur la population (toutes les transactions incluses
dans l'ensemble de données) en analysant toutes les transactions
de l'ensemble de données au lieu de faire des déductions à partir
d'échantillons. Toutefois, des contrôles de fond seront nécessaires
si l'ensemble des données n'est pas entièrement représentatif de
l'ensemble du processus commercial saisi par le système
informatique.
Outils d'analyse de données
9. L'analyse des données est un processus en plusieurs étapes
impliquant la préparation, l'analyse et la construction de modèles,
avec des exigences différentes à chaque étape. Il existe de
nombreux et puissants logiciels libres16 et propriétaires17
16
Knime(www.knime.org), R(www.rͲproject.org), Python (www.python.org), Weka, Rapidminer, SPAGO sont
quelques-unsdisponibles
des outils open à cet effet. Aucun outil ne peut être considéré comme
source.
17
SAS, Tableau, MS Power BI17, Tidco Spotfire, Informatica, IBM Analytics, SPSS, D3J, Qlik, etc. sont quelques-uns
complet ou adapté à tous les besoins en matière d'analyse ou de
des outils propriétaires.
données.
Lignes directrices sur l'analyse des données - 25
C&AG of India
les exigences en matière d'extraction. Certains outils sont utiles
pour la préparation des données, alors qu'ils peuvent s'avérer
insuffisants pour la visualisation des données. De même, certains
outils dotés de fonctions de visualisation puissantes ne permettent
pas d'effectuer des analyses statistiques avancées.
10. Bien que les auditeurs puissent explorer et adopter n'importe quel
logiciel libre ou propriétaire, il convient de veiller à la durabilité de
l'outil et à la sécurité des données. Lors de l'adoption d'un nouvel
outil d'analyse, le directeur général devrait prendre en
considération les questions relatives à la durabilité de l'outil en
termes de ressources financières et humaines. L'évolutivité
(visͲaͲvis de la taille et de la variété des ensembles de données)
de l'outil doit également être prise en compte, en plus de la
disponibilité de l'outil à l'avenir. Le chef de mission doit également
veiller à ce que l'ensemble de données des entités auditées ou
tout autre ensemble de données sensibles ne soit pas partagé
dans l'environnement serveur/cloud du logiciel d'analyse de
données avec des personnes/entités non autorisées. Par mesure
de précaution, lorsque l'utilisation d'un nouvel outil est formalisée
dans un bureau, l'approbation de ce dernier peut être obtenue
auprès de l'AMDC.
Résultats de
l'analyse des
données
11. Les résultats
de l'analyse
des données
peuvent
prendre la
forme de.. :
 Perspec
tives
d'audit
 Preuve
Lignes directrices sur l'analyse des données - 26
C&AG of India s
d'audit
Les questions soulevées par l'analyse des données doivent donc
être appréciées collectivement.
13. La connaissance du domaine est essentielle pour apprécier les
résultats dérivés du processus d'analyse des données. Les
résultats18 générés à l'aide de diverses techniques d'analyse
doivent être répertoriés et vérifiés avec les experts du domaine
afin de comprendre leur valeur et leur importance. Ces
informations peuvent ensuite être utilisées pour identifier les
domaines à risque ou les domaines d'intérêt pour l'audit. Un
modèle de catalogage et de documentation des résultats
statistiques et des idées est fourni à l'annexe 3.
Preuves d'audit
14. L'auditeur exerce son jugement professionnel pour évaluer les
résultats de l'analyse des données et les utiliser comme éléments
probants à l'appui des constatations et des conclusions de l'audit.
Les résultats de l'analyse des données peuvent devoir être validés
par d'autres formes d'éléments probants recueillis dans le cadre
de contrôles de fond. Les résultats de l'analyse des données sont
considérés comme des éléments probants lorsqu'ils satisfont aux
exigences des normes d'audit.

Les résultats de l'analyse sont différents des résultats de l'audit. Les résultats analytiques sont ceux qui ont été
18

découverts grâce à l'analyse et qui conduisent à des conclusions. Ces connaissances sont exploitées dans le cadre
de l'audit par le biais de contrôles de fond visant à confirmer une constatation d'audit.

Lignes directrices sur l'analyse des données - 27


C&AG of India
Modèles d'analyse des données
3.15 Le modèle d'analyse des données désigne l'ensemble des tests
analytiques conduisant à des résultats analytiques, qui peuvent
être utilisés de manière répétitive en mettant à jour ou en
modifiant les données. L'élaboration d'un modèle garantira que
l'analyse des risques effectuée sur un ou plusieurs ensembles de
données spécifiques pourra être répétée en utilisant le même
ensemble de données pour les années/périodes suivantes, une
fois qu'un mécanisme permettant d'obtenir les données
périodiquement aura été mis en place. Le processus de création
d'un modèle analytique de données est expliqué par le diagramme
de flux suivant :

Figure 5 - Déroulement d'un modèle d'analyse


de données

Lignes directrices sur l'analyse des données - 28


C&AG of India
3.16 Pour construire un modèle analytique de données, les étapes suivantes
sont suivies :
 Les données disponibles à partir de différentes sources sont
préparées pour l'analyse des données par la restauration et
le nettoyage de l'ensemble des données.
 Après l'étape de préparation, les données sont stockées
dans le référentiel de données.
 Les informations sont obtenues en appliquant différentes
techniques d'analyse aux ensembles de données extraites
du référentiel de données et/ou aux données disponibles
après leur préparation.
 Les informations pertinentes sont converties en modèles
d'analyse de données. Les modèles peuvent comprendre
des équations, des requêtes, des flux de travail ou des
tableaux de bord19 .
 Une fois le modèle préparé, il doit être soumis à l'AMDC
pour examen et approbation.
3.17 Les modèles de données peuvent être élaborés à partir de sources de
données centralisées ou décentralisées :
 Sources de données centralisées : Si les données de
l'entité ou des sources contrôlées sont centralisées, c'est-à-
dire qu'elles sont disponibles dans une base de données
centrale, un modèle peut être élaboré directement à partir
de la base de données restaurée. Il est également possible
d'extraire les tableaux/champs pertinents de la base de
données de l'entité auditée pour élaborer le modèle.
Lorsque de nouvelles données sont disponibles pour des
périodes ultérieures, elles peuvent être intégrées en
19
Le tableau de bord peut être considéré
passant parcomme
les une interfacede
étapes (généralement interactive)
restauration etutilisée
de pour présenter
nettoyage
des informations/données.
(préparation
d'une manière plus facile à présenter. Dans des données)
le domaine avant
de l'analyse d'être
des données, ajoutées/chargées
plusieurs informations (sous
forme de graphiques) peuvent être rassemblées dans un tableau de bord pour faciliter la compréhension de
l'observateur. dans le modèle.
Lignes directrices sur l'analyse des données - 29
C&AG of India Sources de données décentralisées : Si les données de
l'entité/des sources auditées sont décentralisées (c'est-à-
dire que les données de chaque entité/des sources
Si une sous-unité de l'entité est située à différents endroits
qui ne sont pas reliés de manière transparente, le modèle
peut être utilisé dans une sous-unité en remplaçant les
données d'arrière-plan de la sous-unité précédente par ses
propres données dans le modèle.
 Si les données sont reçues en temps réel, le modèle sera
également mis à jour en temps réel, ce qui permettra un
audit continu.
18. Un modèle préliminaire englobera les diverses informations
fournies par l'analyse des données. Toutefois, il est possible que
tous les facteurs n'aient pas été pris en compte, ou qu'ils n'aient
pas été disponibles pour l'analyse des données, lors de
l'élaboration du modèle, et que d'autres informations soient
obtenues lorsque le modèle est déployé. Le modèle de données
doit être mis à jour en fonction de ces informations
supplémentaires et des ensembles de données plus pertinents qui
deviennent disponibles par la suite.
19. Une caractéristique importante du modèle est sa réutilisation. Une
fois créé, un modèle peut être utilisé à plusieurs reprises en
mettant à jour les données. Par conséquent, l'utilité du modèle
dépendra de la mise à jour périodique des données. C'est
pourquoi, au lieu de considérer le processus de collecte de
données comme un exercice ponctuel, il convient de mettre en
place un mécanisme permettant d'obtenir des données
annuellement/périodiquement. Les ensembles de données à
obtenir de la source de données/l'entité contrôlable, y compris les
fichiers ou les tableaux de données, doivent être clairement
spécifiés, de même que le mode de transfert des données. Le cas
échéant, des responsables nodaux doivent être identifiés pour le
traitement des données. Les questions relatives à la sécurité des
données doivent être traitées de manière adéquate afin de
garantir une sécurité totale et d'empêcher tout accès non autorisé
aux ensembles
Lignes directrices de données.
sur l'analyse des donnéesIl - est essentiel d'obtenir l'aval des
30
C&AG ofhauts
India responsables de l'entité auditée pour garantir la disponibilité
des données à intervalles réguliers.
n'est pas construit directement sur les données restaurées fournies
par les entités auditées. Au lieu de cela, les tables pertinentes
doivent être extraites et utilisées pour la création du modèle.
L'accès au modèle doit être fourni aux utilisateurs en fonction de
leur profil de contrôle d'accès (besoin de connaître/besoin
d'utiliser).
Documentation du processus d'analyse des données
21. La documentation du processus analytique facilite la planification,
l'exécution et la supervision du projet analytique. La
documentation facilite également l'examen du processus
analytique, y compris le maintien de l'intégrité des données au
cours du processus et la fourniture d'une piste d'audit appropriée
pour le traitement des données. En plus d'étayer les résultats et les
conclusions des auditeurs, elle aide les futures équipes d'audit à
répéter le processus analytique. La documentation relative à
l'analyse des données doit être conforme aux normes d'audit de
l'IA&AD. Tous les documents doivent être signés par l'auditeur et
contresignés par le responsable de l'audit.
22. La documentation du travail d'analyse des données doit
comprendre les aspects suivants :
 Identification des données
 Collecte de données
 Importer des données dans un logiciel d'analyse
 Technique analytique utilisée
 Résultats de l'analyse
 Modèle d'analyse des données
 Retour d'information sur l'utilisation dans le cadre d'un audit

Référentiel de données
23. L'approche de l'audit basée sur les preuves rend impératif
l'utilisation de diverses sources de données pour identifier les 31
Lignes directrices sur l'analyse des données -
C&AG ofobjectifs
India de l'audit. Lorsque le risque
Si l'analyse des données par le biais de l'analyse des données fait
partie du processus d'audit, il est nécessaire que les données
soient facilement accessibles à l'équipe d'audit. Cet objectif peut
être atteint grâce à un système systématique de collecte et de
gestion des données au sein de l'IA&AD, qui aboutira finalement à
la création d'un référentiel de données pour l'IA&AD. Un tel dépôt
de données est envisagé à la fois au niveau central et au niveau de
chaque bureau local. Un diagramme schématique est fourni ci-
dessous :

Figure 6 - Référentiel de données

Dépôt de données dans les bureaux locaux


3.24 Les bureaux d'audit locaux sont responsables de l'identification et de
la collecte des données relevant de leur domaine. Il s'agira
notamment de sources de données internes, de données
provenant d'entités auditées et de données de tiers, spécifiques à
leur domaine d'activité. Une méthode systématique de gestion des

Lignes directrices sur l'analyse des données - 32


C&AG of India
Les bureaux locaux pourraient créer un référentiel de données
pour leurs sources de données.

3.25 La collecte de données en vue de la création d'un référentiel n'est


pas un effort ponctuel. Il s'agit au contraire d'un processus continu,
étalé dans le temps, au cours duquel les données seront
systématiquement identifiées, collectées, préparées, organisées,
gérées et stockées pour constituer le référentiel de données. Les
étapes suivantes doivent être suivies pour la création d'un
référentiel de données dans chaque bureau d'audit local afin de
gérer les données dans leur domaine :

 Identification des données - La première étape d'un système


de gestion des données consiste à identifier les sources de
données disponibles dans l'environnement. Tous les bureaux
extérieurs doivent identifier les sources de données
disponibles dans leur juridiction. L'identification des données
est un processus continu. Outre les données provenant des
entités contrôlées, les bureaux locaux doivent également
essayer d'identifier les données de tiers pertinentes pour leur
domaine. Les ensembles de données collectées à partir de
diverses sources doivent être introduits dans le référentiel de
données tenu par les bureaux locaux.
 Cartographie des données - Une fois les sources de données
identifiées, les données doivent être cartographiées sur une
base sectorielle. Bien que les sources de données puissent
être principalement conçues pour une application dans un
secteur particulier, elles peuvent avoir une utilité dans
plusieurs secteurs. Une base de données sur l'utilité de toutes
les sources de données doit être préparée dans le format
suivant.

Lignes directrices sur l'analyse des données - 33


C&AG of India
Proforma du tableau principal de
l'utilitaire de données
Nom des données Secteur auquel il Autres secteurs où il
source appartient peut être utilisé
apparenté
Secteur primaire
Extraction de Exploitation minière Impôt commercial,
données MIS Transport
Données UDISE L'éducation
Données de Éducation, santé, etc.
Comme les données collectées sont utilisées pour l'analyse des
recensement
données, les connaissances ainsi acquises devraient être
utilisées pour mettre à jour la table maîtresse de l'utilitaire de
données, établissant ainsi des liens entre les différentes
sources de données.

 Préparation des données ͲAvant de stocker les ensembles de


données dans le référentiel, ils doivent subir des étapes de
préparation des données afin d'optimiser le stockage dans le
référentiel.

 Mise à jour des données Ͳ Les bureaux extérieurs doivent


mettre en place un mécanisme permettant d'obtenir
périodiquement les ensembles de données. Une fois que les
ensembles de données pertinents requis pour les modèles
analytiques de données sont identifiés, la collecte de données
au cours des années suivantes serait nécessaire pour ces
ensembles de données, à moins que leur structure ne subisse
des modifications à la source des données.

 Stockage des données Ͳ Tandis que les ensembles de


données pertinentes extraites de divers vidages de données
seront transférés dans le référentiel de données, les vidages de
données collectés devraient être systématiquement stockés
dans des dispositifs de stockage externes.

 Métadonnées ͲDes métadonnées appropriées sur les sources


de données,
Lignes directrices lesdes
sur l'analyse tableaux, - doivent être conservées par 34
donnéesetc. les
C&AG of Indiapersonnes qui gèrent le référentiel de données. Le format des
métadonnées sous la forme de trois tableaux interconnectés
Liste des sources de
Nom Nom Nom Secteudonnées
De Till Nombre Don Étiquett
de de la de r (date/année
(date/ de nées e/clé
l'ens source l'entité de début)dernière tablea Taille Mots20
emb de auditée année ux
le donné pour
des es laquelle
don des
née données
s sont
disponibl
Liste des tableaux dans
es) la
Nom de la Nom du sourceDescription
de données Nombre de Nombre
source de tableau colonnes de lignes
données dans
table

Liste des champs de


Nom de Nom chaque table
Nom Type de Descriptio Remarques
l'entreprise du du champ n du
Source table cham (char, int, champ
des etc.)
au p
donné
es
26. Une fois que les données ont été préparées et stockées dans le
dépôt de données, elles sont stockées de manière permanente
pour référence future. Les groupes d'analyse des données dans les
bureaux locaux seront principalement responsables de toutes les
étapes mentionnées ci-dessus dans le développement et la
maintenance du dépôt de données.

Référentiel central de données


27. L'AMDC établira un référentiel de données applicables à plusieurs
bureaux d'IA&AD. L'AMDC collectera ces ensembles de données
pour les utiliser dans le cadre de l'IA&AD. Les bureaux locaux
pourront accéder aux ensembles de données disponibles dans le
référentiel central selon les modalités suivantes

20
Mots clés permettant d'identifier ou de référencer les ensembles de données lors
d'une recherche

Lignes directrices sur l'analyse des données - 35


C&AG of India
droits d'accès et protocole définis. Certains modèles d'analyse de
données seront également hébergés dans le dépôt central de
données.

Assurer la continuité et la disponibilité

28. La continuité des activités d'analyse des données dans un bureau


doit être assurée en adhérant aux principes de gestion de la
continuité des activités énoncés dans le manuel de sécurité des
systèmes d'information pour le département indien de l'audit et
des comptes (décembre 2003)21 .

29. Disponibilité22 des données et des résultats/modèles d'analyse de


données dans un bureau doit être assurée par un catalogage et un
contrôle de version adéquats, en plus d'une sécurité appropriée.

21
Para 8, Part II (Domain specific security instructions) of the Information Systems Security Handbook for Indian
Département de l'audit et des comptes (décembre 2003).
22
La disponibilité est la caractéristique des données, des informations et des systèmes d'information qui sont
accessibles et utilisables en temps voulu et de la manière requise, partie I (politique de sécurité informatique) du
règlement for
Handbook sur Indian
la sécurité
Auditdes systèmes d'information.
& Accounts Department (décembre 2003).

Lignes directrices sur l'analyse des données - 36


C&AG of India
4. Utilisation de l'analyse des données dans l'audit
1. Les résultats de l'analyse des données peuvent être utilisés à tous
les stades de l'audit23 , qu'il s'agisse de la planification, de
l'exécution ou de l'établissement du rapport, pour obtenir des
informations ou des éléments probants au cours du processus
d'audit. Au stade de la planification de l'audit, l'identification des
problèmes, la planification des unités et la conception de
l'échantillon peuvent s'appuyer sur les résultats de l'analyse des
données. Au stade de l'exécution de l'audit, les résultats de
l'analyse des données peuvent permettre d'identifier des
exceptions, des écarts ou même de décrire une situation existante
qui peut être utilisée comme preuve d'audit. Au stade du rapport
d'audit, les résultats de l'analyse des données obtenus au stade de
l'exécution peuvent être présentés pour une meilleure
appréciation des résultats de l'audit.
2. Les normes d'audit stipulent que les auditeurs doivent mettre en
œuvre des procédures d'audit qui fournissent des éléments
probants suffisants et appropriés pour étayer le rapport d'audit et
que ces éléments probants doivent être à la fois suffisants
(quantité) pour persuader une personne bien informée que les
constatations sont raisonnables et appropriés (qualité), c'est-à-dire
pertinents, valides et fiables (paragraphe 2.5.2.2 (a) des normes
d'audit, 2017). Les normes d'audit prévoient également que les
auditeurs évaluent les éléments probants et en tirent des
conclusions. Les résultats de l'analyse des données ne doivent être
utilisés comme éléments probants que s'ils sont conformes aux
exigences des normes d'audit.
3. Les processus d'audit spécifiques pour lesquels les résultats de
l'analyse de données peuvent être utilisés lors de la réalisation
d'audits de la performance, de conformité et financiers sont
Audit de performance/ Audit de conformité/ Audit
résumés à l'annexe 4. Le degré d'utilisation des résultats de
23

financier
l'analyse des données dépend toutefois de la disponibilité des
Lignes directrices sur l'analyse des données - 37
données
C&AG of India
et de la maturité du bureau local dans l'utilisation des
techniques d'analyse des données.
Acquisition de données pour l'analyse
4. La première étape de l'utilisation de l'analyse des données dans les
audits réalisés par l'IA&AD (audits financiers, de conformité, de
performance) consiste à identifier, collecter et préparer les
données pertinentes pour l'analyse. L'auditeur doit identifier tous
les ensembles de données pertinents, internes, externes et de
tiers, avant de finaliser le plan d'audit initial24 des différents
départements/entités/secteurs. Ces ensembles de données
provenant de diverses sources doivent être reliés et analysés, ce
qui permettra d'obtenir des services publics à différents stades de
l'audit.
5. Il est possible que tous les ensembles de données pertinents ne
soient pas identifiés avant le début de l'audit. Dans ce cas,
l'auditeur doit rester attentif à la disponibilité de nouvelles
données. Au fur et à mesure que de nouveaux ensembles de
données sont identifiés et que ces données sont accessibles, elles
doivent être analysées afin d'identifier les zones à risque, les
domaines d'intérêt, les exceptions ou les écarts qui doivent être
intégrés dans l'audit en cours, dans la mesure du possible.
6. Les tests statistiques sont réalisés sur la base de diverses
hypothèses sous-jacentes. Dans le même temps, les données
présentent différentes caractéristiques de signification statistique.
Il est essentiel de comprendre les données et les hypothèses ou les
limites de chaque technique/test afin d'en tirer des interprétations
valables. Par conséquent, lors de l'application de tests statistiques
spécifiques, la validité des interprétations doit être validée par
l'agent statistique nodal ou le conseiller statistique, au cas où
l'auditeur souhaiterait utiliser les résultats des tests pour tirer des
conclusions d'audit.
Utilisation de l'analyse des données dans la planification de l'audit
24
Les lignes directrices pour les audits d'attestation financière, les lignes directrices pour les audits de conformité
7.
et les lignesLes bureaux
directrices de l'IA&AD
pour les audits adoptent
de performance publiées par une
le C&AGapproche fondéepour
peuvent être consultées sur
la le
sélection des unités et les approches d'échantillonnage dans les audits respectifs.
risque pour la planification de l'audit. L'analyse des données
soutientsurlel'analyse
Lignes directrices plan d'audit fondé
des données - sur des éléments probants 38et
C&AG of India contribue à l'identification des entités à haut risque dans l'univers
d'audit ainsi que des domaines à risque en ce qui concerne l'objet
Bien qu'elle ne supplante pas les pratiques d'évaluation des
risques en vigueur dans l'IA&AD, l'analyse des données peut les
renforcer considérablement. Toutefois, le degré de confiance à
accorder aux résultats de l'analyse des données relève du
jugement de l'auditeur.
Planification de l'audit annuel
8. Dans un bureau disposant de capacités suffisantes en matière
d'analyse de données, il est prévu qu'un référentiel de données
contenant les ensembles de données internes, externes et de tiers
pertinents, ainsi que les modèles analytiques, alimente le
processus d'analyse des risques. Les résultats de l'analyse des
données peuvent générer une évaluation globale des risques au
sein de la juridiction d'audit, qui devrait être utilisée dans la
préparation du plan d'audit annuel, en plus d'autres paramètres
d'évaluation des risques. Les modèles d'analyse de données basés
sur des données financières (comme le modèle de Business
Intelligence sur l'utilisation des données VLC, PFMS, etc.) ou
d'autres modèles sectoriels spécifiques contribueront à cette tâche
et apporteront des éléments au processus de planification de
l'audit annuel.
Planification d'audits spécifiques
9. L'analyse des données peut être utilisée pour l'analyse des risques
et l'identification des questions pour des audits spécifiques, y
compris la définition des objectifs d'audit, la constitution d'un
échantillon basé sur des preuves pour effectuer des contrôles
d'audit substantiels, ainsi que pour la planification des audits au
niveau de l'unité.
Identifier les domaines à risque pour définir les objectifs de
l'audit
10. Les lignes directrices concernant les audits de performance et les
lignes directrices concernant les audits de conformité font
référence
Lignes directrices sur àl'analyse
la nécessité de comprendre
des données - l'entité avant d'entamer
39
un audit. En matière d'audit financier également, il est important
C&AG of India
d'identifier les processus et les systèmes opérationnels dès le
les objectifs généraux de l'audit, les sous-objectifs et l'élaboration
de la matrice de conception de l'audit.
Identification des unités d'échantillonnage pour les contrôles de
fond
11. L'analyse des données permet d'identifier les zones à risque au
sein de l'entité contrôlée, en indiquant les relations entre les
données, les transactions significatives et les valeurs aberrantes,
fournissant ainsi une approche plus scientifique et plus ciblée pour
la sélection d'un échantillon d'unités d'audit en vue de contrôles
de fond. L'établissement d'un indice de risque composite pour
diverses unités d'audit et leur classement sur la base des scores
moyens pondérés de divers paramètres de risque constituent une
méthode objective pour décider de la sélection d'un échantillon
d'unités d'audit et déterminer la nature, l'étendue et le calendrier
des contrôles de fond.
Planification au niveau de l'unité
12. La planification au niveau de l'unité fait référence à l'identification
des transactions spécifiques pour l'application des contrôles de
substance dans l'échantillon sélectionné d'unités d'audit. Les
approches analytiques des données se concentreront sur
l'identification des écarts par rapport aux critères spécifiques au
sein de l'unité échantillonnée. Des tableaux de bord dynamiques
avec des capacités de forage et de filtrage contenant les résultats
de l'analyse des données peuvent être élaborés pour les parties
itinérantes.
Utilisation de l'analyse des données dans l'exécution des audits
13. Au cours de la phase d'exécution de l'audit, des éléments probants
sont collectés pour étayer les assertions d'audit identifiées au
cours de la phase de planification de l'audit. L'analyse des données
peut être utilisée au cours des phases d'exécution de l'audit de la
manière suivante :
 Lessur
Lignes directrices équipes d'audit
l'analyse itinérantes
des données - 40
devraient recevoir des tableaux
C&AG of India de bord/résultats analytiques élaborés au cours de la phase de
planification de l'audit. Ces tableaux de bord aideront à fournir
l'élaboration du plan d'audit et la sélection des unités d'audit.
Les tableaux de bord peuvent également contenir la liste des
transactions qui ont conduit à la sélection des échantillons
d'audit. À ce stade, les problèmes propres à l'unité
sélectionnée pour l'audit peuvent également être identifiés et
des rapports d'exception peuvent être générés. Ces
informations permettent aux auditeurs d'apprécier les
schémas de risque propres à l'unité auditée, ainsi que son
statut par rapport à des unités similaires, afin d'identifier les
écarts majeurs. Cela aidera l'auditeur à se concentrer sur la
sélection d'un échantillon spécifique pour l'unité, si cela n'a
pas déjà été fait au stade de la planification de l'audit.
 Les équipes d'audit itinérantes seraient en mesure d'appliquer
les connaissances en matière d'analyse des données aux
audits, lorsqu'elles accèdent aux données électroniques au
cours des audits. Ainsi, les équipes d'audit peuvent utiliser des
techniques de forage pour étayer leurs affirmations d'audit.
Elles devraient également appliquer l'analyse des données aux
ensembles de données subordonnés obtenus au cours du
processus d'audit (s'ils sont disponibles sous forme
électronique) qui ne font pas nécessairement partie des
données au niveau de l'entreprise ou de l'organisation.
Utilisation de l'analyse des données dans les rapports d'audit
4.14 Le processus d'audit implique la préparation d'un rapport destiné à
communiquer les résultats de l'audit aux parties prenantes, qui
doit être conforme aux exigences en matière de rapports prévues
par les normes d'audit.

Lignes directrices sur l'analyse des données - 41


C&AG of India
4.15 Une représentation schématique des principales utilisations de
l'analyse des données dans la planification, l'exécution et le rapport
d'audit est présentée ci-dessous.

Figure 7 - Utilisation de l'analyse des données à différents stades du


processus d'audit

Lignes directrices sur l'analyse des données - 42


C&AG of India
Annexes
Annexe 1 (Réf. : paragraphe 1.10)

Rôles et responsabilités en matière d'analyse


des données Rôles et responsabilités du CDMA
L'AMDC jouera un rôle de conseil et de soutien pour l'utilisation globale
de l'analyse des données dans l'IA&AD. L'AMDC facilitera, par le biais du
renforcement des capacités, la collecte de données de tiers au niveau
central, l'identification de nouveaux logiciels, l'évaluation de l'applicabilité
de différentes techniques et modèles d'analyse et leur diffusion dans
l'AI&AD. L'AMDC fournira un soutien technique aux bureaux locaux dans
leurs efforts d'analyse de données, si nécessaire.
Les modèles d'analyse des données seront examinés et approuvés par
l'AMDC, en consultation avec les unités fonctionnelles du siège.
Rôles et responsabilités dans les bureaux extérieurs
Le projet d'analyse des données relève de la responsabilité du groupe
fonctionnel au sein du bureau local. Le groupe d'analyse des données
offrira l'assistance technique nécessaire au projet.

Lignes directrices sur l'analyse des données - 43


C&AG of India
Lignes directrices sur l'analyse des données - 44
C&AG of India
Annexe 2 (voir paragraphe 2.13)

Modèle indicatif de certificat d'exhaustivité, de cohérence et


d'intégrité des données

(à collecter auprès de l'entité auditée lors de la réception des


données)

Le dumping de données fourni à l'O/o


(nom du bureau(nom
d'audit)
de laenbase
ce qui
deconcerne
données) pour la période allant jusqu'à
maintenue par Ministère/Département/
(Nom de l'entité fournissant les
données) sur un dispositif de stockage externe/fourni en ligne dûment
marqué comme <XXXXX> (dans le cas d'un dispositif externe) et
signé/autorisé par <XXXXX> (nom et désignation du fonctionnaire nodal
fournissant les données) le <date>.
Il est certifié que:Ͳ
(i) Les fonctionnaires sont autorisés par le (nom de l'entité contrôlée)
à partager ces données avec l'audit et ils comprennent les
dispositions pertinentes de la loi de 2008 sur les technologies de
l'information.
(ii) Le dumping de données est plein, entier et complet de données
réelles.
(iii) Il n'y a pas d'effacement, de falsification ou d'écrasement des
données originales.
(iv) Il n'y a pas d'incohérence dans les données et il n'y a pas eu de
perte de données lors de la migration des données d'un système à
l'autre ou lors de la sauvegarde ou en raison de
le vol, le piratage, etc.
(v) Les données ne sont pas endommagées, c'est-à-dire qu'elles ne
sont pas détruites ou modifiées,
Lignes directrices sur l'analyse des données - 45
C&AG ofla modification, la suppression ou le réarrangement de toute
India
ressource informatique par quelque moyen que ce soit.
Des informations sommaires sur des paramètres clés - nombre total de
transactions, date et détails de la première et de la dernière transaction et
totaux de hachage de divers champs de données numériques - sont
également fournies pour garantir l'exhaustivité, la cohérence et l'intégrité
des données.

(Nom, désignation, eͲmail et signatures des fonctionnaires


autorisés)
Date :

Lieu :

Lignes directrices sur l'analyse des données - 46


C&AG of India
Annexe 3 (voir paragraphe 3.13)

Tirer des enseignements des résultats de l'analyse des données


Une analyse statistique a été effectuée sur les données relatives à la
demande et à la perception de l'impôt pour toutes les zones. Une
corrélation entre les données relatives à la demande et à la perception a
été établie pour chaque zone. Le modèle pour cataloguer et documenter
les résultats statistiques (analyse de corrélation) et en tirer des
conclusions est présenté ci-dessous.

Référence Statistiques Perspectives Domaines Si


Figure/Tableau : Constatati généré d'interventio l'aperçu à
(L'image de on (Interprétation n inclure
visualisation ou (résultats du résultat pour l'audit dans un
le tableau statistique statistique) le cas
montrant les s) échéant ?
résultats
statistiques)

Tableau Les chiffres La perception de Les raisons 


indiquant la de 0,533, la taxe sur les de cette
répartition par 0,421, en La demande médiocrité
zone zones xx, et actuelle n'est la
Corrélation yy, montre pas collecte
une très
entre la faible satisfaisante. par
demande corrélation rapport à
actuelle entre la l'actuel
et Collection demande la demande
actuelle et la
courante devrait être
collecte
actuelle. exploré.

Lignes directrices sur l'analyse des données - 47


C&AG of India
Annexe 4 (Réf. : paragraphe 4.3)

L'analyse des données dans différents types d'audits


A. Audit de performance
Conformément au chapitre 4 des lignes directrices de 2014 pour les audits
de performance, intitulé "Planification des audits de performance
individuels", la compréhension de l'entité/du programme est le point de
départ de tout audit de performance individuel, qui comprend l'examen
des informations sous différentes formes et sources, telles que les bases
de données électroniques, les systèmes d'information de gestion, les
rapports MIS, les informations provenant de sites web, etc. Ce chapitre
prévoit également la conception de l'approche et des méthodes d'audit,
l'utilisation de diverses techniques analytiques, la préparation d'une
matrice de conception de l'audit et le choix des méthodes de collecte et
d'analyse des données, y compris l'analyse des données. Les étapes
suivantes décrivent la méthodologie générale à suivre pour utiliser
l'analyse de données dans les audits de performance.

 Tous les ensembles de données pertinents doivent être identifiés


au stade de la planification d'un audit de performance. Les
informations de base relatives au format, à la taille et au mode
d'accès des ensembles de données doivent être collectées auprès
de l'entité contrôlée. Les données doivent être préparées en
fonction des besoins, conformément au processus prescrit pour la
préparation des données au chapitre 2 des présentes lignes
directrices.
 L'analyse des données peut commencer sur la ou les bases de
données primaires des entités auditées. Il peut s'agir de la base de
données MIS, de la base de données des transactions de l'entité
auditée. L'analyse doit commencer par l'exploration des données
en utilisant diverses techniques statistiques visuelles et
descriptives pour classer les données, comprendre les variations
géographiques/administratives, les variations dans le temps
(analyse des tendances), etc. L'utilisation de cartes SIG permet de
comprendre
Lignes directrices la distribution
sur l'analyse spatiale
des données - des différents paramètres. 48
Par
C&AG ofexemple,
India s'il s'agit d'un audit de performance dans le secteur de la
santé, une analyse pourrait être effectuée pour voir
o Si l'analyse des infrastructures de santé fait l'objet d'un
rapport dans les différents États/districts.
o Variation des indicateurs de santé dans les différentes
régions et au fil des ans
 Cette analyse permet à l'auditeur de comprendre la nature de
l'entité/du régime et d'identifier les domaines d'intérêt
prioritaires.
 L'audit de performance vise principalement à vérifier si le
système/programme atteint les résultats souhaités ou s'il est mis
en œuvre de manière efficace. L'auditeur doit identifier les
différentes interventions des pouvoirs publics et voir comment
elles affectent les résultats. L'étape suivante consiste donc à
comprendre la relation entre les résultats et les divers facteurs
d'entrée et interventions du gouvernement. Cela peut être réalisé
en découpant les données et en utilisant des techniques
analytiques telles que les diagrammes de dispersion, la corrélation,
la régression, etc. Par exemple, s'il s'agit d'une étude sur
l'éducation, l'analyse peut être effectuée pour identifier le(s)
facteur(s) qui améliore(nt) les résultats tels que la scolarisation, les
abandons, etc.
 ce stade, il est possible d'explorer de multiples sources et
ensembles de données, qui peuvent être reliés à l'ensemble de
données primaires. Pour mesurer les résultats, l'auditeur n'a pas
besoin de s'appuyer uniquement sur les chiffres fournis par l'entité
contrôlée. Des ensembles de données fiables provenant de tiers
peuvent être utilisés. Un nombre croissant de sujets disposent
d'ensembles de données facilement accessibles (ensembles de
données secondaires) qui permettent aux auditeurs de procéder à
une analyse critique des questions pertinentes et de répondre à
certaines des questions essentielles.
 Grâce à ces étapes précédentes, l'auditeur peut comprendre les
risques/domaines d'intérêt de l'organisation qui devront être
abordés lors de l'audit. L'analyse des différents ensembles de
données permet non seulement d'obtenir une perspective
holistique, mais aussi de définir les objectifs et sous-objectifs de
l'audit sur
Lignes directrices sur la base des
l'analyse d'éléments
données -probants. Dans le même temps, 49
C&AG ofl'auditeur
India doit être conscient qu'il peut y avoir des risques.
paramètres qui n'ont pas été pris en compte dans les ensembles
de données existants. Il convient donc d'utiliser les connaissances
antérieures de l'entité/les informations provenant d'études pilotes,
etc. pour renforcer l'approche fondée sur des données probantes.
 Une fois les objectifs de l'audit définis, l'étape suivante consistera
à identifier les unités d'échantillonnage pour les contrôles de fond
sur la base de la perception des risques. Étant donné que de
multiples indicateurs de risque seront identifiés grâce à l'analyse
des données, il est possible d'établir un score composite basé sur
la moyenne pondérée des différents paramètres de risque et de
procéder à l'échantillonnage sur la base de ce score. Une note de
risque pondérée peut également être attribuée pour les facteurs
qui n'ont pas été identifiés par l'analyse des données et incorporés
dans la note composite.
 Les équipes itinérantes peuvent désormais planifier au niveau de
l'unité à l'aide des tableaux de bord qui leur sont fournis. Grâce à
la capacité de forage et de filtrage dynamique disponible dans les
outils modernes d'analyse des données, les équipes d'audit
peuvent identifier les risques pertinents pour chaque unité
d'échantillonnage et planifier l'audit au sein de la sous-unité.
 Au stade du rapport, la qualité de la présentation des résultats de
l'audit aux parties prenantes peut être améliorée grâce à diverses
techniques de visualisation.

B. Audit de conformité
Conformément au paragraphe 2.25 des lignes directrices relatives à l'audit
de conformité, il convient d'établir le profil de risque des entités
contrôlables afin d'identifier les domaines/activités à haut risque de
l'organisation. Les lignes directrices mentionnent le fait de tirer parti du
Big Data et d'utiliser diverses sources de données telles que les enquêtes
socioͲ économiques, le budget/VLC et d'autres sources de données afin
d'identifier les domaines à risque. De même, conformément au chapitre 4
des lignes directrices relatives à l'audit de conformité, la planification de
chaque unité d'audit de conformité doit être effectuée.
Lors des audits de conformité, la principale question à laquelle l'auditeur 50
Lignes directrices sur l'analyse des données -
est confronté
C&AG of India consiste à identifier les cas dans lesquels le respect d'une loi
ou d'une règle n'a pas été observé. Du point de vue de la planification de
l'audit, il est essentiel d'identifier les unités soumises à un contrôle de
Les modèles peuvent contribuer à cette tâche et aboutir
systématiquement à des cas de non-conformité.
L'analyse des données sur les ensembles de données pertinents à l'aide
de diverses techniques permettra d'identifier et de classer toutes les
unités en fonction de divers paramètres. Ces éléments de risque varieront
d'un secteur à l'autre. L'approche consistera à identifier plusieurs
indicateurs de risque relatifs au secteur. Voici quelques exemples de
paramètres de risque
o Dépenses
o Variation inhabituelle des dépenses par rapport aux
années précédentes.
o Délai (en cas d'opérations)
o Faible ratio impôt/revenus/ventes en cas d'audit des
recettes
Une fois les paramètres de risque identifiés, des notes de risque peuvent
être attribuées à chacune des unités d'audit de l'entité pour chaque
paramètre. Des notes composites basées sur la moyenne pondérée de
plusieurs paramètres peuvent être calculées et les unités
d'échantillonnage pour le contrôle de fond peuvent être sélectionnées sur
la base de ces notes. Le niveau d'échantillonnage suivant sera celui des
transactions à sélectionner dans chacune de ces unités en vue d'un
contrôle de fond. Ces transactions à haut risque peuvent être identifiées
par :
o Incorporer la position de la règle dont la conformité est
recherchée dans les requêtes/ tableaux de bord de manière
à ce que les exceptions/non-conformité puissent être
identifiées.
o Techniques de visualisation telles que les diagrammes de
dispersion, les diagrammes en boîte, etc. pour identifier
des modèles, des groupes ou des valeurs aberrantes.
Grâce à la capacité de forage et de filtrage disponible dans la plupart des
outils d'analyse de données, un tableau de bord peut être construit pour
toutes les unités sélectionnées pour le contrôle de fond. En garantissant la
disponibilité
Lignes périodique
directrices desdesdonnées,
sur l'analyse données -l'analyse peut être répétée au51fil
des ans
C&AG pour aboutir à un modèle d'analyse des données. L'analyse
of India
effectuée pour un audit de performance peut également être convertie en
un modèle de base pour les audits de conformité dans le secteur,
C. Audit financier
L'objectif d'un audit d'états financiers est d'accroître le degré de confiance
des utilisateurs prévus dans les états financiers. Pour ce faire, l'auditeur
exprime une opinion indiquant si les états financiers sont établis, dans
tous leurs aspects significatifs, conformément à un référentiel comptable
applicable ou - dans le cas d'états financiers établis conformément à un
référentiel comptable de présentation fidèle - si les états financiers sont
présentés fidèlement, dans tous leurs aspects significatifs, ou donnent
une image fidèle, conformément à ce référentiel.
Lors de l'audit des états financiers d'une organisation ou du
gouvernement de l'Union/des États, l'utilisation de l'analyse descriptive et
de la visualisation peut aider l'auditeur à comprendre et à se faire une
idée des différentes catégories de transactions, des soldes de comptes,
des subventions spécifiques ou des informations à fournir qui pourraient
indiquer une variation inexpliquée ou une anomalie. Les échantillons pour
le contrôle de fond peuvent être constitués sur la base des informations
tirées de l'analyse des données.
Les contrôles de routine effectués par les auditeurs financiers peuvent
être automatisés et intégrés dans un modèle, qui peut être mis à jour avec
les données relatives aux années suivantes. La tendance des transactions
financières au fil des ans permettrait d'identifier tout comportement ou
modèle anormal. Les tableaux de bord ainsi préparés aideront l'auditeur à
effectuer des contrôles sur le terrain.

Lignes directrices sur l'analyse des données - 52


C&AG of India

Vous aimerez peut-être aussi