les données
Voyons maintenant dans le détail les différentes opérations de nettoyage des données. Selon le type de la source et
sa qualité, vous serez amené à effectuer une ou plusieurs de ces opérations.
Choisir (ou supprimer) les colonnes
Cet outil permet de sélectionner ou désélectionner rapidement les colonnes à conserver, par le biais de cases à
cocher.
La taille maximale du fichier (1 Go pour la version gratuite, 10 Go pour la version Premium), ainsi surtout que le
volume de données manipulées (qui détermine en grande partie les performances de l’application) incitent fortement
à ne conserver que les colonnes réellement utiles au rapport.
Sélectionnez la table Ventes et supprimez la colonne Commentaire.
Sélectionnez la colonne Commentaire puis onglet Accueil groupe Gérer les colonnes cliquez sur le
bouton Supprimer les colonnes.
Cette étape peut également être accomplie par clic droit sur la colonne.
Notez la nouvelle étape Autres colonnes supprimées (ou simplement Colonnes supprimées) dans le volet
PARAMÈTRES D’UNE REQUÊTE. La croix à sa gauche permet d’annuler l’opération, la roue crantée à sa droite permet
de la modifier.
Réduire les lignes
Cet outil permet de conserver ou supprimer des lignes selon certains critères courants (ligne vide, doublon, ligne
parasite).
© Editions ENI – Tous droits réservés – Copie personnelle de Kamel Ben gharbia - 1-
Sélectionnez la table Familles et supprimez les deux dernières lignes, en choisissant l’option Supprimer les
lignes du bas et en précisant le nombre de lignes à supprimer, 2.
Sélectionnez la table Ventes et supprimez les lignes vides.
Utiliser la ligne d’entêtes
Dans la plupart des cas, Power BI est en mesure d’identifier correctement la ligne d’entêtes lorsqu’il y en a une.
Lors de requêtes sur des fichiers à plat notamment, et en l’absence d’identifiant de ligne, il peut être nécessaire
d’« aider » le logiciel : c’est en particulier le cas lorsque la table ne contient que des données texte.
Sélectionnez la table Catégories : vous constatez que Power BI n’a pas su identifier la ligne d’entête.
Rétablissez la situation en cliquant sur le bouton Utiliser la première ligne pour les entêtes présents sur
les onglets Accueil et Transformer.
- 2- © Editions ENI – Tous droits réservés – Copie personnelle de Kamel Ben gharbia
Répétez l’opération pour la table Familles.
Renommer une colonne
Selon le type de source que vous interrogez, le nom des colonnes est plus ou moins évocateur. Or c’est ce nom que
portera la donnée lorsque vous créerez les visuels (graphiques, tables). Il est donc utile de lui donner un nom
permettant de l’identifier facilement.
Vous pouvez renommer une colonne par double clic ou par clic droit sur le nom de la colonne.
Changer le type de la colonne
Là encore, selon le type de source que vous utilisez, la reconnaissance précise du type de la donnée est variable :
avec des sources de données bien structurées (de type base de données), la reconnaissance du type de la donnée
(texte, numérique, date) sera dans la majorité de cas exacte. Avec des sources locales, il est important de regarder
attentivement comment Power BI type la donnée, et souvent nécessaire d’apporter quelques modifications.
Pour accéder au type de la donnée, cliquez sur le symbole à gauche du nom de la colonne :
Les types de données se répartissent en plusieurs familles :
n Les numériques, et notamment :
© Editions ENI – Tous droits réservés – Copie personnelle de Kamel Ben gharbia - 3-
l Le format Nombre décimal permet de manipuler des nombres importants, mais ne retient pour la précision des
calculs que quinze chiffres, en donnant la priorité à la partie entière. Ceci peut entraîner des imprécisions lors des
calculs.
l Le format Nombre décimal fixe, lui, tient toujours compte, lorsque c’est pertinent, de quatre chiffres après la
virgule : c’est le format recommandé pour les calculs précis (financiers notamment).
l Les autres formats sont autoexplicatifs : Nombre entier ou Pourcentage.
n Les dates, et notamment :
l Date
l Date / Heure
l Heure
n Le texte
Vrai/Faux indique un type de données dit booléen en général stocké sous forme 1 ou 0 dans la colonne.
Dans la table Ventes, modifiez le type de données de la colonne Date, en Date (si ce n’est pas déjà fait : il
est toujours utile de vérifier les champs date).
Dans la table Ventes, changez le type des colonnes Coût unitaire et Prix facturé unitaire en Nombre
décimal fixe.
Filtrer les données sources
Nous avons vu que l’outil Supprimer des lignes permet de filtrer les lignes d’une table.
Mais vous pouvez également, exactement comme dans Excel, filtrer une colonne. Pour cela, ouvrez le menu déroulant
à droite du nom de la colonne et sélectionnez les données à conserver par le biais des cases à cocher, ou par le biais
d’un filtre calculé (ex. Commence par pour un champ texte, ou Supérieur ou égal à pour un champ numérique).
Voici deux exemples d’utilisation des filtres :
n Dans le premier cas, nous filtrons pour ne conserver que la catégorie CAT00.
- 4- © Editions ENI – Tous droits réservés – Copie personnelle de Kamel Ben gharbia
Il s’agit bien ici de filtrer les données à la source : elles ne seront donc pas du tout rapatriées dans le rapport.
Remplacer les valeurs
Une fois la colonne sélectionnée, cet outil est utilisé à l’identique des autres logiciels de la suite Office, en indiquant la
valeur recherchée et la valeur de remplacement.
Par exemple, une fois sélectionnée la colonne Famille de produits de la table Familles, vous pourriez remplacer
l’abréviation Fam par Famille :
Utiliser l’outil Format
© Editions ENI – Tous droits réservés – Copie personnelle de Kamel Ben gharbia - 5-
L’outil Format (onglet Transformer groupe Colonne texte ou Ajouter une colonne groupe à partir d’un fichier
texte) propose des transformations courantes (mise en minuscules, en majuscules, etc.) ainsi que l’ajout d’un préfixe
ou d’un suffixe à votre donnée.
- 6- © Editions ENI – Tous droits réservés – Copie personnelle de Kamel Ben gharbia