Comment optimiser la correspondance des données avec power BI ?

Dans le vaste univers des données d’entreprise, l’exactitude est essentielle. Aujourd’hui, l’un des défis majeurs est de réaliser des appariements précis entre différentes tables de données, en particulier en l’absence d’identifiants uniques comme les adresses email ou les numéros SIRET. Notre projet a relevé ce défi en adoptant une méthode de scoring avec Power BI.

-> Notre problématique

-> Notre solution : Le Scoring

Nous étions confrontés à la nécessité de corréler des données disparates sans repères habituels. Nous avons choisi de nous concentrer sur les informations disponibles, telles que les noms, prénoms, et noms d’entreprises, souvent imparfaits et sujets à variations.

Le scoring est devenu notre étoile du nord. Utilisant les capacités DAX de Power BI, nous avons établi un score de probabilité pour chaque paire de données, mesurant leur degré de similarité et attribuant un score en pourcentage.

-> Nettoyage et préparation des données

Avant de procéder au scoring, il est crucial de s’assurer de la netteté de nos données. Le nettoyage et la standardisation des données ont été des étapes cruciales, utilisant des fonctions DAX pour structurer et préparer les colonnes nécessaires, notamment les noms, prénoms et URL.

-> Création d'une clé unique

Ensuite, en utilisant DAX, nous avons introduit une nouvelle colonne dans chacune de nos tables nécessaires. Cette colonne agit comme un identifiant unique pour repérer nos cibles avec précision. Nous avons uniformément créé cette clé dans chaque table en combinant les données disponibles qui avaient été préalablement nettoyées, assurant ainsi une structure cohérente. La clé unique est systématiquement formée à partir des trois éléments : variable 1, variable 2, et variable 3, garantissant une cohérence à travers toutes nos tables et facilitant les comparaisons inter-tables.

-> Processus de Scoring

Avec cette clé, nous pouvons désormais suivre et comparer nos données efficacement. Nous utilisons plusieurs fonctions pour évaluer si les informations d’une entrée dans notre fichier source s’alignent avec celles de nos tables :

“IF” : Traite des conditions spécifiques, déterminant si les données correspondent exactement ou partiellement.

“COUNTROWS“ : Fonctionne comme un compteur, indiquant la fréquence des correspondances précises ou partielles.

“FILTER” : Notre outil de tri, isolant les lignes qui répondent à nos critères de correspondance.

“SWITCH” : Sélectionne le score final en fonction des résultats obtenus, offrant une décision logique claire sur le niveau de correspondance.

Chaque paire de données est évaluée à travers ce processus, recevant un score qui reflète la qualité de la correspondance : un score parfait pour une correspondance totale, un score partiel pour une correspondance sur quelques critères, et pas de score s’il n’y a aucune correspondance.

Nous espérons que le partage de notre approche inspirera et équipera d’autres analystes avec les outils nécessaires pour affiner leurs propres données.

Nous invitons la communauté à discuter, débattre et innover sur la base de notre expérience. Dans le monde des données, la quête de la précision est interminable, mais chaque pas en avant est une avancée significative !

Jamila Cherkaoui, Alternante Data Analyst chez Kaizzen