Comment optimiser la correspondance des données avec power BI ?

Dans le vaste univers des données d’entreprise, l’exactitude est essentielle. Aujourd’hui, l’un des défis majeurs est de réaliser des appariements précis entre différentes tables de données, en particulier en l’absence d’identifiants uniques comme les adresses email ou les numéros SIRET. Notre projet a relevé ce défi en adoptant une méthode de scoring avec Power BI.

-> Notre problématique

-> Notre solution : Le Scoring

Nous étions confrontés à la nécessité de corréler des données disparates sans repères habituels. Nous avons choisi de nous concentrer sur les informations disponibles, telles que les noms, prénoms, et noms d’entreprises, souvent imparfaits et sujets à variations.

Le scoring est devenu notre étoile du nord. Utilisant les capacités DAX de Power BI, nous avons établi un score de probabilité pour chaque paire de données, mesurant leur degré de similarité et attribuant un score en pourcentage.

-> Nettoyage et préparation des données

Avant de procéder au scoring, il est crucial de s’assurer de la netteté de nos données. Le nettoyage et la standardisation des données ont été des étapes cruciales, utilisant des fonctions DAX pour structurer et préparer les colonnes nécessaires, notamment les noms, prénoms et URL.

-> Création d'une clé unique

Ensuite, en utilisant DAX, nous avons introduit une nouvelle colonne dans chacune de nos tables nécessaires. Cette colonne agit comme un identifiant unique pour repérer nos cibles avec précision. Nous avons uniformément créé cette clé dans chaque table en combinant les données disponibles qui avaient été préalablement nettoyées, assurant ainsi une structure cohérente. La clé unique est systématiquement formée à partir des trois éléments : variable 1, variable 2, et variable 3, garantissant une cohérence à travers toutes nos tables et facilitant les comparaisons inter-tables.

-> Processus de Scoring

Avec cette clé, nous pouvons désormais suivre et comparer nos données efficacement. Nous utilisons plusieurs fonctions pour évaluer si les informations d’une entrée dans notre fichier source s’alignent avec celles de nos tables :

“IF” : Traite des conditions spécifiques, déterminant si les données correspondent exactement ou partiellement.

“COUNTROWS“ : Fonctionne comme un compteur, indiquant la fréquence des correspondances précises ou partielles.

“FILTER” : Notre outil de tri, isolant les lignes qui répondent à nos critères de correspondance.

“SWITCH” : Sélectionne le score final en fonction des résultats obtenus, offrant une décision logique claire sur le niveau de correspondance.

Chaque paire de données est évaluée à travers ce processus, recevant un score qui reflète la qualité de la correspondance : un score parfait pour une correspondance totale, un score partiel pour une correspondance sur quelques critères, et pas de score s’il n’y a aucune correspondance.

Nous espérons que le partage de notre approche inspirera et équipera d’autres analystes avec les outils nécessaires pour affiner leurs propres données.

Nous invitons la communauté à discuter, débattre et innover sur la base de notre expérience. Dans le monde des données, la quête de la précision est interminable, mais chaque pas en avant est une avancée significative !

Jamila Cherkaoui, Alternante Data Analyst chez Kaizzen

Quels sont les changements dans les interactions entre PowerShell et Microsoft 365

C’est en 2019 que Microsoft annonce la fin et la mise hors service de certains modules Powershell permettant l’interaction avec un tenant Office365. Ces modules sont connus et beaucoup utilisés, à savoir :
AzureAD
Azure AD Preview
MS Online
Dans cet article nous verrons en quoi ces modules étaient et sont encore utilisés, par quoi ils sont et seront remplacés, ce que ça implique dans l’usage quotidien du Powershell chez Kaizzen et comment nous allons procéder pour ajuster nos processus actuels basés sur ces modules.

Lire la suite »

Quelle est l’approche la plus efficace pour construire un rapport performant ?

M VS DAX dans Power BI
Est-il le plus pertinent d’utiliser Power Query (langage M), ou DAX dans la construction d’un rapport dans Power BI ?
M et DAX qu’est-ce que c’est ?
M est un langage ETL (Extract, Transform, Load) et DAX (Data Analysis Expressions) est un langage d’analyse de données.
M est à privilégier dans la préparation de la donnée et DAX dans l’analyse

Lire la suite »

Votre Microsoft Entra Connect est-il prêt pour la mise à jour ? Découvrez comment vérifier et mettre à niveau

Mise hors service de Microsoft Entra Connect v1
Certains d’entre vous ont déjà vu le message suivant, soit par mail ou peut-être même en navigant sur Microsoft Entra (anciennement Azure AD) :
Ce message signifie clairement que si vous utilisez Entra Connect (anciennement Azure AD Connect) en version 1, les synchronisations de vos utilisateurs, groupes, mots de passe, etc., cesseront de fonctionner.
Cette mise hors service a déjà commencé et sera déployée progressivement sur tous les tenants jusqu’en mars 2024.

Lire la suite »