La qualité des données est un enjeu essentiel et difficile. Fréquemment, on constate de nombreuses données erronées, notamment des données qui ne sont plus utilisées mais qui restent disponibles. C’est le cas d’anciennes références d’articles, d’anciens contacts clients ou fournisseurs, d’anciennes gammes opératoires, d’anciennes structures organisationnelles…

Ces données « inutilisées » alourdissent la base de donnée, pas tant pour des raisons techniques (temps d’accès) mais pour des raisons de confusion possible des utilisateurs.


Figure 82. Tout dépend de la qualité des données

Mais il y a aussi des données erronées et pourtant utilisées. L’erreur peut provenir d’une erreur de saisie, qu’il suffit alors de corriger, mais aussi de conséquences d’une autre erreur. Toute donnée est dépendante de beaucoup d’autres et les erreurs se propagent donc au fil de ces dépendances et des actions multiples dans le S.I.

Au final, quelles conséquences sur des analyses de type Big Data reposant sur des logs pleins de données erronées ?

Une erreur de donnée peut avoir des conséquences

  • Sur une mauvaise décision qui peut être une décision de long terme. Par exemple, un décideur doit saisir ou non une opportunité d’achat d’un grand volume à très bas prix, mais il n’est pas sûr du besoin. A ce moment précis, une erreur sur une consommation de stock peut le pousser à la mauvaise décision.

  • Sur une erreur de gestion, un document commercial, un tarif, une condition de facturation, peut être erronée créant un litige client.

  • Sur une erreur avec des conséquences physiques, évidemment toutes les erreurs de quantité, de référence ou de lieu dans le pilotage d’un flux physique… qui conduisent à des ruptures de stocks, des blocages..

  • Sur d’autres données qui sont dépendantes de la première… Les dépendances entre les données provoquent une diffusion des erreurs, qui peut être très rapide. La correction d’une erreur ancienne devient alors un travail de recherche des traces de cette erreur dans l’ensemble de la base de données


Figure 83. Impact d'une erreur de donnée

Le bon usage d’un S.I. repose donc sur un travail permanent de suivi de la fiabilité des données. On peut distinguer deux niveaux:

La mesure de la fiabilité des données statiques par le contrôle de règles de cohérence, le rapprochement entre des données (par exemple de temps et de coût), des analyses statistiques sur des données devant être corrélées…

Cela concerne toutes les données statiques (tiers, articles, gammes…) et conduit donc à améliorer les processus de gestion de ces données (création d’un fournisseur, création d’un article…)

La mesure de la fiabilité des processus unitaires, des évènements anormaux qui révèlent une erreur sur des données dynamiques. Elles supposent de considérer toute erreur de stock, d’encours, de blocages d’un ordre comme une « non-conformité » qui doit être traitée, bien entendu pour corriger l’erreur et débloquer le flux concerné, mais aussi pour en comprendre les causes et agir sur les procédures, les règles de gestion, les contrôles.. Qui permettront de limiter la fréquence de cette erreur.

C’est l’activité essentielle de la phase de stabilisation après démarrage de l’ERP