Catégories
Start-up et applications

La première étape pour garantir la qualité des données est la validation

Blue Compass est une agence de marketing numérique basée dans l'Iowa, spécialisée dans le développement de sites Web et le référencement. En tant que tels, selon le directeur du développement David Wanat, ils s'occupent de «tout ce qui va au-delà de la conception du site» sur le back-end.

Non seulement cela, mais Wanat a également déclaré qu'il était responsable de la qualité des données, qu'il s'agisse de données internes ou provenant d'une autre source. Donc pour lui, la première étape vers la qualité des données est la validation.

«Nous avons des articles et des billets de blog sur notre site, nous avons des flux RSS, nous venons de terminer un site Web d'aéroport, il y a donc des informations sur le stationnement, comme le nombre de places dans un lot, ou ce vol est-il à l'heure ou est-il retardé ? Une partie est saisie par l'utilisateur via le moteur WSYWIG ou via une API », a-t-il expliqué. "Nous parlons à un autre site qui nous donne des informations, comme les appels REST, ou peut-être qu'un fichier CSV est téléversé via FTP, et nous fouillons là-dessus pour trouver des informations. Il existe toutes sortes de sources différentes pour ces données. Et certains sont axés sur les utilisateurs finaux, où ils soumettront des demandes d'informations via une page Web. "

CONTENU CONNEXE: Le projet de qualité des données SD Times

Blue Compass s'assure que de bonnes données sont saisies dans ses formulaires en limitant la quantité de données de forme libre que les utilisateurs doivent saisir. Wanat a expliqué que l'entreprise doit d'abord réfléchir à ce qu'elle compte faire avec les données et minimiser la saisie de l'utilisateur aux incontournables, comme la saisie de votre nom. "Mais si je peux utiliser un sélecteur de date de calendrier pour mettre une date au lieu de vous former librement la date, ce serait bien mieux dans mon monde, car je peux contrôler le format à partir du sélecteur de date", a-t-il déclaré. «Si vous choisissez une préférence – une taille de chemise, une couleur – je vais contrôler cela autant que possible pour obtenir la couleur rouge au lieu de terre d'ombre brûlée, donc je sais exactement laquelle ils choisissent . »

Mais il y a des cas où l'entrée de données pourrait être de bonne qualité mais quelque chose ne va toujours pas.

"Si vous posez une question aux gens et que 50% d'entre eux répondent avec presque la même réponse exacte que celle que vous avez saisie, cela ne semble pas très unique", a souligné Wanat. «Si vous demandez aux gens ce qu’ils ont mangé pour le déjeuner, et que tout le monde dit un sandwich au jambon ou une pizza, au lieu de comme… vous vous attendez à ce que ce soit une très grande différence. Donc, si je vois exactement la même réponse, cela me dit que quelque chose ne va pas ici. Vous devez déterminer ce que vous attendez d’obtenir, et lorsque vous obtenez quelque chose qui semble faux, c’est probablement le cas. "

Pourtant, malgré ces contrôles, de mauvaises données sont toujours inévitables. Lorsque cela se produit, Wanat se tourne vers l'utilisateur des validateurs de données. Il a expliqué que la société ferait des tests rapides en interne sur les données et qu'en fonction de ce qu'elle trouverait, elle pourrait utiliser l'apprentissage automatique pour comprendre pourquoi les mauvaises données sont transmises.

Wanat a déclaré qu'ils vérifient également la longueur de l'entrée, pour voir si elle correspond à ce qu'ils attendent. «Si quelqu'un tape une adresse, cela ne devrait pas être très long», dit-il. "S'il contient plus de 200 caractères, c'est un problème." De plus, a-t-il déclaré, ils analyseront les données pour une validation rapide du texte, à la recherche d'onglets de script ou de caractères spéciaux qui ne devraient pas y figurer. S'il est trouvé, il a déclaré qu'ils "coderaient cela ou l'invalideraient complètement et renverraient (l'utilisateur) au formulaire d'information."

Ces types de contrôles ont lieu avant que les données n'entrent dans la base de données. Mais si quelque chose passe par ces vérifications, ils valideront à nouveau cette entrée avant de ramener les informations hors de la base de données.

Comme vous vous en doutez, cela peut prendre un peu de temps pour les développeurs. Dans une enquête menée auprès des développeurs sur les problèmes de qualité des données réalisée par SD Times en août, les répondants ont indiqué consacrer environ une journée par semaine de travail aux problèmes de qualité des données. Wanat était d'accord avec ce sentiment.

«Vous pouvez rédiger une page Web ou un formulaire Web qui prend en compte les entrées en quelques minutes», dit-il. «Mais si je dois ajouter des validateurs pour cela, quand je dois scanner pour cela, si je devais le coder, le trier dans la base de données, maintenant j'ai quadruplé le temps qu'il me faut pour faire cette chose.

«Cela fait simplement partie de ce que nous faisons et garantit que nos clients obtiennent ce qu’ils veulent», a-t-il poursuivi. "Personne ne veut dire:" Oh, nous avons eu une injection de script et toutes les données ont été effacées de la base de données. ""

Si les clients de Blue Compass peuvent payer une fois pour recevoir de bonnes données, ils économisent ce temps continuellement par la suite, car ils obtiennent un produit de meilleure qualité, a expliqué Wanat.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *