3 votes

des outils logiciels permettant de nettoyer de manière semi-automatique des données désordonnées (fichiers plats, Excel, etc.) ?

Je reçois régulièrement des fichiers, généralement des feuilles de calcul Excel, qui contiennent des données saisies manuellement et qui ont dépassé l'utilité des feuilles de calcul. Je nettoie alors ces fichiers pour les importer dans une base de données.

C'est parfois facile, parfois laborieux, selon le degré de "propreté" des données.

par exemple, quelque chose comme :

Name            Age     Phone #
J Smith         31 yo   8019219210
Smith, Mary Alice  43     (203) 456-7788

Je traduis en :

First_Name  Middle_Name Last_Name      Age  Phone_Number
J            NULL        Smith          31   801-921-9210
Mary          Alice       Smith          43   203-456-7788

J'aimerais vraiment un logiciel qui m'aide à définir les paramètres de ce à quoi chaque colonne "devrait ressembler", qui signale automatiquement les valeurs suspectes et qui me permette de les parcourir pour les modifier si nécessaire.

Quelqu'un sait-il si un tel logiciel existe ? J'imagine qu'il existe, mais je n'ai aucune idée de la façon de le trouver.

Je suis également ouvert aux procédures opérationnelles standard qui permettent d'accomplir efficacement le même type de tâche.

Gracias.

4voto

Stew Points 1189

Peu de temps après la publication de cet article, Google a lancé Google Refine, qui semble offrir toutes les fonctionnalités que j'avais imaginées, et même plus.

http://code.google.com/p/google-refine/

J'ai trouvé un nouveau travail juste au moment où j'ai découvert refine, sinon je l'aurais certainement essayé sur des données réelles. Pour l'instant, je ne l'ai pas utilisé moi-même, donc je ne peux pas me prononcer sur sa qualité - mais cette vidéo de démonstration m'a époustouflé, et il semble certainement être l'utilitaire que je recherchais lorsque j'ai posté cette question.

si vous l'avez utilisé et qu'il est utile, veuillez voter pour cette réponse. si elle obtient plusieurs votes, je la sélectionnerai.

0voto

datatoo Points 3412

Si la disposition des colonnes dans les fichiers que vous recevez est semi-cohérente, vous pourriez probablement écrire une macro pour faire presque tout. Séparer un nom (avec des règles pour identifier le dernier suivi d'une virgule, etc.), faire de Age un numéro, formater le téléphone.

Vous pourriez même lui faire faire un cycle et, en cas de doute, formater conditionnellement la ligne pour qu'elle fasse l'objet d'une attention particulière.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X