Après avoir exécuté une simulation (à l'aide d'un simulateur (QualNet)) d'un réseau simulé, je me retrouve avec des statistiques d'adresses IP stockées dans une base de données, puis j'extrais les données dans un fichier csv. J'ai donc maintenant 750 Mo de statistiques réseau brutes (horodatage, identification du paquet, ip source, port source, protocole, etc.) Quelles sont les méthodes courantes d'analyse de grandes quantités de données comme ci-dessus, si vous voulez savoir des choses comme la perte de paquets, le débit, le retard, la congestion, etc.
Réponse
Trop de publicités?Sans savoir quelles sont les données qui vous intéressent, nous ne pouvons donner que des réponses très larges et générales.
D'autres auront sans doute leurs propres méthodes préférées, mais ce que je fais avec autant de données est de créer des scripts Perl pour lire les données directement à partir de la base de données, en utilisant des requêtes conçues pour lire uniquement les parties qui m'intéressent pour un rapport particulier. Le scripts produirait ensuite une sortie sous une forme appropriée, le plus souvent sous forme de feuilles de calcul ou de graphiques.
Le plus difficile n'est pas de filtrer les données et de produire les rapports. Le plus difficile est de déterminer quelles parties vous voulez voir. Avec une telle quantité de données, vous devez les filtrer si vous voulez en tirer un sens quelconque.