2 votes

Comment puis-je extraire des données spécifiques d'un site web ?

J'essaie d'extraire des données d'un site web pour une recherche.

Les urls sont joliment organisées dans un format exemple.com/x, avec x comme nombre croissant et toutes les pages sont structurées de la même manière. J'ai juste besoin de récupérer certaines rubriques et quelques chiffres qui se trouvent toujours aux mêmes endroits. J'aurai ensuite besoin de mettre ces données sous forme structurée pour les analyser dans Excel.

J'ai déjà utilisé wget pour télécharger des pages, mais je n'arrive pas à trouver comment récupérer des lignes de texte spécifiques.

Excel dispose d'une fonction permettant de récupérer des données sur le Web (Data->From Web) mais, d'après ce que je vois, elle ne me permet que de télécharger des tableaux. Malheureusement, les données dont j'ai besoin ne sont pas sous forme de tableaux.

2voto

Ankit Points 4538

Vous pouvez utiliser iMacros pour automatiser cette tâche. C'est un outil pour automatiser les tâches répétitives, il peut être utilisé pour extraire des données d'un site et les enregistrer dans un fichier CSV.

Comme x en example.com/x suit un modèle (c'est-à-dire ascendant), vous pouvez facilement le programmer (même sans expérience de programmation) pour qu'il visite chaque page et en extraie des données.

Plus d'informations sur Tutoriel iMacros .

Vous pouvez également essayer ScraperWiki (une certaine expérience de la programmation est requise).

1voto

user157938 Points 11

Vous pouvez coller ce code dans un module :

Option Explicit
Sub get_data()
Dim result As String
Dim myURL As String
Dim winHttpReq As Object
Set winHttpReq = CreateObject("WinHttp.WinHttpRequest.5.1")
myURL = "example.com/x format"

winHttpReq.Open "GET", myURL, False
winHttpReq.Send
result = winHttpReq.responseText
Application.ScreenUpdating = True

Range("Sheet1!A1").value = result
End sub

Vous pouvez simplement analyser la longue chaîne de caractères dans la cellule A1 pour extraire les données dont vous avez besoin.

SistemesEz.com

SystemesEZ est une communauté de sysadmins où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres sysadmins, poser vos propres questions ou résoudre celles des autres.

Powered by:

X