Collecte et travail sur large dataset

Bonjour,

Je suis à la recherche d’une méthode de travail pour collecter et stocker des données, disponibles via API, renvoyées par pages (format JSON), puis faire du machine learning dessus.
(ex: Documentation de API données foncières - <!-- -->api.gouv.fr).

Par défaut, je procéderai de la façon suivante, mais je ne suis pas sûr que ce soit optimisé :

  • utiliser une base de donnée MySQL
  • importer par batch en faisant une boucle les données provenant de l’API
  • traiter les données de la base MySQL depuis python en utilisant pandas (?? est-ce possible de créer un pandas dataframe de plusieurs Giga…?)

merci d’avance pour votre aide.

Bonjour Pierrick,
Votre solution est tout à fait viable. Vous n’êtes pas obligé de passer par une base de données MySQL, vous pouvez simplement transformer vos données en un gros fichier csv.
Bon courage à vous,
Antoine