Bonjour,
Je suis à la recherche d’une méthode de travail pour collecter et stocker des données, disponibles via API, renvoyées par pages (format JSON), puis faire du machine learning dessus.
(ex: Documentation de API données foncières - <!-- -->api.gouv.fr).
Par défaut, je procéderai de la façon suivante, mais je ne suis pas sûr que ce soit optimisé :
- utiliser une base de donnée MySQL
- importer par batch en faisant une boucle les données provenant de l’API
- traiter les données de la base MySQL depuis python en utilisant pandas (?? est-ce possible de créer un pandas dataframe de plusieurs Giga…?)
merci d’avance pour votre aide.