Limite de fichier jupyter

Bonjour,

Il m’est demandé pour le travail de travailler sur 3 sources de données.
|-|Les bases téléchargeables des ESUS : La liste des entreprises de l'ESS | Ressources | ESS France (comprenant les numéros SIREN)|

|-|Le fichier de correspondance entre les codes NAF et APE et les entreprises identifiées comme liées au tourisme ici : Z:\TOURISME RESPONSABLE\Codes NAF et APET du tourisme.xlsx|

|-|Les bases SIRENE téléchargeables ici : Télécharger gratuitement la base - sirene.fr (associant les numéros SIREN aux codes NAF ou APE)|

Je n’arrive pas à importer la dernière base. Est-ce liée à son poids, car elle fait 6.6 Go?

Je vous remercie,

Cordialement,

Anne

Bonjour Anne,

En effet, il est possible que la taille du fichier soit la raison pour laquelle vous rencontrez des difficultés à l’importer. Une taille de 6,6 Go est considérable, et cela peut poser des problèmes.

Je peux vous suggérer de:

  • vérifiez l’espace disponible sur votre disque dur
  • vérifier la capacité de mémoire (si elle n’est pas saturée) de votre ordinateur
  • regarder les paramètres de configuration de Jupyter pour (si besoin) augmenter la limite de taille de fichier autorisée
  • si possible, réduisez la taille du fichier en filtrant les données inutiles ou en travaillant avec des échantillons plus petits pour effectuer des tests ou des analyses préliminaires

J’espère que ça vous aidera.
Best,

Bonjour,

Je vous remercie pour votre réponse. J’ai finalement trouvé une page avec un fichier par département. Index of /geo_sirene/v2019/last/dep/

Je pensais convertir chacun des fichiers et les enregistrer dans un dossier. Est-ce qu’il y a moyen d’automatiser cette action?

Par ailleurs, je pensais ensuite important sur jupiter chacun des fichiers. Idéalement il faudrait qu’à chaque fois, le numéro du département soit ajouté dans une colonne. Comment puis-je faire?

Voici un début de code:
#import des fichiers Siren
base_path = « C:\Users\autret\Desktop\tourisme_durable\ »

list_files = os.listdir(base_path)
list_df = []
for f in [f for f in list_files if f.startswith(« geo_siret_ »)]:
list_df.append(pd.read_csv(f"{base_path}\{f}"))
df_SIREN = pd.concat(list_df)

Je vous remercie,

Cordialement,

Anne