DATASET to dataframe cleaned

Bonjour,

J’ai un fichier excel pas vraiment bien présenté pour l’analyse du dataset.
Comment est il possible de supprimer les lignes 0 1 2 et indexer les colonnes grâce à la ligne 3?

Merci:

Hello Hamza,

Vous pouvez utiliser l’argument header de pd.read_excel en spécifiant l’index de la ligne qui servira pour les noms de colonnes (ici 3).

Je vous invite à vous pencher sur la doc officielle pour plus de détails

Bonjour @4490
et merci @6408 pour votre contribution.

Si j’ai bien compris vous souhaitez supprimer les deux premiers échantillons et relancer l’indexation du dataframe.
Est-ce bien cela ?

Après avoir importer votre jeu de données sous la forme d’un dataframe, il vous suffit de suivre les étapes suivantes.
Pour supprimer les échantillons aux positions 0,1 et 2; il vous suffit d’utiliser la fonction suivante:

df.drop([0, 1, 2])

Vous pouvez supprimer la colonne d’index dans le dataframe de données existante en utilisant la fonction reset_index(). Cette fonction réinitialisera l’index et affectera les colonnes d’index commençant par 0 à n-1. où n est le nombre de lignes dans le dataframe.

Laurène :slight_smile:

Bonjour Hamza @4490 ,

La fonction read_excel(), tout comme la fonction read_csv() par exemple, proposent un grand nombre de paramètres intéressants permettant de lire le jeu de données proprement (si l’on a toutes les informations au préalable).

Par exemple, ici, le paramètre skiprows vous permet de ne pas lire les N premières lignes, et le paramètre header vous permet de choisir la ligne à utiliser pour l’en-tête (le nom des colonnes).

Dans votre cas, en supposant que l’en-tête est une ligne de votre fichier Excel dont vous voulez vous débarrasser, un simple :

read_excel(nom_du_fichier, skiprows=4)

devrait résoudre votre problème.

En imaginant que vous souhaitiez garder la première ligne du fichier, il aurait fallu écrire :

read_excel(nom_du_fichier, skiprows=[1,2,3], header = 1)

En espérant avoir complété la réponse de @2421 et vous avoir aidé à trouver une solution efficace et reproductible.

Bonne journée,