Bonjour
comment on applique des stopword sur un dataframe dont les phrase sont enregistré sous forme liste dans chaque ligne?
Bonjour Erfan,
Pouvez-vous me préciser le notebook concerné ?
c’est pas lier à un notebook en particulier
même si dans le cas des Réseau de neurones si les phrases sont enregistrées au préalable sous forme de liste comment on peut filtrer les stopword?
Je vais partir du principe quand tu précises que les phrases sont enregistrées sous forme de liste elles ont du coup je suppose étaient tokenisées comme ceci par exemple :
["Hello","World","I","am","very","happy","to","meet","you"]
Grâce à la librairie NLTK il est possible de facilement récupérer les stopwords anglais. Ensuite nous pouvons tout simplement créer une liste vide, parcourir la phrase et si le mot concerné n’est pas dans les stopwords, l’ajouter à la liste vide. Voici un exemple avec fonction :
from nltk.corpus import stopwords
def delete_stopwords(sentence) :
wordsFiltered = []
for w in words:
if w not in stopwords:
wordsFiltered.append(w)
return wordsFiltered
Une autre solution moins longue en code :
from nltk.corpus import stopwords
def delete_stopwords(sentence) :
wordsFiltered =[words for words in sentence if words not in stopwords]
return wordsFiltered
J’espère que j’ai répondu à ta question