Bonjour à tous,
Serait il possible d’avoir des explications concernant la philosophie d’un entrainement de donnée?
C a d le découpage du dataframe en 2 ou 3 parties (entrainement, validation et test sur les variables explicatives et cible) le tout associé à un modèle + le calcul du score ?
J’avoue encore me perdre dans cette « architecture » malgré les cours
Par exemple pourquoi faire entrainer sur 80% et pas sur la totalité des données de variables explicatives?
Bonjour Mike,
C’est une très bonne question. Ce découpage de données est fait pour permettre aux modèles de mieux généraliser.
- Les données d’entraînement permettent, comme leur nom l’indique, au modèle « d’apprendre » certains paramètres, ou certaines relations en fonction de la tâche demandée.
- Les données de test permettent quant à elles de vérifier que le modèle a bien compris quelque chose, sans simplement apprendre par coeur les données d’entraînement.
- Les données de validation sont utilisées avant les données de test pour avoir encore plus de certitude sur le fait que le modèle est capable de généraliser son raisonnement.
On basera à chaque fois notre jugement sur le calcul du score sur chaque « partie » du jeu de données.
1 Like