Quand s'effectue la sélection des variables dans une démarche de Machine Learning?

Bonjour,

Je voudrais savoir à quelle étape de la démarche du ML se situe la sélection des variables explicatives ?
Est-ce l’on cherche d’abord les meilleurs hyperparametres pour notre modèle puis on cherche la meilleure combinaison de variables explicatives, ou l’inverse ?

Bonjour Julien

On fait d’abord la sélection de variable avant le choix des hyperparamètres. En effet, si les variables que vous avez choisies n’expliquent pas la variable cible, la sélection d’hyperparamètre ne va pas améliorer la prédiction.

D’accord, mais dans ce cas comme il faut bien une combinaison d’hypermarametres de base pour faire la sélection de variable, quelle combinaison choisit-on ? Doit-on laisser la combinaison par défaut ?

Oui généralement, on laisse celle par défaut.

Très bien, merci Frédéric.
Et j’aurais une dernière question, toujours à propos de l’ordre des étapes en ML (pour la classification).

Lorsque notre jeu de données est déséquilibré, faut-il d’abord créer, entraîner et évaluer un 1er modèle en gardant dans un premier temps les classes déséquilibrées puis chercher à l’améliorer en rééquilibrant les classes, ou faut-il avant tout rééquilibrer les classes avant de développer tout modèle ?
Et du coup, ou est-ce que cette étape de rééquilibrage des classes se situe par rapport aux étapes de sélection de variables et de recherche des meilleurs hyperparamètres ?

Il faudra d’abord rééquilibrer votre variable cible avant toute démarche de modélisation :v:, je dirais que cette étape est dans l’étape sélection de variable, même si on ne sélectionne pas vraiment de variables, mais c’est plus dans la préparation des données.