Je ne comprends pas comment je récupère le seuil « optimal » !
Dans l’exemple de l’exercice, je comprends que l’on veut prédire si un élève sera admis ou non, donc établir un diagnostic, il faut donc, selon vos explications,
chercher à limiter le nbr de faux positifs ? Donc la spécificité basse ??
Aussi, le point à privilégier ici serait-il celui correspondant à une spécificité (et non sensibilité) = 0.3 ??
Si c’est ce que je cherche à faire, alors comment faire pour retrouver à quel seuil le point de la courbe ROC ayant une abscisse = 0.3 correspond ??
La courbe ROC représente le taux de vrai positif (TPR) en fonction du taux de faux positifs (FPR).
TPR = TP/(TP+FN) est la sensibilité et on veut qu’elle se rapproche de 1
FPR = FP/(FP+TN) correspond à 1-spécificité. On veut que ce taux de faux positif soit proche de 0 donc que la spécificité soit proche de 1.
Tout l’enjeu est donc d’avoir une sensibilité et une spécificité les plus proches de 1.
Le but dans l’exemple du cours n’est pas de récupérer le seuil optimal, mais de calculer l’aire sous la courbe orange afin d’obtenir un score : l’AUC (Area Under Curve). Ce score quantifie la qualité de classification de notre modèle (sur tous les seuils possibles). Il peut ensuite être comparé aux AUC d’autres modèles pour voire quel modèle performe le mieux au global.
Pour récupérer le seuil optimal il n’y a pas de fonction étant donné qu’on a tracé cette courbe en donnant une liste de points. Ce que tu peux faire, c’est voir à quel indice dans ta liste fpr correspond la valeur se rapprochant la plus de 0.3. Puis tu fais récupère le seuil correspondant dans ta liste de seuils.
Merci Hugo.
Aussi, est-ce bon de dire que :
1 - il faut appliquer aux données dont on dispose plusieurs modèles de classification adéquat (certainement tel que décrit dans le dernier module Choix du moèle, j’imagine.
2 - Mesurer les performances de chaque modèle (AUC pour regression logistique)
3 - Choisir le meilleur modèle
4- optimimer en choisissant le seuil le mieux adapté au cas présent, dans la mesure où le meilleur modèle s’avèrerait être une regression logistique ?