Séries Temporelles : Quelles données sont utilisées pour évaluer les corrélations?

Bonjour,
lors de l’utilisation de variables en série temporelle ne serait-ce que pour faire des corrélations (ou tout autre usage ultérieur) quelle variable est réellement utilisée ? (je doute que chaque variable chronologique soit utilisée, est-ce que c’est une moyenne ?)

Bonjour Yoann,

Je ne suis pas sure d’avoir bien compris votre question. Pouvez-vous m’apporter quelques précisions ?

Bonjour Lara,
j’ai un dataset de 80000 lignes et plusieurs colonnes de données différentes. Ce sont des relevés de capteurs faits toutes les 15 mn sur une période d’1 an environ.
Lorsque j’utilise des fonctions quelles qu’elles soient mais pour l’exemple une fonction de corrélation de données d’une colonne par rapport à une autre, quelles données sont réellement utilisées pour faire cette corrélation ? Est-ce que c’est la moyenne des 80000 lignes de chacune des colonnes ?
cordialement

En fait si vous cherchez la corrélation entre deux séries temporelles, la procédure peut être la même que pour des données classiques. Dans votre cas, si vous testez la corrélation entre deux séries temporelles vous allez obtenir de l’information sur l’évolution des deux séries : est-ce qu’elles varient de la même façon dans le temps ou non.

Pour ce qui est de la formule pour avoir par exemple le coefficient de corrélation de Pearson, on utilise la covariance et l’écart-type des séries. Et ces calculs font effectivement intervenir la moyenne des échantillons.

En espérant avoir bien compris et répondu à votre question,

Lara

merci Lara pour ces explications,
en effet j’utilise la fonction corr() et le coefficient de pearson qui m’indiquent des corrélations entre 2 séries temporelles. Je ne sais pas quelle confiance accorder à ces deux tests dans le cas de séries temporelles. Si ces tests utilisent la moyenne des échantillons, sur 80000 lignes, est-ce que c’est vraiment pertinent ? Dans la négative, si je découpais ma série temporelle en tranches ou périodes choisies ou par rapport à des considération métier ou par rapport à des points d’inflexion, que donneraient l’utilisation des mêmes tests sur chaque tranche ? est-ce que la corrélation serait toujours vraie sur chaque tranche par exemple ?

Yoann

Pas de problème :slight_smile:

Cela est difficile à dire car tout dépend en réalité ce que vous cherchez à faire par la suite / à vérifier . De prime abord en tout cas, oui je dirais que le fait de privilégier un découpage métier pourrait être pertinent. La corrélation pourra aussi être mesurée avec un test de Pearson. L’interprétation restera valable.

Parallèlement, il existe d’autres techniques de mesure de corrélation mais il faudrait, je pense, préciser quel est le but de la démarche avant de creuser de ce côté-ci.

(A noter que par défaut la méthode corr utilise également Pearson : pandas.DataFrame.corr — pandas 1.4.2 documentation) :slight_smile: