Comprendre la méthodologie scientifique pour analyser des données.
Maîtriser les tests statistiques pour valider des hypothèses.
Explorer la régression linéaire pour modéliser des relations.
Découvrir et appliquer l’analyse de variance (ANOVA).
Mettre en pratique avec un TP sur des données réelles.
Enjeux
Les statistiques permettent :
De quantifier les relations et les incertitudes.
De vérifier la validité des conclusions.
D’éviter les biais et erreurs d’interprétation.
Structure du cours
Introduction
Tests d’hypothèse
Régressions et ANOVA
TP
Introduction
Problème initial
Comment valider une hypothèse (cf cours précédents) basée sur des données ?
Exemple introductif
Effet d’un médicament sur la tension artérielle.
{style=“width: 65%”}
Exemple introductif
Effet d’un médicament sur la tension artérielle.
{style=“width: 65%”}
Méthodologie scientifique
L’approche hypothético-déductive
{style=“width: 65%”}
Hypothèse nulle et alternative : Concepts clés
$H_0$ : Hypothèse nulle
Représente le statu quo ou l’absence d’effet.
Ex : “Le traitement n’a aucun effet sur la santé.”
$H_1$ : Hypothèse alternative
Propose un changement ou un effet significatif.
Ex : “Le traitement améliore la santé.”
Rôles distincts de $H_0$ et $H_1$
$H_0$ : Le point de départ
Ce qu’on cherche à rejeter.
Rejeter $H_0$ signifie qu’il y a des preuves en faveur de $H_1$.
$H_1$ : L’hypothèse à démontrer
Acceptée si les données rejettent $H_0$ avec une signifiance statistique.
Exemple : Étude sur un médicament
Question
Le médicament X améliore-t-il la pression artérielle ?
$H_0$ : “Le médicament X n’a aucun effet sur la pression artérielle.”
$H_1$ : “Le médicament X réduit significativement la pression artérielle.”
Test statistique et rôle de $H_0$
On effectue un test statistique pour évaluer les données.
Si les résultats sont significatifs, on rejette $H_0$ :
Le médicament X a un effet.
Si les résultats ne sont pas significatifs, on ne rejette pas $H_0$ :
Aucune preuve suffisante pour dire que le médicament est efficace.
Types d’hypothèses alternatives
1. Unilatérale (une direction)
$H_1$ : “Le traitement augmente les performances.”
2. Bilatérale (deux directions)
$H_1$ : “Le traitement a un effet (augmentation ou diminution).”
Points clés
Toujours formuler les hypothèses avant de collecter les données.
Rejeter $H_0$ signifie qu’il y a un soutien pour $H_1$, mais cela ne prouve pas $H_1$.
Risques d’erreur
Erreur de Type I ($\alpha$) : Faux positif
Rejeter $H_0$ alors qu’elle est vraie.
Impact : Conclure à tort qu’un effet ou une différence existe.
Exemple : Le médicament semble efficace alors qu’il ne l’est pas.
Erreur de Type II ($\beta$) : Faux négatif
Ne pas rejeter $H_0$ alors qu’elle est fausse.
Impact : Manquer un effet ou une différence existante.
Exemple : Conclure que le vaccin n’est pas efficace alors qu’il l’est.
Lien entre ($\alpha$) et ($\beta$)
Réduire ($\alpha$) augmente souvent ($\beta$), et inversement.
Augmenter la taille de l’échantillon réduit les deux.
Applications
Fixer ($\alpha$) à 0,05 (courant).
Puissance statistique ( 1 - $\beta$ ) : Indicateur clé pour minimiser les faux négatifs.
Intervalle de confiance
Définition
Intervalle de confiance (IC) : Une plage de valeurs dans laquelle un paramètre inconnu (e.g., moyenne, proportion) a une probabilité donnée de se trouver.
Interprétation
Un IC à 95 % signifie :
“Si l’on répète l’expérience de nombreuses fois, 95 % des IC calculés contiendront le vrai paramètre.”
Attention : Ce n’est pas une probabilité sur un seul IC !
note: L’IC est une mesure de précision de l’estimation.Plus l’IC est étroit, plus l’estimation est précise. L’IC dépend de la variabilité des données et de la taille de l’échantillon. Exemple : IC de 95 % pour une moyenne de 10 ± 2. Attention : L’IC ne donne pas la probabilité que la vraie moyenne soit dans l’intervalle. Interprétation : “Avec un IC de 95 %, on peut dire que cet intervalle a été calculé de manière à être fiable dans 95 % des cas pour inclure la vraie moyenne.”
Calcul
Formule générale :
$$ IC = \text{Estimation} \pm \text{Marge d’erreur} $$
La marge d’erreur dépend de :
La variabilité des données (écart-type, variance).
La taille de l’échantillon (plus l’échantillon est grand, plus l’IC est étroit).
Le niveau de confiance (souvent 95 % ou 99 %).
Applications
Comprendre la précision d’une estimation.
Comparer des groupes ou des traitements :
Si deux IC ne se chevauchent pas, il est probable que les paramètres diffèrent significativement.
Tests d’Hypothèse
Introduction aux tests
Objectif : Fournir un cadre statistique pour prendre des décisions à partir des données.
Principe : Tester si les données observées sont cohérentes avec une hypothèse initiale ($H_0$).
Définition
Test d’hypothèse : Procédure statistique visant à vérifier si une hypothèse ($H_0$) est compatible avec les données observées.
Hypothèses en jeu :
$H_0$ (hypothèse nulle) : Pas de différence ou d’effet.
$H_1$ (hypothèse alternative) : Il y a une différence ou un effet.
Processus général
Formulation des hypothèses :
$H_0$ : Hypothèse par défaut (ex. “pas de différence entre deux groupes”).
$H_1$ : Hypothèse que l’on souhaite tester (ex. “il y a une différence entre deux groupes”).
Choix d’un test statistique :
Dépend de la nature des données et des hypothèses (t-test, ANOVA, etc.).
Calcul de la statistique de test :
Une valeur numérique basée sur les données, qui reflète la compatibilité avec $H_0$.
Interprétation de la p-value :
La probabilité d’obtenir des données aussi extrêmes ou plus extrêmes que celles observées, si $H_0$ est vraie.
Décision :
Rejeter ou ne pas rejeter $H_0$ en fonction de la p-value et du seuil fixé ($\alpha$).
Tests d’Hypothèse
Conditions d’application
Pourquoi vérifier les conditions ?
Les tests statistiques reposent sur des hypothèses spécifiques concernant les données.
Si ces conditions ne sont pas respectées :
Les résultats peuvent être biaisés.
Les conclusions tirées des p-values et autres statistiques peuvent être incorrectes.
Conditions communes
1. Normalité
Définition : Les données (ou les résidus) doivent suivre une distribution normale.
Tests concernés : t-test, ANOVA, régression linéaire, etc.
Comment vérifier ?
Visualisation : Histogramme ou test de normalité (Shapiro-Wilk, Kolmogorov-Smirnov).
Transformation possible si les données ne sont pas normales (log, racine carrée).
Alternative : Si la normalité n’est pas respectée, utiliser des tests non paramétriques (ex. Mann-Whitney, Kruskal-Wallis).
2. Indépendance
Définition : Les observations doivent être indépendantes les unes des autres.
Exemple :
Chaque individu dans une étude représente une observation distincte.
Pas de lien direct entre les mesures (ex. pas d’effet de répétition).
Conséquences si non respectée :
Risque de sous-estimer la variabilité réelle.
Biais dans les conclusions.
Solutions :
Échantillonnage aléatoire.
Si les données sont dépendantes : Utiliser des modèles spécifiques (ex. tests appariés, modèles mixtes).
3. Homogénéité des variances
Définition : La variance des données doit être similaire entre les groupes comparés.
Tests concernés :
ANOVA, t-test pour échantillons indépendants.
Comment vérifier ?
Test de Levene ou de Bartlett.
Visualisation des variances.
Alternative :
Utiliser des tests robustes ou des ajustements (ex. t-test de Welch pour variances inégales).
4. Taille de l’échantillon
Pourquoi ?
Les petits échantillons augmentent la probabilité d’erreurs de Type II ($\beta$).
Les grands échantillons peuvent amplifier des différences insignifiantes.
Recommandations :
Calculer la taille d’échantillon nécessaire (analyse de puissance).
Interpréter les résultats en tenant compte de la taille de l’échantillon.
Notes importantes
Si les conditions ne sont pas respectées :
Les tests paramétriques peuvent donner des résultats peu fiables.
Les tests non paramétriques (ex. Wilcoxon, Kruskal-Wallis) sont souvent une alternative robuste.
Toujours combiner des tests formels (statistiques) avec des inspections visuelles.
Tests d’Hypothèse
Choix du test
Paramétriques vs Non paramétriques
Tests paramétriques
Définition : Tests qui supposent que les données suivent une distribution spécifique (souvent normale).
Avantages :
Plus puissants si les conditions sont respectées.
Permettent des analyses supplémentaires comme les intervalles de confiance ou les tailles d’effet.
Inconvénients :
Sensibles aux violations des hypothèses (ex. normalité, homogénéité des variances).
Peu robustes aux valeurs aberrantes.
Tests non paramétriques
Définition : Tests qui ne nécessitent pas d’hypothèse forte sur la distribution des données.
Avantages :
Robustes aux violations des conditions (pas besoin de normalité).
Adaptés aux échelles ordinales ou lorsque les données contiennent des valeurs aberrantes.
Inconvénients :
Moins puissants que les tests paramétriques lorsque les conditions des tests paramétriques sont remplies.
Plus difficiles à interpréter (pas de taille d’effet directement comparable).
Quand utiliser chaque type de test ?
Critère
Paramétrique
Non paramétrique
Distribution des données
Normale ou transformable
Non normale ou inconnue
Échelle de mesure
Intervalle ou ratio
Ordinale ou intervalle non fiable
Échantillons petits (< 30)
Avec prudence, vérifier normalité
Recommandé
Présence de valeurs aberrantes
Problématique
Peu d’impact
Notes importantes
Toujours vérifier les conditions avant de choisir le test.
Si les conditions des tests paramétriques sont partiellement respectées :
Considérez des transformations de données (ex. log, racine carrée).
Utilisez des tests robustes (ex. t-test de Welch pour variances inégales).
Les tests non paramétriques sont une excellente alternative, mais il faut noter leur perte de puissance relative.
Statistique du test
Définition
Une valeur numérique calculée à partir des données pour mesurer l’écart entre :
une estimation ($\theta$) (basée sur l’échantillon)
et une valeur hypothétique ($\theta_0$) (sous l’hypothèse nulle, $H_0$).
Objectif
Quantifier si l’écart observé est suffisamment grand pour rejeter $H_0$.
Formule générale
$$ \text{Statistique du test} = \frac{\theta - \theta_0}{\text{Erreur standard de }\theta} $$
$\theta$ : Estimation basée sur les données (moyenne, proportion, etc.).
$\theta_0$ : Valeur hypothétique sous $H_0$.
Erreur standard : Quantifie la variabilité attendue de $\theta$ si $H_0$ est vraie.
Interprétation
La statistique du test mesure l’écart relatif entre l’estimation et la valeur attendue sous $H_0$ en tenant compte de la variabilité des données.
Valeur standardisée :
Une valeur proche de 0 indique que $\theta$ est compatible avec $\theta_0$.
Une valeur élevée (positive ou négative) indique un écart important, potentiellement significatif.
Exemple : t-test pour une moyenne
Hypothèse nulle : $H_0 : \mu = \mu_0$
Statistique du test :
$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$
$\bar{x}$ : Moyenne de l’échantillon.
$\mu_0$ : Moyenne sous $H_0$.
$s$ : Écart-type de l’échantillon.
$n$ : Taille de l’échantillon.
Contexte
Question : Le poids moyen des adultes dans une région est-il de 70 kg ?
Données :
Taille de l’échantillon ($n$) : 50
Moyenne observée ($\bar{x}$) : 72 kg
Écart-type ($s$) : 8 kg
Hypothèses
Hypothèse nulle ($H_0$) : $\mu = 70$ (le poids moyen est de 70 kg).
Hypothèse alternative ($H_1$) : $\mu \neq 70$ (le poids moyen est différent de 70 kg).
La probabilité maximale de rejeter $H_0$ alors qu’elle est vraie (erreur de type I).
Valeur typique : $\alpha = 0.05$.
$p$-value : Probabilité d’obtenir un résultat aussi extrême (ou plus) que celui observé, sous l’hypothèse $H_0$.
Interprétation de la p-value
Si $p \leq \alpha$ :
Rejeter $H_0$.
Les données fournissent des preuves significatives contre $H_0$.
Si $p > \alpha$ :
Ne pas rejeter $H_0$.
Les données ne fournissent pas suffisamment de preuves pour rejeter $H_0$.
Retour au cas pratique
Représentation visuelle
{style=“width: 65%”}
Distribution t : Distribution de probabilité théorique de la statistique t sous $H_0$.
note: La distribution t est utilisée dans les tests statistiques pour des échantillons de petite taille ou lorsque la variance de la population n’est pas connue. Elle est une approximation de la loi normale, mais avec des queues plus épaisses, ce qui permet de mieux gérer l’incertitude liée aux petits échantillons. Forme : Elle est symétrique et centrée sur 0, tout comme une courbe normale.Paramètre clé : Le nombre de degrés de liberté (dfdf), qui influence l’épaisseur des queues : Plus df est grand, plus la distribution t ressemble à une loi normale. Pour df→∞, elle converge vers une courbe normale standard.
Seuil critique pour $t$
Test bilatéral avec $\alpha = 0.05$.
Degrés de liberté ($df$) : $n - 1 = 50 - 1 = 49$.
Valeur critique $t_\text{crit}$ (table de Student) : $\pm 2.009$.
Représentation visuelle
{style=“width: 65%”}
Régions de rejet : Les zones représentent les régions critiques définies par $±t_{critique}$.
Comparaison
Statistique de test : $t = 1.77$.
Seuil critique : $t_\text{crit} = \pm 2.009$.
Conclusion :
$t = 1.77$ n’est pas dans la région de rejet.
On ne rejette pas $H_0$.
Représentation visuelle
{style=“width: 65%”}
Statistique $t$ calculée
Interprétation avec p-value
Calcul de la $p$-value :
$p = 2 \cdot P(T > |t|)$ (test bilatéral).
Avec $t = 1.77$ et $df = 49$, $p \approx 0.083$.
Comparaison avec $\alpha$ :
$p = 0.083 > \alpha = 0.05$.
On ne rejette pas $H_0$.
Représentation visuelle
{style=“width: 65%”}
$p$-value : Elle indique la probabilité associée à la statistique calculée.
Conclusion
Les données ne fournissent pas suffisamment de preuves pour conclure que le poids moyen est différent de 70 kg.
Interprétation : L’écart observé peut être dû au hasard.
Points clés à retenir
$\alpha$ est le seuil fixé a priori pour décider de rejeter ou non $H_0$.
Une $p$-value plus faible que $\alpha$ indique des preuves contre $H_0$ mais ne prouve pas $H_1$.
Ne pas confondre significativité statistique et importance pratique.
Erreurs courantes
Tests multiples : Problème
Situation : Plusieurs tests statistiques sont réalisés sur le même jeu de données.
Risque : Chaque test a une probabilité $\alpha$ (souvent 5%) de produire une erreur de type I (faux positif).
Conséquence : La probabilité cumulative d’obtenir au moins un faux positif augmente avec le nombre de tests.
Exemple de tests multiples
Cas : Étudier l’effet d’un médicament sur 20 variables (par exemple, taux sanguins de 20 molécules).
Hypothèse nulle : Le médicament n’a aucun effet sur ces variables.
Résultat attendu :
Avec $\alpha = 0.05$, en moyenne $0,05 \times 20 = 1$ test donnera un faux positif par hasard.
Conclusion erronée : Un effet pourrait être attribué au médicament alors qu’il est dû au hasard.
Correction des tests multiples
Solutions pour réduire l’impact :
Correction de Bonferroni :
Diviser $\alpha$ par le nombre de tests ($\alpha_\text{ajusté} = \alpha / m$).
Limite : Très conservatif, peut réduire la puissance du test.
Faux taux de découverte (FDR) :
Contrôle la proportion de faux positifs parmi les tests rejetés.
Méthode de Benjamini-Hochberg.
$p$-hacking : Problème
Définition : Manipuler l’analyse statistique ou les données pour obtenir des résultats significatifs.
Méthodes courantes :
Tester plusieurs hypothèses et ne rapporter que les résultats significatifs.
Ajuster les analyses ou exclure des données pour atteindre $p < \alpha$.
Réaliser des tests intermédiaires jusqu’à obtenir un résultat significatif.
Exemple de $p$-hacking
Étude clinique : Tester l’effet d’un médicament.
Données brutes : Pas de résultat significatif ($p = 0.08$).
Manipulation :
Supprimer certains participants (par exemple, ceux avec des valeurs extrêmes).
Recalculer les résultats ($p = 0.04$).
Problème : Le résultat est artificiellement significatif.
Conséquences du $p$-hacking
Faux positifs : Accepter des hypothèses fausses.
Biais de publication : Les résultats non significatifs sont souvent ignorés, créant un biais dans la littérature scientifique.
Perte de confiance : Réduire la crédibilité des études.
Solutions pour éviter le $p$-hacking
Pratiques transparentes :
Pré-enregistrer les hypothèses et la méthodologie (preregistration).
Analyser toutes les données, même les résultats non significatifs.
Rapporter les tests multiples et ajuster $\alpha$.
Alternatives aux $p$-values :
Utiliser des intervalles de confiance ou des approches bayésiennes pour évaluer les résultats.
Points clés à retenir
Les tests multiples augmentent le risque de faux positifs.
Le $p$-hacking manipule les analyses pour obtenir des résultats significatifs.
Des pratiques transparentes et des corrections statistiques réduisent ces risques.
Tests d’Hypothèse
Tests paramétriques
Définition
Méthodes statistiques basées sur des hypothèses concernant la distribution des données (souvent normale).
Objectif
Tester des hypothèses sur les paramètres d’une population (par ex. la moyenne).
Hypothèses
Les données suivent une loi normale
Les échantillons sont indépendants
Variance homogène entre les groupes (selon le test)
Test t : Comparer une moyenne à une référence
Conditions
Données suivant une loi normale.
Formule (rappel)
$$ t = \frac{\bar{x} - \mu_0}{\text{SE}} $$
où :
$\bar{x}$ : Moyenne de l’échantillon.
$\mu_0$ : Valeur hypothétique pour la moyenne (selon $H_0$).
$\text{SE}$ : Erreur standard de la moyenne $\left( \text{SE} = \frac{s}{\sqrt{n}} \right)$.
{style=“width: 100%”}
Exemple : Test t pour une moyenne
Question
Un fabricant de bouteilles affirme que le volume moyen est de 1L. Les consommateurs veulent vérifier cette affirmation.
Groupes appariés :
$$ t = \frac{\bar{d}}{\text{SE}_D} $$
où $\bar{d}$ est la moyenne des différences et $\text{SE}_D$ l’erreur standard des différences.
Calcul de t
$$
t \approx \frac{0.56 - (-4.87)}{\sqrt{\frac{9.58^2}{30} + \frac{9.21^2}{30}}} \approx 2.41
$$
Seuil critique
Niveau de signification : $\alpha = 0.05$.
$t_\text{critique} \approx \pm 2.00$.
$t = 2.41 > t_\text{critique}$.
Conclusion
Rejeter $H_0$ : Le traitement réduit significativement la pression artérielle.
Exemple de tests appairés
Contexte de l’étude
Objectif : Évaluer l’effet d’un programme de réduction du stress sur la pression artérielle.
Deux moments de mesure : Avant et Après le programme.
Question : Le programme réduit-il significativement la pression artérielle ?
Visualisation des données
{style=“width: 70%”}
Chaque participant est relié pour montrer l’évolution individuelle.
Hypothèses
$H_0$ : Pas de différence moyenne ($\mu_D = 0$).
$H_1$ : Différence moyenne non nulle ($\mu_D \neq 0$).
Distribution des différences
Histogramme des différences (Avant - Après).
Moyenne des différences : -10 mmHg.
{style=“width: 50%”}
Boxplots avec connexions
Comparaison synthétique des distributions Avant et Après.
Lignes montrant les différences individuelles.
{style=“width: 50%”}
Points clés
Le test t apparié analyse des différences entre deux mesures liées.
Résultats : Réduction significative de la pression artérielle après le programme.
Résultats
Statistique $t$ :
$$
t = \frac{-10}{1.12} \approx -8.93
$$
Seuil critique : $\pm 2.093$.
Décision : Rejet de $H_0$, réduction significative.
Points clés à retenir
Les tests t sont puissants pour comparer des moyennes.
Ils nécessitent des hypothèses spécifiques (normalité, homogénéité).
Bien choisir entre groupes indépendants et appariés.
Synthèse
flowchart TD
A@{ shape: f-circ } --> B{Un ou deux groupes ?}
B -- Un groupe --> E[Test t pour un échantillon]
B -- Deux groupes --> F{Données appariées ?}
F -- Oui (appariées) --> I[Test t apparié]
F -- Non (indépendants) --> J[Test t pour deux échantillons indépendants]
O@{ shape: comment, label: ["**Condition :** Les données suivent une loi **normale**"]}
ANOVA (Analysis of Variance)
Objectif
Comparer les moyennes de plusieurs groupes (plus de 2).
Question clé : Les différences observées entre les groupes sont-elles dues au hasard ?
Hypothèses
$H_0$ : Les moyennes des groupes sont égales.
Exemple : Les 3 traitements ont le même effet ($\mu_1 = \mu_2 = \mu_3$).
$H_1$ : Au moins une moyenne diffère.
Concept clé : Variabilité
L’ANOVA décompose la variabilité totale en deux sources :
Variabilité entre les groupes : Différences dues au facteur étudié (traitements, conditions…).
Variabilité à l’intérieur des groupes : Variabilité due au hasard (erreur expérimentale).
Partition des variances
Formule générale :
$$ \text{SSTO} = \text{SSR} + \text{SSE} $$
SSTO : Sum of Squares Total (somme des carrés totaux) $\rightarrow$ Variabilité totale
SSR : Sum of Squares for Regression (somme des carrés expliqués) $\rightarrow$ Variabilité entre groupes
SSE : Sum of Squares for Error (somme des carrés des erreurs) $\rightarrow$ Variabilité à l’intérieur des groupes
Statistique F
La statistique F mesure le rapport entre la variance expliquée et la variance non expliquée :
Pour $n_1 = 5$, $n_2 = 5$, et $\alpha = 0.05$ (bilatéral), seuil critique $U_\text{critique} = 6$.
$U = 12 > U_\text{critique}$.
Conclusion : On ne rejette pas $H_0$. Pas de différence significative entre les groupes.
Points Clés
Le test de Mann-Whitney est idéal pour des petits échantillons ou des données non normales.
Il compare les positions des distributions et non les moyennes.
Insensible aux valeurs extrêmes.
Limites
Ne fonctionne pas bien si les distributions ont des formes différentes.
Hypothèse implicite : Les distributions des groupes doivent avoir une forme similaire (même dispersion).
Kruskal-Wallis
Définition
Le test de Kruskal-Wallis est une alternative non paramétrique à l’ANOVA pour comparer les positions de plusieurs groupes (>2).
Contexte
Utilisé lorsque les données ne suivent pas une loi normale ou présentent des valeurs aberrantes.
Compare la position centrale (médiane) des groupes.
Ne nécessite pas l’hypothèse d’homogénéité des variances.
Fonctionnement
Fusionner les données de tous les groupes et les trier par ordre croissant.
Attribuer des rangs à chaque valeur dans l’ensemble trié.
Calculer la somme des rangs pour chaque groupe ($R_i$).
Calculer la statistique de test $H$ :
$$ H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1) $$
où :
$N$ : Nombre total d’observations.
$k$ : Nombre de groupes.
$n_i$ : Taille du groupe $i$.
$R_i$ : Somme des rangs du groupe $i$.
Points Clés
Le test de Kruskal-Wallis est utile pour des données non normales ou ordinales.
Il évalue les différences de position centrale (médianes) entre les groupes.
Si significatif, un test post-hoc est nécessaire pour identifier les groupes qui diffèrent.
Limites
Ne fonctionne pas bien si les distributions des groupes ont des formes ou des dispersions différentes.
Plus puissant pour les petits échantillons, mais moins puissant que l’ANOVA si les hypothèses de normalité sont respectées.
Tests Post-Hoc
Si le test est significatif, utilisez des tests comme :
Dunn : Comparaisons par paires avec ajustement des p-values.
Conover : Comparaisons de rangs entre groupes.
Test χ²
Définition
Le test $\chi^2$ est utilisé pour vérifier l’indépendance entre deux variables qualitatives.
Contexte
Évaluer si une relation statistique existe entre deux variables qualitatives.
Les données sont présentées sous forme d’un tableau de contingence.
Fonctionnement
Tableau observé ($O_{ij}$) :
Présenter les données sous forme de fréquences observées.
Tableau attendu ($E_{ij}$) :
Calculer les fréquences attendues si les variables étaient indépendantes :
$$ E_{ij} = \frac{\text{Total ligne}_i \times \text{Total colonne}_j}{\text{Total global}} $$