Le test exact de Fisher est un critère utilisé pour comparer deux indicateurs relatifs qui caractérisent la fréquence d'une caractéristique particulière qui a deux valeurs. Les données initiales permettant de calculer le test exact de Fisher sont généralement regroupées sous la forme d'un tableau à quatre champs.
1. Historique de l'évolution du critère
Le critère a été proposé pour la première fois Ronald Fisher dans son livre Conception d'expériences. Cela s'est produit en 1935. Fischer lui-même a affirmé que Muriel Bristol l'avait incité à cette idée. Au début des années 1920, Ronald, Muriel et William Roach étaient en poste en Angleterre dans une station expérimentale agricole. Muriel affirmait qu'elle pouvait déterminer l'ordre dans lequel le thé et le lait étaient versés dans sa tasse. A cette époque, il n’était pas possible de vérifier l’exactitude de sa déclaration.
Cela a donné naissance à l'idée de Fisher de « l'hypothèse nulle ». Le but n’était pas de prouver que Muriel pouvait faire la différence entre des tasses de thé préparées différemment. Il a été décidé de réfuter l'hypothèse selon laquelle une femme fait un choix au hasard. Il a été déterminé que l’hypothèse nulle ne pouvait être ni prouvée ni justifiée. Mais cela peut être réfuté lors d’expérimentations.
8 tasses ont été préparées. Les quatre premiers sont d'abord remplis de lait, les quatre autres de thé. Les tasses étaient mélangées. Bristol a proposé de goûter le thé et de répartir les tasses selon la méthode de préparation du thé. Le résultat aurait dû être deux groupes. L'histoire dit que l'expérience a été un succès.
Grâce au test de Fisher, la probabilité que Bristol agisse intuitivement a été réduite à 0,01428. C'est-à-dire qu'il a été possible d'identifier correctement la coupe dans un cas sur 70. Mais pour autant, il n'y a aucun moyen de réduire à zéro les chances que Madame détermine par hasard. Même si vous augmentez le nombre de tasses.
Cette histoire a donné une impulsion au développement de « l’hypothèse nulle ». Dans le même temps, le critère exact de Fisher a été proposé, dont l'essence est d'énumérer toutes les combinaisons possibles de variables dépendantes et indépendantes.
2. À quoi sert le test exact de Fisher ?
Le test exact de Fisher est principalement utilisé à des fins de comparaison petits échantillons. Il y a deux bonnes raisons à cela. Premièrement, le calcul du critère est assez lourd et peut prendre beaucoup de temps ou nécessiter des ressources informatiques puissantes. Deuxièmement, le critère est assez précis (ce qui se reflète même dans son nom), ce qui lui permet d'être utilisé dans des études avec un petit nombre d'observations.
Une place particulière est accordée au test exact de Fisher en médecine. Il s’agit d’une méthode importante de traitement des données médicales qui a trouvé son application dans de nombreuses études scientifiques. Grâce à lui, il est possible d'étudier la relation entre certains facteurs et résultats, de comparer la fréquence des états pathologiques entre deux groupes de sujets, etc.
3. Dans quels cas le test exact de Fisher peut-il être utilisé ?
- Les variables comparées doivent être mesurées en échelle nominale et j'ai seulement deux significations, Par exemple, la pression artérielle normale ou augmentée, évolution favorable ou défavorable, complications postopératoires présentes ou non.
- Le test exact de Fisher est destiné à la comparaison deux groupes indépendants, divisé par facteur. En conséquence, le facteur ne devrait également avoir que deux valeurs possibles.
- Le test est adapté à la comparaison de très petits échantillons : le test exact de Fisher peut être utilisé pour analyser des tableaux en quatre parties dans le cas de valeurs du phénomène attendu inférieures à 5, ce qui constitue une limitation pour l'utilisation du chi carré de Pearson. test, même en tenant compte de la correction de Yates.
- Le test exact de Fisher peut être unilatéral et bilatéral. Avec une option unilatérale, on sait exactement où l'un des indicateurs s'écartera. Par exemple, une étude compare le nombre de patients guéris par rapport à un groupe témoin. On suppose que la thérapie ne peut pas aggraver l'état des patients, mais seulement le guérir ou non.
Un test bilatéral évalue les différences de fréquence dans deux directions. C'est-à-dire que la probabilité d'une fréquence à la fois plus élevée et plus faible du phénomène dans le groupe expérimental par rapport au groupe témoin est évaluée.
Un analogue du test exact de Fisher est le test du Chi carré de Pearson, tandis que le test exact de Fisher a une puissance plus élevée, en particulier lors de la comparaison de petits échantillons, et présente donc un avantage dans ce cas.
4. Comment calculer le test exact de Fisher ?
Disons que nous étudions la dépendance de la fréquence des naissances d'enfants atteints de malformations congénitales (CDD) au tabagisme maternel pendant la grossesse. Pour cela, deux groupes de femmes enceintes ont été sélectionnés, l'un étant un groupe expérimental composé de 80 femmes ayant fumé au cours du premier trimestre de la grossesse, et le second étant un groupe témoin comprenant 90 femmes menant un mode de vie sain tout au long de la grossesse. Le nombre de cas de malformation congénitale fœtale constatés par les données échographiques dans le groupe expérimental était de 10, dans le groupe de comparaison - 2.
Nous composons d’abord tableau de contingence à quatre champs:
Le test exact de Fisher est calculé à l'aide de la formule suivante :
où N est le nombre total de sujets répartis en deux groupes ; ! - factorielle, qui est le produit d'un nombre et d'une suite de nombres dont chacun est inférieur au précédent de 1 (par exemple, 4 ! = 4 3 2 1)
À la suite des calculs, nous constatons que P = 0,0137.
5. Comment interpréter la valeur du test exact de Fisher ?
L'avantage de la méthode est que le critère résultant correspond à la valeur exacte du niveau de signification p. C'est-à-dire que la valeur de 0,0137 obtenue dans notre exemple est le niveau de signification des différences entre les groupes comparés dans la fréquence de développement de malformations congénitales du fœtus. Il suffit de comparer ce nombre avec le niveau de signification critique, généralement pris en recherche médicale à 0,05.
- Si la valeur du test exact de Fisher est supérieure à la valeur critique, il est accepté hypothèse nulle et il est conclu qu'il n'y a pas de différences statistiquement significatives dans l'incidence du résultat en fonction de la présence du facteur de risque.
- Si la valeur du test exact de Fisher est moins que critique, il est accepté hypothèse alternative et on conclut qu'il existe des différences statistiquement significatives dans l'incidence du résultat en fonction de l'exposition au facteur de risque.
Dans notre exemple P< 0,05, в связи с чем делаем вывод о наличии прямой взаимосвязи курения и вероятности развития ВПР плода. Частота возникновения врожденной патологии у детей курящих женщин statistiquement significativement plus élevé que les non-fumeurs.
1. Tableau des valeurs du test F de Fisher pour le niveau de signification α = 0,05
1 | 2 | 3 | 4 | 5 | 6 | 8 | 12 | 24 | ∞ | |
1 | 161,45 | 199,50 | 215,72 | 224,57 | 230,17 | 233,97 | 238,89 | 243,91 | 249,04 | 254,32 |
2 | 18,51 | 19,00 | 19,16 | 19,25 | 19,30 | 19,33 | 19,37 | 19,41 | 19,45 | 19,50 |
3 | 10,13 | 9,55 | 9,28 | 9,12 | 9,01 | 8,94 | 8,84 | 8,74 | 8,64 | 8,53 |
4 | 7,71 | 6,94 | 6,59 | 6,39 | 6,26 | 6,16 | 6,04 | 5,91 | 5,77 | 5,63 |
5 | 6,61 | 5,79 | 5,41 | 5, 19 | 5,05 | 4,95 | 4,82 | 4,68 | 4,53 | 4,36 |
6 | 5,99 | 5,14 | 4,76 | 4,53 | 4,39 | 4,28 | 4,15 | 4,00 | 3,84 | 3,67 |
7 | 5,59 | 4,74 | 4,35 | 4,12 | 3,97 | 3,87 | 3,73 | 3,57 | 3,41 | 3,23 |
8 | 5,32 | 4,46 | 4,07 | 3,84 | 3,69 | 3,58 | 3,44 | 3,28 | 3,12 | 2,93 |
9 | 5,12 | 4,26 | 3,86 | 3,63 | 3,48 | 3,37 | 3,23 | 3,07 | 2,90 | 2,71 |
10 | 4,96 | 4,10 | 3,71 | 3,48 | 3,33 | 3,22 | 3,07 | 2,91 | 2,74 | 2,54 |
11 | 4,84 | 3,98 | 3,59 | 3,36 | 3, 20 | 2,95 | 2,79 | 2,61 | 2,40 |
Lorsque m=1, sélectionnez 1 colonne.
k 2 =n-m=7-1=6 - c'est-à-dire la 6ème ligne - prenez la valeur du tableau de Fisher
Tableau F = 5,99, y moy. = total : 7
L'influence de x sur y est modérée et négative
ŷ - valeur du modèle.
F calculé. = | 28,648: 1 | = 0,92 |
200,50: 5 |
A = 1/7 * 398,15 * 100 % = 8,1 %< 10% -
valeur acceptable
Le modèle est assez précis.
F calculé. = 1/0,92 =1,6
F calculé. = 1,6< F табл. = 5,99
Devrait être F calc. >Tableau F
Violé ce modèle, cette équation n’est donc pas statistiquement significative.
Puisque la valeur calculée est inférieure à la valeur du tableau, le modèle est insignifiant.
1 | Σ | (y - ŷ) | *100% | |
N | oui |
Erreur d'approximation.
A= 1/7*0,563494* 100 % = 8,04991 % 8,0 %
Nous considérons que le modèle est précis si l'erreur d'approximation moyenne est inférieure à 10 %.
L'identification paramétrique des paires n'est pas régression linéaire
Modèle y = a * x b - fonction de puissance
Pour appliquer la formule connue, il est nécessaire de logarithmer le modèle non linéaire.
journal y = journal a + b journal x
Y=C+b*X -modèle linéaire.
C = 1,7605 - (- 0,298) * 1,7370 = 2,278
Retour au modèle original
Ŷ=10 s *x b =10 2,278 *x -0,298
Non. | U | X | Oui | X | Y*X | U | Je (y-ŷ)/yI | |
1 | 68,80 | 45,10 | 1,8376 | 1,6542 | 3,039758 | 2,736378 | 60,9614643 | 0,113932 |
2 | 61, 20 | 59,00 | 1,7868 | 1,7709 | 3,164244 | 3,136087 | 56,2711901 | 0,080536 |
3 | 59,90 | 57, 20 | 1,7774 | 1,7574 | 3,123603 | 3,088455 | 56,7931534 | 0,051867 |
4 | 56,70 | 61,80 | 1,7536 | 1,7910 | 3,140698 | 3, 207681 | 55,4990353 | 0,021181 |
5 | 55,00 | 58,80 | 1,7404 | 1,7694 | 3,079464 | 3,130776 | 56,3281590 | 0,024148 |
6 | 54,30 | 47, 20 | 1,7348 | 1,6739 | 2,903882 | 2,801941 | 60,1402577 | 0,107555 |
7 | 49,30 | 55, 20 | 1,6928 | 1,7419 | 2,948688 | 3,034216 | 57,3987130 | 0,164274 |
Total | 405, 20 | 384,30 | 12,3234 | 12,1587 | 21,40034 | 21,13553 | 403,391973 | 0,563493 |
Moyenne | 57,88571 | 54,90 | 1,760486 | 1,736957 | 3,057191 | 3,019362 | 57,62742 | 0,080499 |
Nous entrons dans EXCEL via le programme "Démarrer". Nous entrons les données dans le tableau. Dans "Outils" - "Analyse des données" - "Régression" - OK
Si le menu "Outils" ne comporte pas la ligne "Analyse des données", alors il doit être installé via "Outils" - "Paramètres" - "Package d'analyse des données"
Prévoir la demande de produits d'entreprise. Utilisation dans MS Fonctions Excel"S'orienter"
A est la demande pour le produit. B - heure, jours
Non. | UN | |
1 | 11 | 1 |
2 | 14 | 2 |
3 | 13 | 3 |
4 | 15 | 4 |
5 | 17 | 5 |
6 | 17,9 | |
7 | 18,4 | 7 |
Étape 1. Préparation des données initiales
Étape 2. Étendez l'axe du temps, réglez-le sur 6,7 vers l'avant ; Nous avons le droit de prédire 1/3 des données.
Étape 3. Sélectionnez la plage A6 : A7 pour les prévisions futures.
Étape 4. Insérer une fonction
Insérer un diagramme, des graphiques lisses non standard
portée et prêt.
Si chaque valeur ultérieure de notre axe temporel diffère non pas de quelques pour cent, mais de plusieurs fois, alors vous devez utiliser non pas la fonction « Tendance », mais la fonction « Croissance ».
Bibliographie
1. Eliseeva « Économétrie »
2. Eliseeva "Atelier d'économétrie"
3. Carlsberg « Excel à des fins d'analyse »
Application
CONCLUSION DES RÉSULTATS | ||||||||
Statistiques d'inscription | ||||||||
Pluriel R | 0,947541801 | |||||||
R Carré | 0,897835464 | |||||||
R carré normalisé | 0,829725774 | |||||||
Erreur standard | 0,226013867 | |||||||
Observations | 6 | |||||||
Analyse de variance | ||||||||
Signification F | ||||||||
Régression | 2 | 1,346753196 | 0,673376598 | 13,18219855 | 0,032655042 | |||
Reste | 3 | 0,153246804 | 0,051082268 | |||||
Total | 5 | 1,5 | ||||||
Chances | Erreur standard | statistique t | Valeur P | 95 % inférieurs | Meilleurs 95 % | 95 % inférieurs | Meilleurs 95 % |
|
Intersection en Y | 4,736816539 | 0,651468195 | 7,27098664 | 0,005368842 | 2,66355399 | 6,810079088 | 2,66355399 | 6,810079088 |
Variable X1 | 0,333424008 | 0,220082134 | 1,51499807 | 0,227014505 | -0,366975566 | 1,033823582 | -0,366975566 |
But. Tester l'hypothèse selon laquelle deux variances appartiennent à la même population générale et donc leur égalité.
Hypothèse nulle. S 2 2 = S 1 2
Hypothèse alternative. Il existe les options suivantes pour N A, selon les zones critiques qui diffèrent :
1. S 1 2 > S 2 2 . L'option la plus couramment utilisée est H A. La région critique est la queue supérieure de la distribution F.
2. S 1 2< S 2 2 . Критическая область - нижний хвост F-распределения. Ввиду частого отсутствия нижнего хвоста, в таблицах критическую область обычно сводят к варианту 1, меняя местами дисперсии.
3. Double face S 1 2 ≠S 2 2. Combinaison des deux premiers.
Conditions préalables. Les données sont indépendantes et normalement distribuées. L'hypothèse selon laquelle les variances de deux populations normales sont égales est acceptée si le rapport entre la plus grande et la plus petite variance est inférieur à la valeur critique de la distribution de Fisher.
F P = S 1 2 /S 2 2
Note. Avec la méthode de vérification décrite, la valeur de Fpasch doit nécessairement être supérieure à un. Le critère est sensible à la violation de l’hypothèse de normalité.
Pour une alternative bilatérale S 1 2 ≠S 2 2 l'hypothèse nulle est acceptée si la condition est remplie :
F l - α /2< Fрасч < F α /2
Exemple
Les paramètres thermophysiques ont été déterminés à l'aide d'une méthode thermométrique complexe. caractéristiques (TFC) du malt vert. Pour préparer les échantillons, nous avons prélevé du malt séché à l'air (humidité moyenne W = 19 %) et humide vieilli pendant quatre jours (W = 45 %) conformément nouvelle technologie faire du malt caramel. Des expériences ont montré que la conductivité thermique λ du malt humide est environ 2,5 fois supérieure à celle du malt sec et que la capacité thermique volumétrique ne dépend pas clairement de la teneur en humidité du malt. Par conséquent, à l'aide du test F, nous avons vérifié la possibilité de généraliser les données basées sur des valeurs moyennes sans prendre en compte l'humidité.
Les données calculées sont résumées dans le tableau 5.1
Tableau 5.1
Données pour le calcul du critère F
Une plus grande valeur la variance a été obtenue pour W=45%, soit S 2 45 = S 1 2 , S 2 19 = S 2 2 et F P = S 1 2 /S 2 2 =1,35. À partir du tableau 5.2 pour le degré de liberté f 1 =N 1 -1=5 f 2 =N 2 -1=4 à γ=0,95 nous déterminons F KR =6,2. L'hypothèse nulle formulée comme « Dans la plage de teneur en humidité du malt vert de 19 à 45 %, son influence sur la capacité thermique volumétrique peut être négligée » ou « S 2 45 = S 2 19 » avec une probabilité de confiance de 95 % était confirmé, puisque Fp Un exemple de test d'une hypothèse sur l'appartenance de deux variances à la même population en utilisant le critère de Fisher sous Excel Les données sont présentées pour deux échantillons indépendants (tableau 5.2) du degré d'absorption d'eau du grain de blé. Une étude des effets des champs magnétiques basse fréquence a été menée. Tableau 5.2 Résultats de recherche Avant de tester l’hypothèse d’égalité des moyennes de ces échantillons, il est nécessaire de tester l’hypothèse d’égalité des variances afin de savoir quel critère choisir pour la tester. En figue. 5.1 montre un exemple de test de l'hypothèse selon laquelle deux variances appartiennent à la même population en utilisant le critère de Fisher à l'aide du logiciel Microsoft Excel. Figure 5.1 Exemple de test d'appartenance de deux variances à une population à l'aide du critère de Fisher Les données sources se trouvent dans les cellules situées à l'intersection des colonnes C et D avec les lignes 3 à 10. Faisons ce qui suit : 1. Déterminons si la loi de distribution des premier et deuxième échantillons peut être considérée comme normale (colonnes C et D, respectivement). Sinon (pour au moins un échantillon), alors il faut utiliser un test non paramétrique ; si oui, on continue. 2. Calculez les écarts pour les première et deuxième colonnes. Pour ce faire, dans les cellules SP et D11 nous plaçons respectivement les fonctions =DISP(SZ:C10) et =DISP(DЗ:D10). Le résultat de ces fonctions est la valeur de variance calculée pour chaque colonne, respectivement. 3. Trouvez la valeur calculée pour le critère de Fisher. Pour ce faire, vous devez diviser la plus grande variance par la plus petite. Dans la cellule F13, nous plaçons la formule =C11/D11, qui effectue cette opération. 4. Déterminer si l'hypothèse d'égalité des variances peut être acceptée. Il existe deux méthodes, présentées dans l'exemple. Selon la première méthode, après avoir fixé le niveau de signification, par exemple 0,05, calculez valeur critique Distribution de Fisher pour cette valeur et le nombre de degrés de liberté correspondant. Dans la cellule F14, entrez la fonction =FPACPOBP(0,05;7;7) (où 0,05 est le niveau de signification spécifié ; 7 est le nombre de degrés de liberté du numérateur et 7 (seconde) est le nombre de degrés de liberté de le dénominateur). Le nombre de degrés de liberté est égal au nombre d’expériences moins un. Le résultat est 3,787051. Puisque cette valeur est supérieure à la valeur calculée de 1,81144, il faut accepter l'hypothèse nulle d'égalité des variances. Selon la deuxième option, la probabilité correspondante est calculée pour la valeur calculée obtenue du critère de Fisher. Pour ce faire, entrez la fonction =FPACP(F13,7,7) dans la cellule F15. Puisque la valeur résultante de 0,22566 est supérieure à 0,05, l'hypothèse d'égalité des variances est acceptée. Cela peut être fait par une fonction spéciale. Sélectionner les éléments de menu de manière séquentielle Service
, L'analyse des données
. La fenêtre suivante apparaîtra (Fig. 5.2). Figure 5.2 Fenêtre de sélection de la méthode de traitement Dans cette fenêtre sélectionnez " F-mecm à deux échantillons pour les écarts
" En conséquence, une fenêtre apparaîtra comme le montre la Fig. 5.3. Ici, vous définissez les intervalles (numéros de cellules) des première et deuxième variables, le niveau de signification (alpha) et l'endroit où se trouvera le résultat. Définissez tous les paramètres nécessaires et cliquez sur OK. Le résultat du travail est présenté sur la Fig. 5.4 Il convient de noter que la fonction teste un critère unilatéral et le fait correctement. Dans le cas où la valeur du critère est supérieure à 1, la valeur critique supérieure est calculée. Figure 5.3 Fenêtre de paramétrage Lorsque la valeur du critère est inférieure à 1, la valeur critique inférieure est calculée. Nous vous rappelons que l'hypothèse d'égalité des variances est rejetée si la valeur du critère est supérieure à la valeur critique supérieure ou inférieure à la valeur critique inférieure. Figure 5.4 Test d'égalité des variances Renvoie l'inverse de la distribution de probabilité F (à droite). Si p = FRIST(x;...), alors FRIST(p;...) = x. La distribution F peut être utilisée dans un test F, qui compare le degré de dispersion de deux ensembles de données. Par exemple, vous pouvez analyser la répartition des revenus aux États-Unis et au Canada pour déterminer si les deux pays sont similaires en termes de densité de revenus. Important: Cette fonctionnalité a été remplacée par une ou plusieurs nouvelles fonctionnalités offrant une plus grande précision et portant des noms qui reflètent mieux leur objectif. Bien que cette fonctionnalité soit toujours utilisée à des fins de compatibilité descendante, elle pourrait ne plus être disponible dans les futures versions d'Excel. Nous vous recommandons donc d'utiliser les nouvelles fonctionnalités. Pour en savoir plus sur les nouvelles fonctions, consultez les articles Fonction F.REV et Fonction F.REV.PH. FRIST(probabilité,degrés_liberté1,degrés_liberté2) Les arguments de la fonction FALTER sont décrits ci-dessous. Probabilité- argument requis. Probabilité associée à la distribution F cumulative. Degrés_de_liberté1- argument requis. Numérateur de degrés de liberté. Degrés_de_liberté2- argument requis. Dénominateur des degrés de liberté. Si l'un des arguments n'est pas un nombre, FDIST renvoie la valeur d'erreur #VALEUR !. Si « probabilité »< 0 или "вероятность" >1, la fonction FRIST renvoie la valeur d'erreur #NUM!. Si la valeur de Degrees_freedom1 ou Degrees_freedom2 n'est pas un nombre entier, elle est tronquée. Si "degrés_liberté1"< 1 или "степени_свободы1" ≥ 10^10, функция FРАСПОБР возвращает значение ошибки #ЧИСЛО!. Si "degrés_liberté2"< 1 или "степени_свободы2" ≥ 10^10, функция FРАСПОБР возвращает значение ошибки #ЧИСЛО!. La fonction FDIST peut être utilisée pour déterminer les valeurs critiques de la distribution F. Par exemple, les résultats de l'ANOVA incluent généralement des données pour la statistique F, la probabilité F et la valeur critique de la distribution F à un niveau de signification de 0,05. Pour déterminer la valeur critique de F, vous devez utiliser le niveau de signification comme argument de probabilité de la fonction FDIST. Étant donné une valeur de probabilité, la fonction FDIST recherche une valeur de x pour laquelle FDIST(x,degrees_of_freedom1,degrees_of_freedom2) = probabilité. Ainsi, la précision de la fonction FDIST dépend de la précision de FDIST. Pour rechercher, la fonction FRIST utilise une méthode d'itération. Si la recherche ne se termine pas après 100 itérations, la valeur d'erreur #N/A est renvoyée. Copiez les exemples de données du tableau suivant et collez-les dans la cellule A1 du nouveau feuille de calcul Excel. Pour afficher les résultats des formules, sélectionnez-les et appuyez sur F2, puis appuyez sur Entrée. Si nécessaire, modifiez la largeur des colonnes pour voir toutes les données.Nombre Numéro d'échantillon
expérience
2 ,
0,027
0,075
0,036
0,4
0,1
0,08
0,12
0,105
0,32
0,075
0,45
0,12
0,049
0,06
0,105
0,075
Syntaxe
Remarques
Exemple