Tableau de répartition des pêcheurs. Le critère exact de Fisher

​ Le test exact de Fisher est un critère utilisé pour comparer deux indicateurs relatifs qui caractérisent la fréquence d'une caractéristique particulière qui a deux valeurs. Les données initiales permettant de calculer le test exact de Fisher sont généralement regroupées sous la forme d'un tableau à quatre champs.

1. Historique de l'évolution du critère

Le critère a été proposé pour la première fois Ronald Fisher dans son livre Conception d'expériences. Cela s'est produit en 1935. Fischer lui-même a affirmé que Muriel Bristol l'avait incité à cette idée. Au début des années 1920, Ronald, Muriel et William Roach étaient en poste en Angleterre dans une station expérimentale agricole. Muriel affirmait qu'elle pouvait déterminer l'ordre dans lequel le thé et le lait étaient versés dans sa tasse. A cette époque, il n’était pas possible de vérifier l’exactitude de sa déclaration.

Cela a donné naissance à l'idée de Fisher de « l'hypothèse nulle ». Le but n’était pas de prouver que Muriel pouvait faire la différence entre des tasses de thé préparées différemment. Il a été décidé de réfuter l'hypothèse selon laquelle une femme fait un choix au hasard. Il a été déterminé que l’hypothèse nulle ne pouvait être ni prouvée ni justifiée. Mais cela peut être réfuté lors d’expérimentations.

8 tasses ont été préparées. Les quatre premiers sont d'abord remplis de lait, les quatre autres de thé. Les tasses étaient mélangées. Bristol a proposé de goûter le thé et de répartir les tasses selon la méthode de préparation du thé. Le résultat aurait dû être deux groupes. L'histoire dit que l'expérience a été un succès.

Grâce au test de Fisher, la probabilité que Bristol agisse intuitivement a été réduite à 0,01428. C'est-à-dire qu'il a été possible d'identifier correctement la coupe dans un cas sur 70. Mais pour autant, il n'y a aucun moyen de réduire à zéro les chances que Madame détermine par hasard. Même si vous augmentez le nombre de tasses.

Cette histoire a donné une impulsion au développement de « l’hypothèse nulle ». Dans le même temps, le critère exact de Fisher a été proposé, dont l'essence est d'énumérer toutes les combinaisons possibles de variables dépendantes et indépendantes.

2. À quoi sert le test exact de Fisher ?

Le test exact de Fisher est principalement utilisé à des fins de comparaison petits échantillons. Il y a deux bonnes raisons à cela. Premièrement, le calcul du critère est assez lourd et peut prendre beaucoup de temps ou nécessiter des ressources informatiques puissantes. Deuxièmement, le critère est assez précis (ce qui se reflète même dans son nom), ce qui lui permet d'être utilisé dans des études avec un petit nombre d'observations.

Une place particulière est accordée au test exact de Fisher en médecine. Il s’agit d’une méthode importante de traitement des données médicales qui a trouvé son application dans de nombreuses études scientifiques. Grâce à lui, il est possible d'étudier la relation entre certains facteurs et résultats, de comparer la fréquence des états pathologiques entre deux groupes de sujets, etc.

3. Dans quels cas le test exact de Fisher peut-il être utilisé ?

  1. Les variables comparées doivent être mesurées en échelle nominale et j'ai seulement deux significations, Par exemple, la pression artérielle normale ou augmentée, évolution favorable ou défavorable, complications postopératoires présentes ou non.
  2. Le test exact de Fisher est destiné à la comparaison deux groupes indépendants, divisé par facteur. En conséquence, le facteur ne devrait également avoir que deux valeurs possibles.
  3. Le test est adapté à la comparaison de très petits échantillons : le test exact de Fisher peut être utilisé pour analyser des tableaux en quatre parties dans le cas de valeurs du phénomène attendu inférieures à 5, ce qui constitue une limitation pour l'utilisation du chi carré de Pearson. test, même en tenant compte de la correction de Yates.
  4. Le test exact de Fisher peut être unilatéral et bilatéral. Avec une option unilatérale, on sait exactement où l'un des indicateurs s'écartera. Par exemple, une étude compare le nombre de patients guéris par rapport à un groupe témoin. On suppose que la thérapie ne peut pas aggraver l'état des patients, mais seulement le guérir ou non.
    Un test bilatéral évalue les différences de fréquence dans deux directions. C'est-à-dire que la probabilité d'une fréquence à la fois plus élevée et plus faible du phénomène dans le groupe expérimental par rapport au groupe témoin est évaluée.

Un analogue du test exact de Fisher est le test du Chi carré de Pearson, tandis que le test exact de Fisher a une puissance plus élevée, en particulier lors de la comparaison de petits échantillons, et présente donc un avantage dans ce cas.

4. Comment calculer le test exact de Fisher ?

Disons que nous étudions la dépendance de la fréquence des naissances d'enfants atteints de malformations congénitales (CDD) au tabagisme maternel pendant la grossesse. Pour cela, deux groupes de femmes enceintes ont été sélectionnés, l'un étant un groupe expérimental composé de 80 femmes ayant fumé au cours du premier trimestre de la grossesse, et le second étant un groupe témoin comprenant 90 femmes menant un mode de vie sain tout au long de la grossesse. Le nombre de cas de malformation congénitale fœtale constatés par les données échographiques dans le groupe expérimental était de 10, dans le groupe de comparaison - 2.

Nous composons d’abord tableau de contingence à quatre champs:

Le test exact de Fisher est calculé à l'aide de la formule suivante :

où N est le nombre total de sujets répartis en deux groupes ; ! - factorielle, qui est le produit d'un nombre et d'une suite de nombres dont chacun est inférieur au précédent de 1 (par exemple, 4 ! = 4 3 2 1)

À la suite des calculs, nous constatons que P = 0,0137.

5. Comment interpréter la valeur du test exact de Fisher ?

L'avantage de la méthode est que le critère résultant correspond à la valeur exacte du niveau de signification p. C'est-à-dire que la valeur de 0,0137 obtenue dans notre exemple est le niveau de signification des différences entre les groupes comparés dans la fréquence de développement de malformations congénitales du fœtus. Il suffit de comparer ce nombre avec le niveau de signification critique, généralement pris en recherche médicale à 0,05.

  • Si la valeur du test exact de Fisher est supérieure à la valeur critique, il est accepté hypothèse nulle et il est conclu qu'il n'y a pas de différences statistiquement significatives dans l'incidence du résultat en fonction de la présence du facteur de risque.
  • Si la valeur du test exact de Fisher est moins que critique, il est accepté hypothèse alternative et on conclut qu'il existe des différences statistiquement significatives dans l'incidence du résultat en fonction de l'exposition au facteur de risque.

Dans notre exemple P< 0,05, в связи с чем делаем вывод о наличии прямой взаимосвязи курения и вероятности развития ВПР плода. Частота возникновения врожденной патологии у детей курящих женщин statistiquement significativement plus élevé que les non-fumeurs.

1. Tableau des valeurs du test F de Fisher pour le niveau de signification α = 0,05

1 2 3 4 5 6 8 12 24
1 161,45 199,50 215,72 224,57 230,17 233,97 238,89 243,91 249,04 254,32
2 18,51 19,00 19,16 19,25 19,30 19,33 19,37 19,41 19,45 19,50
3 10,13 9,55 9,28 9,12 9,01 8,94 8,84 8,74 8,64 8,53
4 7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,91 5,77 5,63
5 6,61 5,79 5,41 5, 19 5,05 4,95 4,82 4,68 4,53 4,36
6 5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,00 3,84 3,67
7 5,59 4,74 4,35 4,12 3,97 3,87 3,73 3,57 3,41 3,23
8 5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,28 3,12 2,93
9 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,07 2,90 2,71
10 4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,91 2,74 2,54
11 4,84 3,98 3,59 3,36 3, 20 2,95 2,79 2,61 2,40

Lorsque m=1, sélectionnez 1 colonne.

k 2 =n-m=7-1=6 - c'est-à-dire la 6ème ligne - prenez la valeur du tableau de Fisher

Tableau F = 5,99, y moy. = total : 7

L'influence de x sur y est modérée et négative

ŷ - valeur du modèle.

F calculé. = 28,648: 1 = 0,92
200,50: 5

A = 1/7 * 398,15 * 100 % = 8,1 %< 10% -

valeur acceptable


Le modèle est assez précis.

F calculé. = 1/0,92 =1,6

F calculé. = 1,6< F табл. = 5,99

Devrait être F calc. >Tableau F

Violé ce modèle, cette équation n’est donc pas statistiquement significative.

Puisque la valeur calculée est inférieure à la valeur du tableau, le modèle est insignifiant.

1 Σ (y - ŷ) *100%
N oui

Erreur d'approximation.

A= 1/7*0,563494* 100 % = 8,04991 % 8,0 %

Nous considérons que le modèle est précis si l'erreur d'approximation moyenne est inférieure à 10 %.

L'identification paramétrique des paires n'est pas régression linéaire

Modèle y = a * x b - fonction de puissance

Pour appliquer la formule connue, il est nécessaire de logarithmer le modèle non linéaire.

journal y = journal a + b journal x

Y=C+b*X -modèle linéaire.

C = 1,7605 - (- 0,298) * 1,7370 = 2,278

Retour au modèle original

Ŷ=10 s *x b =10 2,278 *x -0,298

Non. U X Oui X Y*X U Je (y-ŷ)/yI
1 68,80 45,10 1,8376 1,6542 3,039758 2,736378 60,9614643 0,113932
2 61, 20 59,00 1,7868 1,7709 3,164244 3,136087 56,2711901 0,080536
3 59,90 57, 20 1,7774 1,7574 3,123603 3,088455 56,7931534 0,051867
4 56,70 61,80 1,7536 1,7910 3,140698 3, 207681 55,4990353 0,021181
5 55,00 58,80 1,7404 1,7694 3,079464 3,130776 56,3281590 0,024148
6 54,30 47, 20 1,7348 1,6739 2,903882 2,801941 60,1402577 0,107555
7 49,30 55, 20 1,6928 1,7419 2,948688 3,034216 57,3987130 0,164274
Total 405, 20 384,30 12,3234 12,1587 21,40034 21,13553 403,391973 0,563493
Moyenne 57,88571 54,90 1,760486 1,736957 3,057191 3,019362 57,62742 0,080499

Nous entrons dans EXCEL via le programme "Démarrer". Nous entrons les données dans le tableau. Dans "Outils" - "Analyse des données" - "Régression" - OK

Si le menu "Outils" ne comporte pas la ligne "Analyse des données", alors il doit être installé via "Outils" - "Paramètres" - "Package d'analyse des données"

Prévoir la demande de produits d'entreprise. Utilisation dans MS Fonctions Excel"S'orienter"

A est la demande pour le produit. B - heure, jours


Non. UN
1 11 1
2 14 2
3 13 3
4 15 4
5 17 5
6 17,9
7 18,4 7

Étape 1. Préparation des données initiales

Étape 2. Étendez l'axe du temps, réglez-le sur 6,7 vers l'avant ; Nous avons le droit de prédire 1/3 des données.

Étape 3. Sélectionnez la plage A6 : A7 pour les prévisions futures.

Étape 4. Insérer une fonction

Insérer un diagramme, des graphiques lisses non standard

portée et prêt.


Si chaque valeur ultérieure de notre axe temporel diffère non pas de quelques pour cent, mais de plusieurs fois, alors vous devez utiliser non pas la fonction « Tendance », mais la fonction « Croissance ».


Bibliographie

1. Eliseeva « Économétrie »

2. Eliseeva "Atelier d'économétrie"

3. Carlsberg « Excel à des fins d'analyse »


Application


Plusieurs équations, et dans chaque équation - plusieurs variables. Le problème de l’estimation des paramètres d’un tel modèle ramifié est résolu à l’aide de méthodes complexes et sophistiquées. Cependant, ils ont tous le même base théorique. Ainsi, pour avoir une première idée du contenu des méthodes économétriques, nous nous limiterons dans les paragraphes suivants à considérer la régression linéaire simple. ...

Que la comparaison des classements (1) et (2) qui vient d'être faite n'a pas été effectuée de manière assez stricte. Il est clair que dans les outils économétriques d'un spécialiste menant une recherche d'expert, il doit y avoir un algorithme permettant de rapprocher les classements obtenus diverses méthodes. Méthode de réconciliation des classements groupés Le problème considéré ici est d'extraire un ordre général lâche d'un ensemble...

Elle est réalisée en substituant dans l'équation de régression les valeurs des variables indépendantes qui déterminent les conditions pour lesquelles la prévision est faite. 2.2 Méthodes de planification et de prévision des recettes budgétaires des collectivités locales Les méthodes de prévision et de planification s'expriment dans les méthodes et techniques d'élaboration de documents et d'indicateurs de prévision et de planification en relation avec leurs différents types...

CONCLUSION DES RÉSULTATS

Statistiques d'inscription

Pluriel R 0,947541801
R Carré 0,897835464
R carré normalisé 0,829725774
Erreur standard 0,226013867
Observations 6
Analyse de variance

Signification F

Régression 2 1,346753196 0,673376598 13,18219855 0,032655042
Reste 3 0,153246804 0,051082268
Total 5 1,5

Chances

Erreur standard

statistique t

Valeur P

95 % inférieurs

Meilleurs 95 %

95 % inférieurs

Meilleurs 95 %

Intersection en Y 4,736816539 0,651468195 7,27098664 0,005368842 2,66355399 6,810079088 2,66355399 6,810079088
Variable X1 0,333424008 0,220082134 1,51499807 0,227014505 -0,366975566 1,033823582 -0,366975566

But. Tester l'hypothèse selon laquelle deux variances appartiennent à la même population générale et donc leur égalité.

Hypothèse nulle. S 2 2 = S 1 2

Hypothèse alternative. Il existe les options suivantes pour N A, selon les zones critiques qui diffèrent :

1. S 1 2 > S 2 2 . L'option la plus couramment utilisée est H A. La région critique est la queue supérieure de la distribution F.

2. S 1 2< S 2 2 . Критическая область - нижний хвост F-распределения. Ввиду частого отсутствия нижнего хвоста, в таблицах критическую область обычно сводят к варианту 1, меняя местами дисперсии.

3. Double face S 1 2 ≠S 2 2. Combinaison des deux premiers.

Conditions préalables. Les données sont indépendantes et normalement distribuées. L'hypothèse selon laquelle les variances de deux populations normales sont égales est acceptée si le rapport entre la plus grande et la plus petite variance est inférieur à la valeur critique de la distribution de Fisher.

F P = S 1 2 /S 2 2

Note. Avec la méthode de vérification décrite, la valeur de Fpasch doit nécessairement être supérieure à un. Le critère est sensible à la violation de l’hypothèse de normalité.

Pour une alternative bilatérale S 1 2 ≠S 2 2 l'hypothèse nulle est acceptée si la condition est remplie :

F l - α /2< Fрасч < F α /2

Exemple

Les paramètres thermophysiques ont été déterminés à l'aide d'une méthode thermométrique complexe. caractéristiques (TFC) du malt vert. Pour préparer les échantillons, nous avons prélevé du malt séché à l'air (humidité moyenne W = 19 %) et humide vieilli pendant quatre jours (W = 45 %) conformément nouvelle technologie faire du malt caramel. Des expériences ont montré que la conductivité thermique λ du malt humide est environ 2,5 fois supérieure à celle du malt sec et que la capacité thermique volumétrique ne dépend pas clairement de la teneur en humidité du malt. Par conséquent, à l'aide du test F, nous avons vérifié la possibilité de généraliser les données basées sur des valeurs moyennes sans prendre en compte l'humidité.

Les données calculées sont résumées dans le tableau 5.1

Tableau 5.1

Données pour le calcul du critère F

Une plus grande valeur la variance a été obtenue pour W=45%, soit S 2 45 = S 1 2 , S 2 19 = S 2 2 et F P = S 1 2 /S 2 2 =1,35. À partir du tableau 5.2 pour le degré de liberté f 1 =N 1 -1=5 f 2 =N 2 -1=4 à γ=0,95 nous déterminons F KR =6,2. L'hypothèse nulle formulée comme « Dans la plage de teneur en humidité du malt vert de 19 à 45 %, son influence sur la capacité thermique volumétrique peut être négligée » ou « S 2 45 = S 2 19 » avec une probabilité de confiance de 95 % était confirmé, puisque Fp

Un exemple de test d'une hypothèse sur l'appartenance de deux variances à la même population en utilisant le critère de Fisher sous Excel

Les données sont présentées pour deux échantillons indépendants (tableau 5.2) du degré d'absorption d'eau du grain de blé. Une étude des effets des champs magnétiques basse fréquence a été menée.

Tableau 5.2

Résultats de recherche

Nombre Numéro d'échantillon
expérience 2 ,
0,027 0,075
0,036 0,4
0,1 0,08
0,12 0,105
0,32 0,075
0,45 0,12
0,049 0,06
0,105 0,075

Avant de tester l’hypothèse d’égalité des moyennes de ces échantillons, il est nécessaire de tester l’hypothèse d’égalité des variances afin de savoir quel critère choisir pour la tester.

En figue. 5.1 montre un exemple de test de l'hypothèse selon laquelle deux variances appartiennent à la même population en utilisant le critère de Fisher à l'aide du logiciel Microsoft Excel.

Figure 5.1 Exemple de test d'appartenance de deux variances à une population à l'aide du critère de Fisher

Les données sources se trouvent dans les cellules situées à l'intersection des colonnes C et D avec les lignes 3 à 10. Faisons ce qui suit :

1. Déterminons si la loi de distribution des premier et deuxième échantillons peut être considérée comme normale (colonnes C et D, respectivement). Sinon (pour au moins un échantillon), alors il faut utiliser un test non paramétrique ; si oui, on continue.

2. Calculez les écarts pour les première et deuxième colonnes. Pour ce faire, dans les cellules SP et D11 nous plaçons respectivement les fonctions =DISP(SZ:C10) et =DISP(DЗ:D10). Le résultat de ces fonctions est la valeur de variance calculée pour chaque colonne, respectivement.

3. Trouvez la valeur calculée pour le critère de Fisher. Pour ce faire, vous devez diviser la plus grande variance par la plus petite. Dans la cellule F13, nous plaçons la formule =C11/D11, qui effectue cette opération.

4. Déterminer si l'hypothèse d'égalité des variances peut être acceptée. Il existe deux méthodes, présentées dans l'exemple. Selon la première méthode, après avoir fixé le niveau de signification, par exemple 0,05, calculez valeur critique Distribution de Fisher pour cette valeur et le nombre de degrés de liberté correspondant. Dans la cellule F14, entrez la fonction =FPACPOBP(0,05;7;7) (où 0,05 est le niveau de signification spécifié ; 7 est le nombre de degrés de liberté du numérateur et 7 (seconde) est le nombre de degrés de liberté de le dénominateur). Le nombre de degrés de liberté est égal au nombre d’expériences moins un. Le résultat est 3,787051. Puisque cette valeur est supérieure à la valeur calculée de 1,81144, il faut accepter l'hypothèse nulle d'égalité des variances.

Selon la deuxième option, la probabilité correspondante est calculée pour la valeur calculée obtenue du critère de Fisher. Pour ce faire, entrez la fonction =FPACP(F13,7,7) dans la cellule F15. Puisque la valeur résultante de 0,22566 est supérieure à 0,05, l'hypothèse d'égalité des variances est acceptée.

Cela peut être fait par une fonction spéciale. Sélectionner les éléments de menu de manière séquentielle Service , L'analyse des données . La fenêtre suivante apparaîtra (Fig. 5.2).

Figure 5.2 Fenêtre de sélection de la méthode de traitement

Dans cette fenêtre sélectionnez " F-mecm à deux échantillons pour les écarts " En conséquence, une fenêtre apparaîtra comme le montre la Fig. 5.3. Ici, vous définissez les intervalles (numéros de cellules) des première et deuxième variables, le niveau de signification (alpha) et l'endroit où se trouvera le résultat.

Définissez tous les paramètres nécessaires et cliquez sur OK. Le résultat du travail est présenté sur la Fig. 5.4

Il convient de noter que la fonction teste un critère unilatéral et le fait correctement. Dans le cas où la valeur du critère est supérieure à 1, la valeur critique supérieure est calculée.

Figure 5.3 Fenêtre de paramétrage

Lorsque la valeur du critère est inférieure à 1, la valeur critique inférieure est calculée.

Nous vous rappelons que l'hypothèse d'égalité des variances est rejetée si la valeur du critère est supérieure à la valeur critique supérieure ou inférieure à la valeur critique inférieure.

Figure 5.4 Test d'égalité des variances

Renvoie l'inverse de la distribution de probabilité F (à droite). Si p = FRIST(x;...), alors FRIST(p;...) = x.

La distribution F peut être utilisée dans un test F, qui compare le degré de dispersion de deux ensembles de données. Par exemple, vous pouvez analyser la répartition des revenus aux États-Unis et au Canada pour déterminer si les deux pays sont similaires en termes de densité de revenus.

Important: Cette fonctionnalité a été remplacée par une ou plusieurs nouvelles fonctionnalités offrant une plus grande précision et portant des noms qui reflètent mieux leur objectif. Bien que cette fonctionnalité soit toujours utilisée à des fins de compatibilité descendante, elle pourrait ne plus être disponible dans les futures versions d'Excel. Nous vous recommandons donc d'utiliser les nouvelles fonctionnalités.

Pour en savoir plus sur les nouvelles fonctions, consultez les articles Fonction F.REV et Fonction F.REV.PH.

Syntaxe

FRIST(probabilité,degrés_liberté1,degrés_liberté2)

Les arguments de la fonction FALTER sont décrits ci-dessous.

    Probabilité- argument requis. Probabilité associée à la distribution F cumulative.

    Degrés_de_liberté1- argument requis. Numérateur de degrés de liberté.

    Degrés_de_liberté2- argument requis. Dénominateur des degrés de liberté.

Remarques

    Si l'un des arguments n'est pas un nombre, FDIST renvoie la valeur d'erreur #VALEUR !.

    Si « probabilité »< 0 или "вероятность" >1, la fonction FRIST renvoie la valeur d'erreur #NUM!.

    Si la valeur de Degrees_freedom1 ou Degrees_freedom2 n'est pas un nombre entier, elle est tronquée.

    Si "degrés_liberté1"< 1 или "степени_свободы1" ≥ 10^10, функция FРАСПОБР возвращает значение ошибки #ЧИСЛО!.

    Si "degrés_liberté2"< 1 или "степени_свободы2" ≥ 10^10, функция FРАСПОБР возвращает значение ошибки #ЧИСЛО!.

La fonction FDIST peut être utilisée pour déterminer les valeurs critiques de la distribution F. Par exemple, les résultats de l'ANOVA incluent généralement des données pour la statistique F, la probabilité F et la valeur critique de la distribution F à un niveau de signification de 0,05. Pour déterminer la valeur critique de F, vous devez utiliser le niveau de signification comme argument de probabilité de la fonction FDIST.

Étant donné une valeur de probabilité, la fonction FDIST recherche une valeur de x pour laquelle FDIST(x,degrees_of_freedom1,degrees_of_freedom2) = probabilité. Ainsi, la précision de la fonction FDIST dépend de la précision de FDIST. Pour rechercher, la fonction FRIST utilise une méthode d'itération. Si la recherche ne se termine pas après 100 itérations, la valeur d'erreur #N/A est renvoyée.

Exemple

Copiez les exemples de données du tableau suivant et collez-les dans la cellule A1 du nouveau feuille de calcul Excel. Pour afficher les résultats des formules, sélectionnez-les et appuyez sur F2, puis appuyez sur Entrée. Si nécessaire, modifiez la largeur des colonnes pour voir toutes les données.