Équation de régression linéaire dans Excel. Analyse de corrélation et de régression dans Excel : instructions d'exécution

DANS Exceller il y a un encore plus rapide et moyen pratique construire un graphique régression linéaire(et même les principaux types de régressions non linéaires, comme indiqué ci-dessous). Cela peut être fait comme suit:

1) sélectionnez les colonnes avec des données X Et Oui(ils devraient être dans cet ordre !) ;

2) appeler Assistant Graphique et sélectionnez dans le groupe TaperPlace et appuyez immédiatement sur Prêt;

3) sans désélectionner le schéma, sélectionnez l'élément du menu principal qui apparaît Diagramme, dans lequel vous devez sélectionner l'élément Ajouter une ligne de tendance;

4) dans la boîte de dialogue qui apparaît Ligne de tendance dans l'onglet Taper choisir Linéaire;

5) dans l'onglet Possibilités vous pouvez activer l'interrupteur Afficher l'équation dans le diagramme, ce qui vous permettra de voir l'équation de régression linéaire (4.4), dans laquelle les coefficients (4.5) seront calculés.

6) Dans le même onglet vous pouvez activer le switch Placez la valeur de fiabilité d'approximation (R ^ 2) sur le diagramme. Cette valeur est le carré du coefficient de corrélation (4.3) et montre dans quelle mesure l'équation calculée décrit la dépendance expérimentale. Si R. 2 est proche de l’unité, alors l’équation de régression théorique décrit bien la dépendance expérimentale (la théorie s’accorde bien avec l’expérience), et si R. 2 est proche de zéro, alors cette équation n'est pas adaptée pour décrire la dépendance expérimentale (la théorie n'est pas d'accord avec l'expérience).

Après avoir effectué les actions décrites, vous obtiendrez un diagramme avec un graphique de régression et son équation.

§4.3. Principaux types de régression non linéaire

Régression parabolique et polynomiale.

Parabolique dépendance de la valeur Oui de la taille X s'appelle une dépendance exprimée par une fonction quadratique (parabole du 2ème ordre) :

Cette équation s'appelle équation de régression parabolique Y sur X. Possibilités UN, b, Avec sont appelés coefficients de régression parabolique. Le calcul des coefficients de régression parabolique est toujours fastidieux, il est donc recommandé d'utiliser un ordinateur pour les calculs.

L'équation (4.8) de régression parabolique est un cas particulier d'une régression plus générale appelée polynomiale. Polynôme dépendance de la valeur Oui de la taille X s'appelle une dépendance exprimée par un polynôme n-ème ordre :

où sont les chiffres et moi (je=0,1,…, n) sont appelés coefficients de régression polynomiale.

Régression de puissance.

Pouvoir dépendance de la valeur Oui de la taille X est appelée une dépendance de la forme :

Cette équation s'appelle équation de régression de puissance Y sur X. Possibilités UN Et b sont appelés coefficients de régression de puissance.

ln = ln un+ dans X. (4.11)

Cette équation décrit une droite sur un plan avec des axes de coordonnées logarithmiques ln X et ln. Par conséquent, le critère d'applicabilité de la régression de puissance est l'exigence que les points des logarithmes des données empiriques ln x je et ln et jeétaient les plus proches de la ligne droite (4,11).

Régression exponentielle.

Indicatif(ou exponentiel) dépendance de la valeur Oui de la taille X est appelée une dépendance de la forme :

(ou ). (4.12)

Cette équation s'appelle équation exponentielle(ou exponentiel) régression Y sur X. Possibilités UN(ou k) Et b sont appelés coefficients exponentiels(ou exponentiel) régression.

Si nous prenons le logarithme des deux côtés de l’équation de régression de puissance, nous obtenons l’équation

ln = X dans un+ln b(ou ln = k x+ln b). (4.13)

Cette équation décrit la dépendance linéaire du logarithme d'une quantité ln sur une autre quantité X. Par conséquent, le critère d’applicabilité de la régression de puissance est l’exigence que les points de données empiriques de même valeur x je et logarithmes d'une autre quantité ln et jeétaient les plus proches de la ligne droite (4,13).

Régression logarithmique.

Logarithmique dépendance de la valeur Oui de la taille X est appelée une dépendance de la forme :

=un+ dans X. (4.14)

Cette équation s'appelle équation de régression logarithmique Y sur X. Possibilités UN Et b sont appelés coefficients de régression logarithmique.

Régression hyperbolique.

Hyperbolique dépendance de la valeur Oui de la taille X est appelée une dépendance de la forme :

Cette équation s'appelle équation de régression hyperbolique Y sur X. Possibilités UN Et b sont appelés coefficients de régression hyperbolique et sont déterminés par la méthode des moindres carrés. L'application de cette méthode conduit aux formules :

Dans les formules (4.16-4.17) la sommation est effectuée sur l'indice je de un au nombre d'observations n.

Malheureusement, dans Exceller il n'existe aucune fonction qui calcule les coefficients de régression hyperbolique. Dans les cas où l'on ne sait pas que les quantités mesurées sont liées par une proportionnalité inverse, il est recommandé de rechercher une équation de régression en puissance au lieu de l'équation de régression hyperbolique, donc dans Exceller il existe une procédure pour le trouver. Si une dépendance hyperbolique est supposée entre les grandeurs mesurées, alors ses coefficients de régression devront être calculés à l'aide de tables de calcul auxiliaires et d'opérations de sommation à l'aide de formules (4.16-4.17).

Pour les territoires de la région, des données pour 200X sont fournies.

Numéro de région Salaire vital moyen par habitant et par jour d'une personne valide, frotter., x Salaire journalier moyen, frotter., y
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Exercice:

1. Construisez un champ de corrélation et formulez une hypothèse sur la forme de la connexion.

2. Calculer les paramètres de l'équation de régression linéaire

4. À l'aide du coefficient d'élasticité moyen (général), donnez une évaluation comparative de la force de la relation entre le facteur et le résultat.

7. Calculez la valeur prédite du résultat si la valeur prédite du facteur augmente de 10 % par rapport à son niveau moyen. Déterminez l’intervalle de confiance prévu pour le niveau de signification.

Solution:

Décidons cette tâche en utilisant Excel.

1. En comparant les données disponibles x et y, par exemple, en les classant par ordre croissant du facteur x, on peut observer la présence d'une relation directe entre les caractéristiques, lorsqu'une augmentation du niveau de subsistance moyen par habitant augmente le niveau quotidien moyen salaire. Sur cette base, nous pouvons supposer que la relation entre les caractéristiques est directe et peut être décrite par une équation en ligne droite. La même conclusion est confirmée sur la base d’une analyse graphique.

Pour créer un champ de corrélation, vous pouvez utiliser Excel PPP. Saisissez les données initiales dans l'ordre : d'abord x, puis y.

Sélectionnez la zone de cellules contenant des données.

Alors choisi: Insérer / Nuage de points / Nuage de points avec marqueurs comme le montre la figure 1.

Figure 1 Construction du champ de corrélation

L'analyse du champ de corrélation montre la présence d'une dépendance proche de la rectiligne, puisque les points sont situés presque en ligne droite.

2. Pour calculer les paramètres de l'équation de régression linéaire
utilisons le intégré fonction statistique LIGNE.

Pour ça:

1) Ouvrir un fichier existant contenant les données analysées ;
2) Sélectionnez une zone 5x2 de cellules vides (5 lignes, 2 colonnes) pour afficher les résultats des statistiques de régression.
3) Activer Assistant de fonction: dans le menu principal sélectionnez Formules / Insérer une fonction.
4) Dans la fenêtre Catégorie tu prends Statistique, dans la fenêtre de fonction - LIGNE. Cliquez sur le bouton D'ACCORD comme le montre la figure 2 ;

Figure 2 Boîte de dialogue Assistant de fonction

5) Remplissez les arguments de la fonction :

Valeurs connues pour

Valeurs connues de x

Constante- une valeur logique qui indique la présence ou l'absence d'un terme libre dans l'équation ; si Constant = 1, alors le terme libre est calculé de la manière habituelle, si Constant = 0, alors le terme libre est 0 ;

Statistiques- une valeur logique qui indique s'il faut afficher ou non des informations complémentaires sur l'analyse de régression. Si Statistiques = 1, alors Informations Complémentaires s'affiche, si Statistiques = 0, alors seules les estimations des paramètres de l'équation sont affichées.

Cliquez sur le bouton D'ACCORD;

Figure 3 Boîte de dialogue Arguments de fonction LINEST

6) Le premier élément du tableau final apparaîtra dans la cellule supérieure gauche de la zone sélectionnée. Pour ouvrir tout le tableau, appuyez sur la touche , puis à la combinaison de touches ++ .

Supplémentaire statistiques de régression sera affiché dans l'ordre indiqué dans le diagramme suivant :

Valeur du coefficient b Coefficient une valeur
Erreur type b Erreur standard a
Erreur type y
Statistique F
Somme des carrés de régression

Figure 4 Résultat du calcul de la fonction LINEST

Nous avons obtenu le niveau de régression :

Nous concluons : Avec une augmentation du niveau de subsistance moyen par habitant de 1 frotter. le salaire journalier moyen augmente en moyenne de 0,92 rouble.

Signifie une variation de 52 % salaires(y) s'explique par la variation du facteur x - le niveau de subsistance moyen par habitant, et 48% - par l'action d'autres facteurs non inclus dans le modèle.

A l'aide du coefficient de détermination calculé, le coefficient de corrélation peut être calculé : .

La connexion est considérée comme étroite.

4. À l’aide du coefficient d’élasticité moyen (général), nous déterminons la force de l’influence du facteur sur le résultat.

Pour une équation en ligne droite, nous déterminons le coefficient d'élasticité moyen (total) à l'aide de la formule :

Nous trouverons les valeurs moyennes en sélectionnant la zone de cellules avec des valeurs x et en sélectionnant Formules / Somme automatique / Moyenne, et nous ferons de même avec les valeurs de y.

Figure 5 Calcul des valeurs moyennes de la fonction et argument

Ainsi, si le coût de la vie moyen par habitant varie de 1 % par rapport à sa valeur moyenne, le salaire journalier moyen variera en moyenne de 0,51 %.

Utiliser un outil d'analyse de données Régression disponible:
- les résultats des statistiques de régression,
- les résultats de l'analyse de variance,
- résultats des intervalles de confiance,
- graphiques d'ajustement des résidus et des droites de régression,
- résidus et probabilité normale.

La procédure est la suivante :

1) vérifier l'accès à Pack d'analyse. Dans le menu principal, sélectionnez : Fichier/Options/Modules complémentaires.

2) Dans la liste déroulante Contrôle sélectionner un article Compléments Excel et appuyez sur le bouton Aller.

3) Dans la fenêtre Modules complémentaires coche la case Pack d'analyse, puis cliquez sur le bouton D'ACCORD.

Si Pack d'analyse pas dans la liste des champs Modules complémentaires disponibles, appuie sur le bouton Revoir pour effectuer une recherche.

Si vous recevez un message indiquant que le package d'analyse n'est pas installé sur votre ordinateur, cliquez sur Oui pour l'installer.

4) Dans le menu principal, sélectionnez : Données / Analyse des données / Outils d'analyse / Régression, puis cliquez sur le bouton D'ACCORD.

5) Remplissez la boîte de dialogue des paramètres d'entrée et de sortie des données :

Intervalle de saisie Y- plage contenant les données de l'attribut résultant ;

Intervalle de saisie X- plage contenant les données de la caractéristique factorielle ;

Mots clés- un flag qui indique si la première ligne contient ou non des noms de colonnes ;

Constante - zéro- un drapeau indiquant la présence ou l'absence d'un terme libre dans l'équation ;

Intervalle de sortie- indiquez simplement celui de gauche cellule supérieure gamme future;

6) Nouvelle feuille de calcul - vous pouvez spécifier un nom arbitraire pour la nouvelle feuille.

Cliquez ensuite sur le bouton D'ACCORD.

Figure 6 Boîte de dialogue permettant de saisir les paramètres de l'outil de régression

Les résultats de l'analyse de régression pour les données problématiques sont présentés à la figure 7.

Figure 7 Résultat de l'utilisation de l'outil de régression

5. Évaluons la qualité des équations en utilisant l'erreur d'approximation moyenne. Utilisons les résultats de l'analyse de régression présentés dans la figure 8.

Figure 8 Résultat de l'utilisation de l'outil de régression « Retrait du reste »

Composons nouveau tableau comme le montre la figure 9. Dans la colonne C, nous calculons l'erreur d'approximation relative à l'aide de la formule :

Figure 9 Calcul de l'erreur d'approximation moyenne

L'erreur d'approximation moyenne est calculée à l'aide de la formule :

La qualité du modèle construit est jugée bonne, puisqu'elle ne dépasse pas 8 à 10 %.

6. À partir du tableau des statistiques de régression (Figure 4), nous notons la valeur réelle du test F de Fisher :

Parce que le à un niveau de signification de 5 %, on peut alors conclure que l'équation de régression est significative (la relation a été prouvée).

8. Nous évaluerons la signification statistique des paramètres de régression à l’aide des statistiques t de Student et en calculant l’intervalle de confiance de chaque indicateur.

Nous émettons l'hypothèse H 0 sur une différence statistiquement insignifiante entre les indicateurs et zéro :

.

pour le nombre de degrés de liberté

La figure 7 présente les valeurs réelles de la statistique t :

Le test t pour le coefficient de corrélation peut être calculé de deux manières :

Méthode I :

- erreur aléatoire du coefficient de corrélation.

Nous prendrons les données pour le calcul du tableau de la figure 7.

Méthode II :

Les valeurs réelles de la statistique t dépassent les valeurs du tableau :

Par conséquent, l'hypothèse H 0 est rejetée, c'est-à-dire que les paramètres de régression et le coefficient de corrélation ne diffèrent pas de zéro par hasard, mais sont statistiquement significatifs.

L'intervalle de confiance pour le paramètre a est défini comme

Pour le paramètre a, les limites de 95 % indiquées sur la figure 7 étaient :

L'intervalle de confiance pour le coefficient de régression est défini comme

Pour le coefficient de régression b, les limites de 95 % indiquées dans la figure 7 étaient :

L'analyse des limites supérieure et inférieure des intervalles de confiance conduit à la conclusion qu'avec probabilité les paramètres a et b, étant dans les limites spécifiées, n'acceptent pas valeurs nulles, c'est à dire. ne sont pas statistiquement insignifiants et significativement différents de zéro.

7. Les estimations obtenues de l'équation de régression permettent de l'utiliser à des fins de prévision. Si le coût de la vie prévu est :

Alors la valeur prédite du coût de la vie sera :

Nous calculons l'erreur de prévision à l'aide de la formule :

Nous calculerons également la variance à l'aide d'Excel PPP. Pour ça:

1) Activer Assistant de fonction: dans le menu principal sélectionnez Formules / Insérer une fonction.

3) Remplissez la plage contenant les données numériques de la caractéristique factorielle. Cliquez sur D'ACCORD.

Figure 10 Calcul de la variance

Nous avons obtenu la valeur de la variance

Pour calculer la variance résiduelle par degré de liberté, nous utiliserons les résultats de l'analyse de variance comme le montre la figure 7.

Les intervalles de confiance pour prédire les valeurs individuelles de y avec une probabilité de 0,95 sont déterminés par l'expression :

L'intervalle est assez large, principalement en raison du faible volume d'observations. En général, les prévisions du salaire mensuel moyen se sont révélées fiables.

La condition du problème est tirée de : Atelier d'économétrie : Proc. allocation / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko et autres ; Éd. I.I. Eliseeva. - M. : Finances et Statistiques, 2003. - 192 p. : ill.

Dans les articles précédents, l'analyse se concentrait souvent sur une seule variable numérique, telle que les rendements des fonds communs de placement, les temps de chargement des pages Web ou la consommation de boissons gazeuses. Dans cette note et les suivantes, nous examinerons les méthodes permettant de prédire les valeurs d'une variable numérique en fonction des valeurs d'une ou plusieurs autres variables numériques.

Le matériel sera illustré par un exemple transversal. Prévision du volume des ventes dans un magasin de vêtements. La chaîne de magasins de vêtements discount Tournesols est en constante expansion depuis 25 ans. Cependant, l’entreprise n’a actuellement pas d’approche systématique pour sélectionner de nouveaux points de vente. L'endroit où l'entreprise va ouvrir nouvelle boutique, est déterminé sur la base de considérations subjectives. Les critères de sélection sont des conditions de location avantageuses ou l’idée du gérant quant à l’emplacement idéal du magasin. Imaginez que vous êtes à la tête du service des projets spéciaux et de la planification. Vous avez pour mission d'élaborer un plan stratégique pour l'ouverture de nouveaux magasins. Ce plan doit inclure une prévision des ventes annuelles des magasins nouvellement ouverts. Vous pensez que l'espace de vente au détail est directement lié aux revenus et souhaitez en tenir compte dans votre processus décisionnel. Comment développer un modèle statistique pour prédire les ventes annuelles en fonction de la taille d’un nouveau magasin ?

En règle générale, l'analyse de régression est utilisée pour prédire les valeurs d'une variable. Son objectif est de développer un modèle statistique capable de prédire les valeurs d'une variable dépendante, ou réponse, à partir des valeurs d'au moins une variable indépendante ou explicative. Dans cette note, nous examinerons la régression linéaire simple - une méthode statistique qui vous permet de prédire les valeurs d'une variable dépendante. Oui par valeurs de variables indépendantes X. Les notes suivantes décriront le modèle régression multiple, conçu pour prédire les valeurs de la variable indépendante Oui basé sur les valeurs de plusieurs variables dépendantes ( X 1, X 2, …, Xk).

Téléchargez la note au format ou, exemples au format

Types de modèles de régression

ρ 1 – coefficient d'autocorrélation ; Si ρ 1 = 0 (pas d'autocorrélation), D≈ 2 ; Si ρ 1 ≈ 1 (autocorrélation positive), D≈ 0 ; Si ρ 1 = -1 (autocorrélation négative), D ≈ 4.

En pratique, l'application du critère de Durbin-Watson repose sur la comparaison de la valeur D avec des valeurs théoriques critiques dL Et dU pour un nombre donné d'observations n, nombre de variables indépendantes du modèle k(pour une régression linéaire simple k= 1) et niveau de signification α. Si D< d L , l'hypothèse de l'indépendance des écarts aléatoires est rejetée (il existe donc une autocorrélation positive) ; Si D>dU, l’hypothèse n’est pas rejetée (c’est-à-dire qu’il n’y a pas d’autocorrélation) ; Si dL< D < d U , il n'existe pas de motifs suffisants pour prendre une décision. Lorsque la valeur calculée D dépasse 2, alors avec dL Et dU Ce n'est pas le coefficient lui-même qui est comparé D, et l'expression (4 – D).

Pour calculer les statistiques Durbin-Watson dans Excel, tournons-nous vers le tableau du bas de la Fig. 14 Retrait du solde. Le numérateur de l'expression (10) est calculé à l'aide de la fonction =SUMMAR(array1;array2) et le dénominateur =SUMMAR(array) (Fig. 16).

Riz. 16. Formules de calcul des statistiques de Durbin-Watson

Dans notre exemple D= 0,883. La question principale est la suivante : quelle valeur de la statistique de Durbin-Watson doit être considérée comme suffisamment petite pour conclure à l’existence d’une autocorrélation positive ? Il faut corréler la valeur de D avec les valeurs critiques ( dL Et dU), en fonction du nombre d'observations n et le niveau de signification α (Fig. 17).

Riz. 17. Valeurs critiques des statistiques de Durbin-Watson (fragment de tableau)

Ainsi, dans le problème du volume des ventes dans un magasin livrant des marchandises à domicile, il existe une variable indépendante ( k= 1), 15 observations ( n= 15) et le niveau de signification α = 0,05. Ainsi, dL= 1,08 et dU= 1,36. Parce que le D = 0,883 < dL= 1,08, il existe une autocorrélation positive entre les résidus, la méthode des moindres carrés ne peut pas être utilisée.

Tester des hypothèses sur la pente et le coefficient de corrélation

Ci-dessus, la régression a été utilisée uniquement à des fins de prévision. Pour déterminer les coefficients de régression et prédire la valeur d’une variable Oui pour une valeur de variable donnée X La méthode des moindres carrés a été utilisée. De plus, nous avons examiné l’erreur quadratique moyenne de l’estimation et le coefficient de corrélation mixte. Si l'analyse des résidus confirme que les conditions d'applicabilité de la méthode des moindres carrés ne sont pas violées et que le modèle de régression linéaire simple est adéquat, sur la base des données de l'échantillon, on peut affirmer qu'il existe une relation linéaire entre les variables du population.

Applicationt -critères de pente. En testant si la pente de population β 1 est égale à zéro, vous pouvez déterminer s'il existe une relation statistiquement significative entre les variables X Et Oui. Si cette hypothèse est rejetée, on peut affirmer qu'entre les variables X Et Oui il existe une relation linéaire. Les hypothèses nulles et alternatives sont formulées comme suit : H 0 : β 1 = 0 (il n'y a pas de dépendance linéaire), H1 : β 1 ≠ 0 (il y a une dépendance linéaire). Prieuré A t-la statistique est égale à la différence entre la pente de l'échantillon et la valeur hypothétique de la pente de la population, divisée par l'erreur quadratique moyenne de l'estimation de la pente :

(11) t = (b 1 β 1 ) / Sb 1

b 1 – pente de régression directe sur des données d'échantillon, β1 – pente hypothétique de population directe, et statistiques de test t Il a t-distribution avec n-2 degrés de liberté.

Vérifions s'il existe une relation statistiquement significative entre la taille du magasin et les ventes annuelles à α = 0,05. t-le critère est affiché avec d'autres paramètres lorsqu'il est utilisé Pack d'analyse(option Régression). Les résultats complets du package d’analyse sont présentés dans la Fig. 4, fragment lié aux statistiques t - sur la Fig. 18.

Riz. 18. Résultats de la candidature t

Depuis le nombre de magasins n= 14 (voir Fig. 3), valeur critique t-les statistiques au niveau de signification de α = 0,05 peuvent être trouvées à l'aide de la formule : tL=ETUDIANT.ARV(0,025,12) = –2,1788, où 0,025 est la moitié du niveau de signification et 12 = n – 2; t U=ÉTUDIANT.OBR(0,975,12) = +2,1788.

Parce que le t-statistiques = 10,64 > t U= 2,1788 (Fig. 19), hypothèse nulle H 0 rejeté. D'un autre côté, R.-la valeur pour X= 10,6411, calculé par la formule =1-STUDENT.DIST(D3,12,TRUE), est approximativement égal à zéro, donc l'hypothèse H 0 encore une fois rejeté. Le fait que R.-une valeur presque nulle signifie que s'il n'y avait pas de véritable relation linéaire entre la taille des magasins et les ventes annuelles, il serait pratiquement impossible de la détecter à l'aide d'une régression linéaire. Il existe donc une relation linéaire statistiquement significative entre les ventes annuelles moyennes des magasins et la taille des magasins.

Riz. 19. Test de l'hypothèse sur la pente de population à un niveau de signification de 0,05 et 12 degrés de liberté

ApplicationF -critères de pente. Une approche alternative pour tester les hypothèses sur la pente de la régression linéaire simple consiste à utiliser F-critères. Rappelons que F-test est utilisé pour tester la relation entre deux variances (pour plus de détails, voir). Lors du test de l'hypothèse de la pente, la mesure des erreurs aléatoires est la variance d'erreur (la somme des erreurs quadratiques divisée par le nombre de degrés de liberté), donc F-critère utilise le rapport de la variance expliquée par la régression (c'est-à-dire la valeur RSS, divisé par le nombre de variables indépendantes k), à la variance d'erreur ( MSE = SYX 2 ).

Prieuré A F-la statistique est égale au carré moyen de régression (MSR) divisé par la variance d'erreur (MSE) : F = MSR/ MSE, Où MSR=RSS / k, MSE =ESS/(n– k – 1), k– nombre de variables indépendantes dans le modèle de régression. Statistiques des tests F Il a F-distribution avec k Et n– k – 1 degrés de liberté.

Pour un niveau de signification α donné, la règle de décision est formulée comme suit : si F>FU, l'hypothèse nulle est rejetée ; V sinon elle ne dévie pas. Les résultats, présentés sous forme d’un tableau récapitulatif de l’analyse de variance, sont présentés dans la Fig. 20.

Riz. 20. Tableau d'analyse de variance pour tester l'hypothèse sur la signification statistique du coefficient de régression

De même t-critère F-le critère est affiché dans le tableau lorsqu'il est utilisé Pack d'analyse(option Régression). Résultats complets des travaux Pack d'analyse sont montrés sur la Fig. 4, fragment lié à F-statistiques – sur la Fig. 21.

Riz. 21. Résultats de la candidature F-critères obtenus à l'aide du package d'analyse Excel

La statistique F est de 113,23, et R.-valeur proche de zéro (cellule ImportanceF). Si le niveau de signification α est de 0,05, déterminez la valeur critique F-des distributions avec un et 12 degrés de liberté peuvent être obtenues en utilisant la formule F U=F.OBR(1-0,05;1;12) = 4,7472 (Fig. 22). Parce que le F = 113,23 > F U= 4,7472, et R.-valeur proche de 0< 0,05, нулевая гипотеза H 0 est rejeté, c'est-à-dire La taille d'un magasin est étroitement liée à ses ventes annuelles.

Riz. 22. Test de l'hypothèse de la pente de population à un niveau de signification de 0,05 avec un et 12 degrés de liberté

Intervalle de confiance contenant la pente β 1 . Pour tester l'hypothèse d'une relation linéaire entre les variables, vous pouvez construire un intervalle de confiance contenant la pente β 1 et vérifier que la valeur hypothétique β 1 = 0 appartient à cet intervalle. Le centre de l'intervalle de confiance contenant la pente β 1 est la pente de l'échantillon b 1 , et ses limites sont les quantités b 1 ±tn –2 Sb 1

Comme le montre la fig. 18, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 =ÉTUDIANT.ARV(0,975,12) = 2,1788. Ainsi, b 1 ±tn –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, soit + 1,328 ≤ β 1 ≤ +2,012. Il existe donc une probabilité de 0,95 que la pente de la population se situe entre +1,328 et +2,012 (soit entre 1 328 000 $ et 2 012 000 $). Étant donné que ces valeurs sont supérieures à zéro, il existe une relation linéaire statistiquement significative entre les ventes annuelles et la superficie du magasin. Si l’intervalle de confiance contenait zéro, il n’y aurait aucune relation entre les variables. De plus, l’intervalle de confiance signifie que chaque augmentation de la superficie du magasin de 1 000 m². ft. entraîne une augmentation du volume moyen des ventes comprise entre 1 328 000 $ et 2 012 000 $.

Usaget -critères pour le coefficient de corrélation. le coefficient de corrélation a été introduit r, qui est une mesure de la relation entre deux variables numériques. Il peut être utilisé pour déterminer s’il existe une différence statistique entre deux variables. connexion significative. Notons le coefficient de corrélation entre les populations des deux variables par le symbole ρ. Les hypothèses nulle et alternative sont formulées comme suit : H 0: ρ = 0 (pas de corrélation), H1: ρ ≠ 0 (il existe une corrélation). Vérification de l'existence d'une corrélation :

r = + , Si b 1 > 0, r = – , Si b 1 < 0. Тестовая статистика t Il a t-distribution avec n-2 degrés de liberté.

Dans le problème de la chaîne de magasins Tournesols r2= 0,904, une b1- +1,670 (voir Fig. 4). Parce que le b1> 0, le coefficient de corrélation entre les ventes annuelles et la taille du magasin est r= +√0,904 = +0,951. Testons l'hypothèse nulle selon laquelle il n'y a pas de corrélation entre ces variables en utilisant t-statistiques:

Au niveau de signification de α = 0,05, l’hypothèse nulle doit être rejetée car t= 10,64 > 2,1788. Ainsi, on peut affirmer qu’il existe une relation statistiquement significative entre les ventes annuelles et la taille du magasin.

Lorsqu’on discute des inférences concernant la pente de la population, les intervalles de confiance et les tests d’hypothèses sont utilisés de manière interchangeable. Cependant, le calcul de l'intervalle de confiance contenant le coefficient de corrélation s'avère plus difficile, car le type de distribution d'échantillonnage de la statistique r dépend du véritable coefficient de corrélation.

Estimation de l'espérance mathématique et prédiction de valeurs individuelles

Cette section traite des méthodes d'estimation de l'espérance mathématique d'une réponse Oui et prédictions de valeurs individuelles Oui pour des valeurs données de la variable X.

Construire un intervalle de confiance. Dans l'exemple 2 (voir section ci-dessus Méthode des moindres carrés) l'équation de régression a permis de prédire la valeur de la variable Oui X. Dans le problème du choix d'un lieu pour point de vente volume de ventes annuel moyen dans un magasin d'une superficie de 4000 m². pieds était égal à 7,644 millions de dollars. Cependant, cette estimation des attentes mathématiques de la population générale est ponctuelle. Pour estimer l'espérance mathématique de la population, le concept d'intervalle de confiance a été proposé. De même, nous pouvons introduire le concept intervalle de confiance pour l'espérance mathématique de la réponse pour une valeur de variable donnée X:

, = b 0 + b 1 X je– la valeur prédite est variable Ouià X = X je, SYX– erreur quadratique moyenne, n- taille de l'échantillon, Xje- valeur spécifiée de la variable X, µ Oui|X = Xje– espérance mathématique de la variable Ouià X = XI, SSX =

L'analyse de la formule (13) montre que la largeur de l'intervalle de confiance dépend de plusieurs facteurs. À un niveau de signification donné, une augmentation de l'amplitude des fluctuations autour de la droite de régression, mesurée à l'aide de l'erreur quadratique moyenne, entraîne une augmentation de la largeur de l'intervalle. D’un autre côté, comme on pouvait s’y attendre, une augmentation de la taille de l’échantillon s’accompagne d’un rétrécissement de l’intervalle. De plus, la largeur de l'intervalle change en fonction des valeurs Xje. Si la valeur de la variable Oui prévu pour les quantités X, proche de la valeur moyenne , l'intervalle de confiance s'avère plus étroit que lors de la prédiction de la réponse pour des valeurs éloignées de la moyenne.

Disons que lors du choix d'un emplacement de magasin, nous souhaitons construire un intervalle de confiance de 95 % pour les ventes annuelles moyennes de tous les magasins dont la superficie est de 4 000 mètres carrés. pieds:

Ainsi, le volume annuel moyen des ventes dans tous les magasins d'une superficie de 4 000 m². pieds, avec une probabilité de 95%, se situe entre 6,971 et 8,317 millions de dollars.

Calculez l'intervalle de confiance pour la valeur prédite. En plus de l'intervalle de confiance pour l'espérance mathématique de la réponse pour une valeur donnée de la variable X, il est souvent nécessaire de connaître l'intervalle de confiance de la valeur prédite. Bien que la formule permettant de calculer un tel intervalle de confiance soit très similaire à la formule (13), cet intervalle contient la valeur prédite plutôt que l'estimation du paramètre. Intervalle de réponse prévue OuiX = XI pour une valeur de variable spécifique Xje déterminé par la formule :

Supposons que, lors du choix d'un emplacement pour un point de vente, nous souhaitions construire un intervalle de confiance de 95 % pour le volume de ventes annuel prévu pour un magasin dont la superficie est de 4 000 mètres carrés. pieds:

Par conséquent, le volume de ventes annuel prévu pour un magasin d'une superficie de 4 000 m². pieds, avec une probabilité de 95 %, se situe entre 5,433 et 9,854 millions de dollars. Comme nous pouvons le constater, l'intervalle de confiance pour la valeur de réponse prédite est beaucoup plus large que l'intervalle de confiance pour son espérance mathématique. En effet, la variabilité dans la prédiction des valeurs individuelles est beaucoup plus grande que dans l'estimation de l'espérance mathématique.

Pièges et problèmes éthiques associés à l’utilisation de la régression

Difficultés associées à l'analyse de régression :

  • Ignorer les conditions d’applicabilité de la méthode des moindres carrés.
  • Évaluation erronée des conditions d’applicabilité de la méthode des moindres carrés.
  • Choix incorrect de méthodes alternatives lorsque les conditions d'applicabilité de la méthode des moindres carrés ne sont pas respectées.
  • Application de l'analyse de régression sans connaissance approfondie du sujet de recherche.
  • Extrapoler une régression au-delà de la plage de la variable explicative.
  • Confusion entre relations statistiques et causales.

Large utilisation feuilles de calcul Et logiciel pour les calculs statistiques a éliminé les problèmes de calcul qui empêchaient l'utilisation de l'analyse de régression. Cependant, cela a conduit au fait que l'analyse de régression était utilisée par des utilisateurs qui ne disposaient pas de qualifications et de connaissances suffisantes. Comment les utilisateurs peuvent-ils connaître les méthodes alternatives si beaucoup d’entre eux n’ont aucune idée des conditions d’applicabilité de la méthode des moindres carrés et ne savent pas comment vérifier leur mise en œuvre ?

Le chercheur ne doit pas se laisser emporter par des calculs de chiffres - en calculant le décalage, la pente et le coefficient de corrélation mixte. Il a besoin de connaissances plus approfondies. Illustrons cela avec un exemple classique tiré des manuels scolaires. Anscombe a montré que les quatre ensembles de données présentés dans la Fig. 23, ont les mêmes paramètres de régression (Fig. 24).

Riz. 23. Quatre ensembles de données artificielles

Riz. 24. Analyse de régression de quatre ensembles de données artificielles ; fini avec Pack d'analyse(cliquez sur l'image pour agrandir l'image)

Ainsi, du point de vue de l’analyse de régression, tous ces ensembles de données sont complètement identiques. Si l’analyse s’était arrêtée là, nous aurions perdu beaucoup informations utiles. Ceci est démontré par les nuages ​​de points (Figure 25) et les tracés résiduels (Figure 26) construits pour ces ensembles de données.

Riz. 25. Nuages ​​de points pour quatre ensembles de données

Les nuages ​​de points et les tracés résiduels indiquent que ces données diffèrent les unes des autres. Le seul ensemble distribué le long d’une ligne droite est l’ensemble A. Le tracé des résidus calculés à partir de l’ensemble A n’a aucun motif. On ne peut pas en dire autant des ensembles B, C et D. Le nuage de points tracé pour l’ensemble B montre une tendance quadratique prononcée. Cette conclusion est confirmée par le tracé résiduel, qui a une forme parabolique. Le nuage de points et le tracé des résidus montrent que l'ensemble de données B contient une valeur aberrante. Dans cette situation, il est nécessaire d’exclure la valeur aberrante de l’ensemble de données et de répéter l’analyse. Une méthode permettant de détecter et d’éliminer les valeurs aberrantes dans les observations est appelée analyse d’influence. Après avoir éliminé la valeur aberrante, le résultat de la réestimation du modèle peut être complètement différent. Le nuage de points tracé à partir des données de l'ensemble G illustre une situation inhabituelle dans laquelle le modèle empirique dépend de manière significative d'une réponse individuelle ( X8 = 19, Oui 8 = 12,5). De tels modèles de régression doivent être calculés avec une attention particulière. Ainsi, les nuages ​​de points et les diagrammes résiduels sont extrêmement outil nécessaire analyse de régression et devrait en faire partie intégrante. Sans eux, l’analyse de régression n’est pas crédible.

Riz. 26. Graphiques résiduels pour quatre ensembles de données

Comment éviter les pièges de l'analyse de régression :

  • Analyse des relations possibles entre les variables X Et Oui commencez toujours par dessiner un nuage de points.
  • Avant d'interpréter les résultats de l'analyse de régression, vérifiez les conditions de son applicabilité.
  • Tracez les résidus par rapport à la variable indépendante. Cela permettra de déterminer dans quelle mesure le modèle empirique correspond aux résultats d'observation et de détecter une violation de la constance de la variance.
  • Utilisez des histogrammes, des diagrammes à tiges et à feuilles, des diagrammes en boîte et des diagrammes de distribution normale pour tester l'hypothèse d'une distribution d'erreurs normale.
  • Si les conditions d'applicabilité de la méthode des moindres carrés ne sont pas remplies, utilisez des méthodes alternatives (par exemple, des modèles de régression quadratique ou multiple).
  • Si les conditions d'applicabilité de la méthode des moindres carrés sont remplies, il est nécessaire de tester l'hypothèse sur la signification statistique des coefficients de régression et de construire des intervalles de confiance contenant l'espérance mathématique et la valeur de réponse prédite.
  • Évitez de prédire les valeurs de la variable dépendante en dehors de la plage de la variable indépendante.
  • Gardez à l’esprit que les relations statistiques ne sont pas toujours de cause à effet. N'oubliez pas que la corrélation entre les variables ne signifie pas qu'il existe une relation de cause à effet entre elles.

Résumé. Comme le montre le schéma fonctionnel (Figure 27), la note décrit le modèle de régression linéaire simple, les conditions de son applicabilité et comment tester ces conditions. Considéré t-critère pour tester la signification statistique de la pente de régression. Un modèle de régression a été utilisé pour prédire les valeurs de la variable dépendante. Un exemple est considéré lié au choix de l'emplacement d'un point de vente au détail, dans lequel la dépendance du volume des ventes annuelles sur la superficie du magasin est examinée. Les informations obtenues vous permettent de sélectionner plus précisément un emplacement pour un magasin et de prédire son volume de ventes annuel. Les notes suivantes poursuivront la discussion sur l'analyse de régression et examineront également plusieurs modèles de régression.

Riz. 27. Schéma structurel Remarques

Des documents du livre Levin et al. Statistics for Managers sont utilisés. – M. : Williams, 2004. – p. 792-872

Si la variable dépendante est catégorielle, une régression logistique doit être utilisée.

Le traitement des données statistiques peut également être effectué à l'aide d'un module complémentaire FORFAIT ANALYSE(Fig. 62).

Parmi les éléments suggérés, sélectionnez l'élément " RÉGRESSION" et cliquez dessus avec le bouton gauche de la souris. Ensuite, cliquez sur OK.

Une fenêtre apparaîtra comme le montre la Fig. 63.

Outil d'analyse " RÉGRESSION» est utilisé pour ajuster un graphique à un ensemble d'observations en utilisant la méthode des moindres carrés. La régression est utilisée pour analyser l'impact sur une personne dépendante variable de valeur une ou plusieurs variables indépendantes. Par exemple, plusieurs facteurs influencent la performance sportive d’un athlète, notamment l’âge, la taille et le poids. Il est possible de calculer dans quelle mesure chacun de ces trois facteurs influence la performance d'un athlète, puis d'utiliser ces données pour prédire la performance d'un autre athlète.

L'outil Régression utilise la fonction LIGNE.

Boîte de dialogue RÉGRESSION

Libellés Cochez la case si la première ligne ou la première colonne plage d'entrée contient des en-têtes. Décochez cette case s'il n'y a aucun en-tête. Dans ce cas, des en-têtes appropriés pour les données du tableau de sortie seront créés automatiquement.

Niveau de fiabilité Cochez la case pour inclure un niveau supplémentaire dans le tableau récapitulatif des résultats. Dans le champ approprié, saisissez le niveau de confiance que vous souhaitez appliquer, en plus du niveau par défaut de 95 %.

Constante - zéro Cochez la case pour forcer la droite de régression à passer par l'origine.

Plage de sortie Entrez la référence à la cellule supérieure gauche de la plage de sortie. Fournissez au moins sept colonnes pour le tableau récapitulatif des résultats, qui comprendront : les résultats de l'ANOVA, les coefficients, l'erreur type du calcul Y, les écarts types, le nombre d'observations, les erreurs types pour les coefficients.

Nouvelle feuille de calcul Sélectionnez cette option pour ouvrir une nouvelle feuille de calcul dans le classeur et coller les résultats de l'analyse, en commençant dans la cellule A1. Si nécessaire, saisissez un nom pour la nouvelle feuille dans le champ situé en face du bouton radio correspondant.

Nouveau classeur Placez le commutateur sur cette position pour créer un nouveau classeur dans lequel les résultats seront ajoutés à une nouvelle feuille.

Résidus Cochez la case pour inclure les résidus dans la table de sortie.

Résidus standardisés Cochez la case pour inclure les résidus standardisés dans le tableau de sortie.

Tracé des résidus Cochez la case pour tracer les résidus pour chaque variable indépendante.

Ajuster le tracé Cochez la case pour tracer les valeurs prévues par rapport aux valeurs observées.

Diagramme de probabilité normale Cochez la case pour tracer un graphique de probabilité normale.

Fonction LIGNE

Pour effectuer les calculs, sélectionnez avec le curseur la cellule dans laquelle on souhaite afficher la valeur moyenne et appuyez sur la touche = du clavier. Ensuite, dans le champ Nom, indiquez la fonction souhaitée, Par exemple MOYENNE(Fig. 22).

Fonction LIGNE calcule les statistiques d'une série en utilisant les moindres carrés pour calculer une ligne droite qui la meilleure façon se rapproche des données disponibles, puis renvoie un tableau qui décrit la ligne droite résultante. Vous pouvez également combiner la fonction LIGNE avec d'autres fonctions pour calculer d'autres types de modèles linéaires à paramètres inconnus (dont les paramètres inconnus sont linéaires), notamment les séries polynomiales, logarithmiques, exponentielles et entières. Étant donné qu'un tableau de valeurs est renvoyé, la fonction doit être spécifiée sous forme de formule matricielle.

L'équation d'une droite est :

y=m 1 x 1 +m 2 x 2 +…+b (en cas de plusieurs plages de valeurs x),

où la valeur dépendante y est fonction de la valeur indépendante x, les m valeurs sont les coefficients correspondant à chaque variable indépendante x, et b est une constante. Notez que y, x et m peuvent être des vecteurs. Fonction LIGNE renvoie un tableau(mn;mn-1;…;m 1 ;b). LIGNE peut également renvoyer des statistiques de régression supplémentaires.

LIGNE(known_values_y ; known_values_x ; const ; statistiques)

Known_y_values ​​​​- un ensemble de valeurs y déjà connues pour la relation y=mx+b.

Si le tableau known_y_values ​​​​a une colonne, alors chaque colonne du tableau known_x_values ​​​​est traitée comme une variable distincte.

Si le tableau known_y_values ​​​​a une ligne, alors chaque ligne du tableau known_x_values ​​​​est traitée comme une variable distincte.

Les valeurs x connues sont un ensemble facultatif de valeurs x déjà connues pour la relation y=mx+b.

Le tableau known_x_values ​​​​peut contenir un ou plusieurs ensembles de variables. Si une seule variable est utilisée, alors les tableaux known_y_values ​​​​et known_x_values ​​​​peuvent avoir n'importe quelle forme - à condition qu'ils aient la même dimension. Si plusieurs variables sont utilisées, alors known_y_values ​​​​doit être un vecteur (c'est-à-dire un intervalle d'une ligne de haut ou d'une colonne de large).

Si array_known_x_values ​​​​est omis, alors le tableau (1;2;3;...) est supposé avoir la même taille que array_known_values_y.

Const est une valeur booléenne qui spécifie si la constante b doit être égale à 0.

Si l'argument "const" est VRAI ou omis, alors la constante b est évaluée comme d'habitude.

Si l'argument « const » est FAUX, alors la valeur de b est fixée à 0 et les valeurs de m sont sélectionnées de telle manière que la relation y=mx soit satisfaite.

Statistiques : valeur booléenne qui indique si des statistiques de régression supplémentaires doivent être renvoyées.

Si les statistiques sont VRAI, LINEST renvoie des statistiques de régression supplémentaires. Le tableau renvoyé ressemblera à ceci : (mn;mn-1;...;m1;b:sen;sen-1;...;se1;seb:r2;sey:F;df:ssreg;ssresid).

Si les statistiques sont FALSE ou omises, LINEST renvoie uniquement les coefficients m et la constante b.

Statistiques de régression supplémentaires (tableau 17)

Ordre de grandeur Description
se1,se2,...,sen Valeurs d'erreur standard pour les coefficients m1,m2,...,mn.
Seb Valeur d'erreur standard pour la constante b (seb = #N/A si const est FALSE).
r2 Coefficient de déterminisme. Les valeurs réelles de y et les valeurs obtenues à partir de l'équation de la droite sont comparées ; Sur la base des résultats de la comparaison, le coefficient de déterminisme est calculé, normalisé de 0 à 1. S'il est égal à 1, alors il existe une corrélation complète avec le modèle, c'est-à-dire qu'il n'y a pas de différence entre les valeurs réelles et estimées. de y. Dans le cas contraire, si le coefficient de détermination est 0, cela ne sert à rien d'utiliser l'équation de régression pour prédire les valeurs de y. Pour plus d'informations sur la façon de calculer r2, voir « Notes » à la fin cette section.
sey Erreur type pour estimer y.
F Statistique F ou valeur F observée. La statistique F est utilisée pour déterminer si la relation observée entre une variable dépendante et indépendante est due au hasard.
df Degrés de liberté. Les degrés de liberté sont utiles pour trouver Valeurs F-critiques dans le tableau statistique. Pour déterminer le niveau de confiance du modèle, vous comparez les valeurs du tableau avec la statistique F renvoyée par la fonction LINEST. Pour plus d'informations sur le calcul de df, consultez les « Remarques » à la fin de cette section. Ensuite, l'exemple 4 montre l'utilisation des valeurs F et df.
SSREG Somme des carrés de régression.
ssrésider Somme résiduelle des carrés. Pour plus d'informations sur le calcul de ssreg et ssresid, consultez les « Notes » à la fin de cette section.

La figure ci-dessous montre l'ordre dans lequel les statistiques de régression supplémentaires sont renvoyées (Figure 64).

Remarques:

Toute ligne droite peut être décrite par sa pente et son intersection avec l'axe des y :

Pente (m) : Pour déterminer la pente d'une ligne, généralement notée m, vous devez prendre deux points sur la ligne (x 1 ,y 1) et (x 2 ,y 2) ; la pente sera égale à (y 2 -y 1)/(x 2 -x 1).

Interception Y (b) : L'ordonnée à l'origine d'une ligne, généralement désignée par b, est la valeur y pour le point auquel la ligne coupe l'axe y.

L'équation de la droite est y=mx+b. Si les valeurs de m et b sont connues, alors n'importe quel point de la ligne peut être calculé en remplaçant les valeurs de y ou x dans l'équation. Vous pouvez également utiliser la fonction TENDANCE.

S'il n'y a qu'une seule variable indépendante x, vous pouvez obtenir la pente et l'ordonnée à l'origine directement en utilisant les formules suivantes :

Pente : INDEX(LINEST(known_y_values; known_x_values); 1)

Interception Y : INDEX(LINEST(known_y_values ; known_x_values); 2)

La précision de l'approximation utilisant la ligne droite calculée par la fonction LINEST dépend du degré de dispersion des données. Plus les données sont proches d'une ligne droite, plus le modèle utilisé par la fonction LINEST est précis. La fonction LINEST utilise les moindres carrés pour déterminer le meilleur ajustement aux données. Lorsqu'il n'y a qu'une seule variable indépendante x, m et b sont calculés à l'aide des formules suivantes :

où x et y sont des moyennes d'échantillon, par exemple x = MOYENNE (x_connus) et y = MOYENNE (y_connus).

Les fonctions d'ajustement LINEST et LGRFPRIBL peuvent calculer la ligne droite ou la courbe exponentielle qui correspond le mieux aux données. Cependant, ils ne répondent pas à la question de savoir lequel des deux résultats est le plus approprié pour résoudre le problème. Vous pouvez également évaluer la fonction TREND(known_y_values; known_x_values) pour une ligne droite ou la fonction GROWTH(known_y_values; known_x_values) pour une courbe exponentielle. Ces fonctions, à moins que de nouvelles valeurs x ne soient spécifiées, renvoient un tableau de valeurs y calculées pour les valeurs x réelles le long d'une ligne ou d'une courbe. Vous pourrez ensuite comparer les valeurs calculées avec les valeurs réelles. Vous pouvez également créer des graphiques pour une comparaison visuelle.

En effectuant une analyse de régression, Microsoft Excel calcule pour chaque point le carré de la différence entre la valeur y prévue et la valeur y réelle. La somme de ces carrés des différences est appelée somme résiduelle des carrés (ssresid). Microsoft Excel calcule ensuite la somme totale des carrés (sstotal). Si const = VRAI ou que la valeur de cet argument n'est pas précisée, la somme des carrés totale sera égale à la somme des carrés des différences de vraies valeurs valeurs y et y moyennes. Lorsque const = FALSE, la somme totale des carrés sera égale à la somme des carrés des valeurs y réelles (sans soustraire la valeur y moyenne de la valeur y partielle). La somme des carrés de régression peut alors être calculée comme suit : ssreg = sstotal - ssresid. Plus la somme résiduelle des carrés est petite, plus plus de valeur coefficient de détermination r2, qui montre dans quelle mesure l'équation obtenue par analyse de régression explique les relations entre les variables. Le coefficient r2 est égal à ssreg/sstotal.

Dans certains cas, une ou plusieurs colonnes X (que les valeurs Y et X soient dans les colonnes) n'ont aucune valeur prédicative supplémentaire dans les autres colonnes X. En d'autres termes, la suppression d'une ou plusieurs colonnes X peut entraîner des valeurs Y calculées avec la même précision. Dans ce cas, les colonnes X redondantes seront exclues du modèle de régression. Ce phénomène est appelé « colinéarité » car les colonnes redondantes de X peuvent être représentées comme la somme de plusieurs colonnes non redondantes. La fonction LINEST vérifie la colinéarité et supprime toutes les colonnes X redondantes du modèle de régression si elle les détecte. Les colonnes X supprimées peuvent être identifiées dans la sortie LINEST par un facteur de 0 et une valeur se de 0. La suppression d'une ou plusieurs colonnes comme redondantes modifie la valeur de df car elle dépend du nombre de colonnes X réellement utilisées à des fins prédictives. Pour plus d'informations sur le calcul de df, voir l'exemple 4 ci-dessous. Lorsque df change en raison de la suppression des colonnes redondantes, les valeurs de sey et F changent également. Il n'est pas recommandé d'utiliser souvent la colinéarité. Cependant, il doit être utilisé si certaines colonnes X contiennent 0 ou 1 comme indicateur indiquant si le sujet de l'expérience appartient à un groupe distinct. Si const = TRUE ou si aucune valeur pour cet argument n'est spécifiée, LINEST insère une colonne X supplémentaire pour modéliser le point d'intersection. S'il existe une colonne avec des valeurs de 1 pour les hommes et 0 pour les femmes, et qu'il existe une colonne avec des valeurs de 1 pour les femmes et 0 pour les hommes, alors la dernière colonne est supprimée car ses valeurs peuvent être obtenues. de la colonne « indicateur masculin ».

Le calcul de df pour les cas où X colonnes ne sont pas supprimées du modèle en raison de la colinéarité se produit comme suit : s'il y a k colonnes connues_x et que la valeur const = VRAI ou non spécifiée, alors df = n – k – 1. Si const = FAUX, alors df = n - k. Dans les deux cas, la suppression des colonnes X en raison de la colinéarité augmente la valeur df de 1.

Les formules qui renvoient des tableaux doivent être saisies sous forme de formules matricielles.

Lorsque vous entrez un tableau de constantes comme argument, par exemple known_x_values, vous devez utiliser un point-virgule pour séparer les valeurs sur la même ligne et deux points pour séparer les lignes. Les caractères séparateurs peuvent varier en fonction des paramètres de la fenêtre Langue et paramètres du Panneau de configuration.

Il convient de noter que les valeurs y prédites par l'équation de régression peuvent ne pas être correctes si elles se situent en dehors de la plage des valeurs y utilisées pour définir l'équation.

Algorithme de base utilisé dans la fonction LIGNE, diffère de l'algorithme de la fonction principale INCLINAISON Et SEGMENT DE LIGNE. La différence entre les algorithmes peut conduire à des résultats différents avec des données incertaines et colinéaires. Par exemple, si les points de données de l'argument known_y_values ​​​​sont 0 et que les points de données de l'argument known_x_values ​​​​sont 1, alors :

Fonction LIGNE renvoie une valeur égale à 0. Algorithme de fonction LIGNE est utilisé pour renvoyer des valeurs appropriées pour les données colinéaires, et dans ce cas, au moins une réponse peut être trouvée.

Les fonctions SLOPE et LINE renvoient l'erreur #DIV/0!. L'algorithme des fonctions PENTE et INTERCEPT permet de trouver une seule réponse, mais dans ce cas il peut y en avoir plusieurs.

En plus de calculer des statistiques pour d'autres types de régression, LINEST peut être utilisé pour calculer des plages pour d'autres types de régression en entrant les fonctions des variables x et y sous forme de séries de variables x et y pour LINEST. Par exemple, la formule suivante :

LIGNEST(valeurs_y, valeurs_x^COLONNE($A:$C))

fonctionne en ayant une colonne de valeurs Y et une colonne de valeurs X pour calculer une approximation cubique (polynôme du 3ème degré) de la forme suivante :

y=m 1 x+m 2 x 2 +m 3 x 3 +b

La formule peut être modifiée pour calculer d'autres types de régression, mais dans certains cas, les valeurs de sortie et d'autres statistiques peuvent devoir être ajustées.