Analyse de régression. Régression linéaire simple

CONCLUSION DES RÉSULTATS

Tableau 8.3a. Statistiques de régression
Statistiques de régression
Pluriel R 0,998364
R Carré 0,99673
R carré normalisé 0,996321
Erreur standard 0,42405
Observations 10

Considérons d'abord la partie supérieure calculs présentés dans le tableau 8.3a - statistiques de régression.

La valeur R-carré, également appelée mesure de certitude, caractérise la qualité de la droite de régression résultante. Cette qualité s'exprime par le degré de correspondance entre les données sources et le modèle de régression (données calculées). La mesure de la certitude se situe toujours dans l'intervalle.

Dans la plupart des cas, la valeur R au carré se situe entre ces valeurs, appelées valeurs extrêmes, c'est-à-dire entre zéro et un.

Si la valeur R au carré est proche de un, cela signifie que le modèle construit explique presque toute la variabilité des variables pertinentes. A l’inverse, une valeur R au carré proche de zéro signifie mauvaise qualité modèle construit.

Dans notre exemple, la mesure de certitude est de 0,99673, ce qui indique un très bon ajustement de la droite de régression aux données d'origine.

Pluriel R- coefficient de corrélation multiple R - exprime le degré de dépendance des variables indépendantes (X) et de la variable dépendante (Y).

Le multiple R est égal à racine carréeà partir du coefficient de détermination, cette quantité prend des valeurs comprises entre zéro et un.

Dans une analyse de régression linéaire simple, le multiple R est égal au coefficient de corrélation de Pearson. En effet, le multiple R dans notre cas est égal au coefficient de corrélation de Pearson de l'exemple précédent (0,998364).

Tableau 8.3b. Coefficients de régression
Chances Erreur standard statistique t
Intersection en Y 2,694545455 0,33176878 8,121757129
Variable X 1 2,305454545 0,04668634 49,38177965
* Une version tronquée des calculs est fournie

Considérons maintenant la partie médiane des calculs, présentée dans le tableau 8.3b. Ici, le coefficient de régression b (2,305454545) et le déplacement le long de l'axe des ordonnées sont donnés, c'est-à-dire constante une (2,694545455).

Sur la base des calculs, nous pouvons écrire l’équation de régression comme suit :

Oui= x*2,305454545+2,694545455

Le sens de la relation entre les variables est déterminé en fonction des signes (négatifs ou positifs) coefficients de régression(coefficient b).

Si le signe à Coefficient de régression- positif, la relation entre la variable dépendante et la variable indépendante sera positive. Dans notre cas, le signe du coefficient de régression est positif, donc la relation est également positive.

Si le signe à Coefficient de régression- négatif, la relation entre la variable dépendante et la variable indépendante est négative (inverse).

Dans le tableau 8.3c. Les résultats du calcul des résidus sont présentés. Pour que ces résultats apparaissent dans le rapport, vous devez cocher la case « Résidus » lors de l'exécution de l'outil « Régression ».

RETRAIT DU RESTE

Tableau 8.3c. les restes
Observation Y prédit les restes Balances standards
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

En utilisant cette partie du rapport, nous pouvons voir les écarts de chaque point par rapport à la droite de régression construite. Plus grande valeur absolue

Le but de l’analyse de régression est de mesurer la relation entre une variable dépendante et une (analyse de régression par paires) ou plusieurs (plusieurs) variables indépendantes. Les variables indépendantes sont également appelées variables factorielles, explicatives, déterminantes, régressives et prédictives.

La variable dépendante est parfois appelée variable déterminée, expliquée ou « réponse ». L’utilisation extrêmement répandue de l’analyse de régression dans la recherche empirique n’est pas seulement due au fait qu’elle constitue un outil pratique pour tester des hypothèses. La régression, en particulier la régression multiple, est méthode efficace modélisation et prévision.

Commençons par expliquer les principes de l'analyse de régression avec une méthode plus simple : la méthode des paires.

Analyse de régression appariée

Les premières étapes de l’utilisation de l’analyse de régression seront presque identiques à celles que nous avons suivies pour calculer le coefficient de corrélation. Trois conditions principales pour l'efficacité de l'analyse de corrélation utilisant la méthode Pearson sont la distribution normale des variables, la mesure par intervalles des variables, connexion linéaire entre variables - également pertinent pour la régression multiple. En conséquence, dans un premier temps, des nuages ​​de points sont construits, une analyse statistique et descriptive des variables est effectuée et une ligne de régression est calculée. Comme dans le cadre de l’analyse de corrélation, les droites de régression sont construites selon la méthode des moindres carrés.

Pour illustrer plus clairement les différences entre les deux méthodes d'analyse des données, tournons-nous vers l'exemple déjà évoqué avec les variables « soutien SPS » et « part de la population rurale ». Les données sources sont identiques. La différence entre les nuages ​​de points réside dans le fait que dans l'analyse de régression, il est correct de tracer la variable dépendante - dans notre cas, le « support SPS » sur l'axe Y, alors que dans l'analyse de corrélation, cela n'a pas d'importance. Après avoir nettoyé les valeurs aberrantes, le nuage de points ressemble à ceci :

L'idée fondamentale de l'analyse de régression est que, ayant une tendance générale pour les variables - sous la forme d'une droite de régression - il est possible de prédire la valeur de la variable dépendante, compte tenu des valeurs de la variable indépendante.

Imaginons le mathématique habituel fonction linéaire. Toute ligne droite dans l'espace euclidien peut être décrite par la formule :

où a est une constante qui spécifie le déplacement le long de l'axe des ordonnées ; b est un coefficient qui détermine l'angle d'inclinaison de la ligne.

Connaissant la pente et la constante, vous pouvez calculer (prédire) la valeur de y pour tout x.

Ce fonction la plus simple et a constitué la base du modèle d'analyse de régression avec la mise en garde que nous ne prédirons pas la valeur de y exactement, mais dans un certain intervalle de confiance, c'est-à-dire environ.

La constante est le point d'intersection de la droite de régression et de l'axe y (intersection F, généralement appelée « intercepteur » dans les progiciels statistiques). Dans notre exemple avec le vote pour l'Union des Forces de Droite, sa valeur arrondie sera de 10,55. Le coefficient angulaire b sera d'environ -0,1 (comme dans l'analyse de corrélation, le signe indique le type de connexion - directe ou inverse). Ainsi, le modèle résultant aura la forme SP C = -0,1 x Sel. nous. + 10h55.

ATP = -0,10 x 47 + 10,55 = 5,63.

La différence entre les valeurs originales et prédites s'appelle le reste (nous avons déjà rencontré ce terme, fondamental en statistique, lors de l'analyse des tableaux de contingence). Ainsi, pour le cas de la « République d'Adyguée », le reste sera égal à 3,92 - 5,63 = -1,71. Plus la valeur modulaire du reste est grande, moins la valeur prédite est réussie.

Nous calculons les valeurs prédites et les résidus pour tous les cas :
Événement Assis. nous. Merci

(original)

Merci

(prédit)

les restes
République d'Adyguée 47 3,92 5,63 -1,71 -
République de l'Altaï 76 5,4 2,59 2,81
République du Bachkortostan 36 6,04 6,78 -0,74
La République de Bouriatie 41 8,36 6,25 2,11
La République du Daghestan 59 1,22 4,37 -3,15
La République d'Ingouchie 59 0,38 4,37 3,99
Etc.

L'analyse du rapport entre les valeurs initiales et prédites sert à évaluer la qualité du modèle obtenu et sa capacité prédictive. L'un des principaux indicateurs statistiques de régression est le coefficient de corrélation multiple R - le coefficient de corrélation entre les valeurs originales et prédites de la variable dépendante. Dans l'analyse de régression appariée, il est égal au coefficient de corrélation de Pearson habituel entre les variables dépendantes et indépendantes, dans notre cas - 0,63. Pour interpréter de manière significative un multiple R, il doit être converti en un coefficient de détermination. Cela se fait de la même manière que dans l'analyse de corrélation : par mise au carré. Le coefficient de détermination R au carré (R 2) montre la proportion de variation de la variable dépendante qui est expliquée par la ou les variables indépendantes.

Dans notre cas, R 2 = 0,39 (0,63 2) ; cela signifie que la variable « part de la population rurale » explique environ 40 % de la variation de la variable « soutien SPS ». Plus le coefficient de détermination est grand, plus la qualité du modèle est élevée.

Un autre indicateur de la qualité du modèle est l’erreur type d’estimation. Il s’agit d’une mesure de la mesure dans laquelle les points sont « dispersés » autour de la ligne de régression. La mesure de la propagation des variables d'intervalle est l'écart type. Par conséquent, l’erreur type de l’estimation est l’écart type de la distribution des résidus. Plus sa valeur est élevée, plus la dispersion est grande et plus le modèle est mauvais. Dans notre cas, l'erreur type est de 2,18. C’est de ce montant que notre modèle « se trompera en moyenne » lors de la prévision de la valeur de la variable « soutien SPS ».

Les statistiques de régression incluent également une analyse de variance. Avec son aide, nous découvrons : 1) quelle proportion de la variation (dispersion) de la variable dépendante est expliquée par la variable indépendante ; 2) quelle proportion de la variance de la variable dépendante est expliquée par les résidus (partie inexpliquée) ; 3) quel est le rapport de ces deux quantités (rapport /"). Les statistiques de dispersion sont particulièrement importantes pour les études sur échantillons - elles montrent la probabilité qu'il existe une relation entre les variables indépendantes et dépendantes dans la population. Cependant, pour études continues (comme dans notre exemple), les résultats de l'analyse de la variance ne sont pas utiles. Dans ce cas, ils vérifient si le modèle statistique identifié est causé par une combinaison de circonstances aléatoires, dans quelle mesure il est caractéristique de l'ensemble des conditions dans lesquelles le la population examinée est localisée, c'est-à-dire qu'il est établi que le résultat obtenu n'est pas vrai pour un agrégat général plus large, mais pour le degré de sa régularité, l'absence d'influences aléatoires.

Dans notre cas, les statistiques ANOVA sont les suivantes :

SS df MS F signification
Régresser. 258,77 1,00 258,77 54,29 0.000000001
Reste 395,59 83,00 L,11
Total 654,36

Le rapport F de 54,29 est significatif au niveau 0,0000000001. En conséquence, nous pouvons rejeter en toute confiance l’hypothèse nulle (selon laquelle la relation que nous avons découverte est due au hasard).

Le critère t remplit une fonction similaire, mais en relation avec les coefficients de régression (angulaire et F-intersection). A l’aide du critère /, nous testons l’hypothèse selon laquelle dans la population générale les coefficients de régression sont égaux à zéro. Dans notre cas, nous pouvons à nouveau rejeter en toute confiance l’hypothèse nulle.

Analyse de régression multiple

Le modèle de régression multiple est presque identique au modèle de régression apparié ; la seule différence est que plusieurs variables indépendantes sont incluses séquentiellement dans la fonction linéaire :

Y = b1X1 + b2X2 + …+ bpXp + a.

S'il y a plus de deux variables indépendantes, nous ne pouvons pas avoir une idée visuelle de leur relation ; à cet égard, la régression multiple est moins « visuelle » que la régression par paires. Lorsque vous disposez de deux variables indépendantes, il peut être utile d’afficher les données dans un nuage de points 3D. Dans les logiciels statistiques professionnels (par exemple, Statistica), il existe une option permettant de faire pivoter un graphique en trois dimensions, ce qui vous permet de bien représenter visuellement la structure des données.

Lorsque vous travaillez avec régression multiple, contrairement au hammam, il est nécessaire de déterminer l'algorithme d'analyse. L'algorithme standard inclut tous les prédicteurs disponibles dans le modèle de régression final. Algorithme étape par étape implique l’inclusion (exclusion) séquentielle de variables indépendantes en fonction de leur « poids » explicatif. Méthode étape par étape bon quand il y a de nombreuses variables indépendantes ; il « nettoie » le modèle des prédicteurs franchement faibles, le rendant plus compact et concis.

Une condition supplémentaire pour l'exactitude de la régression multiple (avec l'intervalle, la normalité et la linéarité) est l'absence de multicolinéarité - la présence de fortes corrélations entre variables indépendantes.

L'interprétation des statistiques de régression multiple inclut tous les éléments que nous avons considérés pour le cas de la régression par paires. En outre, les statistiques de l’analyse de régression multiple comportent d’autres éléments importants.

Nous illustrerons le travail avec une régression multiple en utilisant l'exemple de tests d'hypothèses qui expliquent les différences de niveau d'activité électorale entre les régions russes. Des études empiriques spécifiques suggèrent que les niveaux de participation électorale sont influencés par :

Facteur national (variable « population russe » ; opérationnalisée comme la part de la population russe dans les entités constitutives de la Fédération de Russie). On suppose qu'une augmentation de la part de la population russe entraîne une diminution de la participation électorale ;

Facteur d'urbanisation (la variable « population urbaine » ; opérationnalisée comme la part de la population urbaine dans les entités constitutives de la Fédération de Russie ; nous avons déjà travaillé avec ce facteur dans le cadre de l'analyse de corrélation). On suppose qu’une augmentation de la part de la population urbaine entraîne également une diminution de la participation électorale.

La variable dépendante - « intensité de l'activité électorale » (« active ») est opérationnalisée à travers les données de participation moyenne par région aux élections fédérales de 1995 à 2003. Le tableau de données initial pour deux variables indépendantes et une variable dépendante sera le suivant :

Événement Variables
Actifs. Gor. nous. Russie. nous.
République d'Adyguée 64,92 53 68
République de l'Altaï 68,60 24 60
La République de Bouriatie 60,75 59 70
La République du Daghestan 79,92 41 9
La République d'Ingouchie 75,05 41 23
République de Kalmoukie 68,52 39 37
République de Karachay-Tcherkessie 66,68 44 42
République de Carélie 61,70 73 73
République des Komis 59,60 74 57
République de Mari El 65,19 62 47

Etc. (après nettoyage des émissions, il reste 83 cas sur 88)

Statistiques décrivant la qualité du modèle :

1. R multiples = 0,62 ; L carré = 0,38. Ainsi, le facteur national et le facteur urbanisation expliquent ensemble environ 38 % de la variation de la variable « activité électorale ».

2. L'erreur moyenne est de 3,38. C’est exactement à quel point le modèle construit est « erroné en moyenne » lorsqu’il prédit le niveau de participation.

3. Le rapport /l des variations expliquées et inexpliquées est de 25,2 au niveau 0,000000003. L’hypothèse nulle sur le caractère aléatoire des relations identifiées est rejetée.

4. Le critère / pour les coefficients constants et de régression des variables « population urbaine » et « population russe » est significatif au niveau de 0,0000001 ; 0,00005 et 0,007 respectivement. L’hypothèse nulle selon laquelle les coefficients sont aléatoires est rejetée.

Des statistiques supplémentaires utiles pour analyser la relation entre les valeurs originales et prédites de la variable dépendante sont la distance de Mahalanobis et la distance de Cook. Le premier est une mesure de l'unicité du cas (montre dans quelle mesure la combinaison des valeurs de toutes les variables indépendantes pour un cas donné s'écarte simultanément de la valeur moyenne de toutes les variables indépendantes). La seconde est une mesure de l’influence de l’affaire. Différentes observations ont des effets différents sur la pente de la droite de régression, et la distance de Cook peut être utilisée pour les comparer sur cet indicateur. Cela peut être utile lors du nettoyage des valeurs aberrantes (une valeur aberrante peut être considérée comme un cas trop influent).

Dans notre exemple, le Daghestan est un cas unique et influent.

Événement Original

valeurs

Predska

valeurs

les restes Distance

Mahalanobis

Distance
Adyguée 64,92 66,33 -1,40 0,69 0,00
République de l'Altaï 68,60 69.91 -1,31 6,80 0,01
La République de Bouriatie 60,75 65,56 -4,81 0,23 0,01
La République du Daghestan 79,92 71,01 8,91 10,57 0,44
La République d'Ingouchie 75,05 70,21 4,84 6,73 0,08
République de Kalmoukie 68,52 69,59 -1,07 4,20 0,00

Le modèle de régression lui-même a les paramètres suivants : intersection Y (constante) = 75,99 ; b (horizontal) = -0,1 ; Kommersant (nas. russe) = -0,06. Formule finale.

Qu’est-ce que la régression ?

Considérons deux variables continues x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Plaçons les points sur un nuage de points bidimensionnel et disons que nous avons relation linéaire, si les données sont approximées par une ligne droite.

Si nous croyons que oui dépend de X, et des changements dans oui sont causés précisément par des changements dans X, on peut déterminer la droite de régression (régression oui sur X), qui décrit le mieux la relation linéaire entre ces deux variables.

L'usage statistique du mot régression vient du phénomène connu sous le nom de régression vers la moyenne, attribué à Sir Francis Galton (1889).

Il a montré que même si les pères de grande taille ont tendance à avoir des fils de grande taille, la taille moyenne des fils est plus petite que celle de leurs pères de grande taille. La taille moyenne des fils a « régressé » et « reculé » vers la taille moyenne de tous les pères de la population. Ainsi, en moyenne, les pères de grande taille ont des fils plus petits (mais quand même assez grands), et les pères de petite taille ont des fils plus grands (mais quand même assez petits).

Ligne de régression

Une équation mathématique qui estime une droite de régression linéaire simple (par paires) :

X appelée variable indépendante ou prédicteur.

Oui- variable dépendante ou variable réponse. C'est la valeur que nous attendons pour oui(en moyenne) si on connaît la valeur X, c'est à dire. est la "valeur prédite" oui»

  • un- membre libre (intersection) de la ligne d'évaluation ; c'est le sens Oui, Quand x=0(Fig. 1).
  • b- pente ou pente de la ligne estimée ; il représente le montant par lequel Oui augmente en moyenne si on augmente X pour une unité.
  • un Et b sont appelés coefficients de régression de la droite estimée, bien que ce terme soit souvent utilisé uniquement pour b.

La régression linéaire par paires peut être étendue pour inclure plusieurs variables indépendantes ; dans ce cas, on l'appelle régression multiple.

Fig. 1. Ligne de régression linéaire montrant l'ordonnée à l'origine a et la pente b (la quantité Y augmente à mesure que x augmente d'une unité)

Méthode des moindres carrés

Nous effectuons une analyse de régression en utilisant un échantillon d'observations où un Et b- des estimations par échantillon des vrais paramètres (généraux), α et β, qui déterminent la droite de régression linéaire dans la population (population générale).

La plupart méthode simple détermination des coefficients un Et b est méthode des moindres carrés(MNC).

L'ajustement est évalué en examinant les résidus (la distance verticale de chaque point à partir de la ligne, par exemple résidu = observé oui- prédit oui, Riz. 2).

La droite de meilleur ajustement est choisie de manière à ce que la somme des carrés des résidus soit minimale.

Riz. 2. Ligne de régression linéaire avec les résidus représentés (lignes pointillées verticales) pour chaque point.

Hypothèses de régression linéaire

Ainsi, pour chaque valeur observée, le reste est égal à la différence et à la valeur prédite correspondante. Chaque reste peut être positif ou négatif.

Vous pouvez utiliser des résidus pour tester les hypothèses suivantes derrière la régression linéaire :

  • Les résidus sont normalement distribués avec une moyenne de zéro ;

Si les hypothèses de linéarité, de normalité et/ou de variance constante sont discutables, on peut transformer ou et calculer nouvelle ligne régression pour laquelle ces hypothèses sont satisfaites (par exemple, utiliser une transformation logarithmique, etc.).

Valeurs anormales (valeurs aberrantes) et points d'influence

Une observation « influente », si elle est omise, modifie une ou plusieurs estimations des paramètres du modèle (c'est-à-dire la pente ou l'origine).

Une valeur aberrante (une observation qui n'est pas cohérente avec la majorité des valeurs d'un ensemble de données) peut être une observation « influente » et peut être facilement détectée visuellement en inspectant un nuage de points bivarié ou un diagramme résiduel.

Tant pour les observations aberrantes que pour les observations « influentes » (points), des modèles sont utilisés, avec ou sans leur inclusion, et une attention particulière est portée aux changements dans les estimations (coefficients de régression).

Lorsque vous effectuez une analyse, vous ne devez pas automatiquement éliminer les valeurs aberrantes ou les points d'influence, car le simple fait de les ignorer peut affecter les résultats obtenus. Étudiez toujours les raisons de ces valeurs aberrantes et analysez-les.

Hypothèse de régression linéaire

Lors de la construction d'une régression linéaire, l'hypothèse nulle est testée selon laquelle la pente générale de la droite de régression β est égale à zéro.

Si la pente de la droite est nulle, il n’y a pas de relation linéaire entre et : le changement n’affecte pas

Pour tester l'hypothèse nulle selon laquelle la vraie pente est nulle, vous pouvez utiliser l'algorithme suivant :

Calculer la statistique de test égale au rapport , qui est soumis à une distribution avec degrés de liberté, où l'erreur type du coefficient


,

- estimation de la dispersion des résidus.

Généralement, si le seuil de signification est atteint, l’hypothèse nulle est rejetée.


où est le point de pourcentage de la distribution avec degrés de liberté, qui donne la probabilité d'un test bilatéral

C'est l'intervalle qui contient la pente générale avec une probabilité de 95 %.

Pour de grands échantillons, par exemple, nous pouvons approximer une valeur de 1,96 (c'est-à-dire que la statistique du test aura tendance à être distribuée normalement)

Évaluation de la qualité de la régression linéaire : coefficient de détermination R 2

En raison de la relation linéaire et nous nous attendons à ce que cela change à mesure que , et appelons cela la variation due ou expliquée par la régression. La variation résiduelle doit être aussi faible que possible.

Si cela est vrai, alors la majeure partie de la variation sera expliquée par la régression et les points se situeront près de la droite de régression, c'est-à-dire la ligne correspond bien aux données.

La proportion de la variance totale expliquée par la régression est appelée coefficient de détermination, généralement exprimé en pourcentage et noté R2(dans la régression linéaire appariée, c'est la quantité r2, carré du coefficient de corrélation), permet d'évaluer subjectivement la qualité de l'équation de régression.

La différence représente le pourcentage de variance qui ne peut être expliqué par la régression.

Il n’existe aucun test formel à évaluer ; nous devons nous fier à un jugement subjectif pour déterminer la qualité de l’ajustement de la droite de régression.

Application d'une ligne de régression à la prévision

Vous pouvez utiliser une droite de régression pour prédire une valeur à partir d’une valeur située à l’extrémité de la plage observée (n’extrapolez jamais au-delà de ces limites).

Nous prédisons la moyenne des observables qui ont valeur spécifique en substituant cette valeur dans l'équation de la droite de régression.

Donc, si nous prédisons comme Utilisez cette valeur prédite et son erreur standard pour estimer un intervalle de confiance pour la vraie moyenne de la population.

Répétez cette procédure pour différentes tailles vous permet de construire des limites de confiance pour cette ligne. Il s'agit de la bande ou de la zone qui contient la vraie ligne, par exemple à un niveau de confiance de 95 %.

Plans de régression simples

Les plans de régression simples contiennent un prédicteur continu. S'il y a 3 observations avec des valeurs prédictives P, telles que 7, 4 et 9, et que le plan inclut un effet de premier ordre P, alors la matrice du plan X sera

et l'équation de régression utilisant P pour X1 est

Y = b0 + b1P

Si un plan de régression simple contient un effet d'ordre supérieur sur P, tel qu'un effet quadratique, alors les valeurs de la colonne X1 de la matrice de plan seront élevées à la puissance deux :

et l'équation prendra la forme

Y = b0 + b1 P2

Les méthodes de codage contraintes sigma et surparamétrées ne s'appliquent pas aux plans de régression simples et aux autres plans contenant uniquement des prédicteurs continus (car il n'y a tout simplement pas de prédicteurs catégoriels). Quelle que soit la méthode de codage choisie, les valeurs des variables continues sont incrémentées en conséquence et utilisées comme valeurs pour les variables X. Dans ce cas, aucun recodage n’est effectué. De plus, lors de la description des plans de régression, vous pouvez omettre la prise en compte de la matrice de conception X et travailler uniquement avec l'équation de régression.

Exemple : analyse de régression simple

Cet exemple utilise les données présentées dans le tableau :

Riz. 3. Tableau des données initiales.

Données compilées à partir d’une comparaison des recensements de 1960 et 1970 dans 30 comtés sélectionnés au hasard. Les noms de comtés sont présentés sous forme de noms d'observation. Les informations concernant chaque variable sont présentées ci-dessous :

Riz. 4. Tableau des spécifications des variables.

Problème de recherche

Pour cet exemple, la corrélation entre le taux de pauvreté et le degré qui prédit le pourcentage de familles se trouvant en dessous du seuil de pauvreté sera analysée. Par conséquent, nous traiterons la variable 3 (Pt_Poor) comme variable dépendante.

Nous pouvons émettre une hypothèse : l’évolution de la taille de la population et le pourcentage de familles vivant sous le seuil de pauvreté sont liés. Il semble raisonnable de s’attendre à ce que la pauvreté conduise à l’émigration, il y aurait donc une corrélation négative entre le pourcentage de personnes vivant en dessous du seuil de pauvreté et l’évolution de la population. Par conséquent, nous traiterons la variable 1 (Pop_Chng) comme une variable prédictive.

Voir les résultats

Coefficients de régression

Riz. 5. Coefficients de régression de Pt_Poor sur Pop_Chng.

A l'intersection de la ligne Pop_Chng et de la colonne Param. le coefficient non standardisé pour la régression de Pt_Poor sur Pop_Chng est de -0,40374. Cela signifie que pour chaque unité de diminution de la population, il y a une augmentation du taux de pauvreté de 0,40374. Les limites de confiance supérieure et inférieure (par défaut) à 95 % pour ce coefficient non standardisé n'incluent pas zéro, le coefficient de régression est donc significatif au niveau p.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Répartition variable

Les coefficients de corrélation peuvent devenir considérablement surestimés ou sous-estimés si d'importantes valeurs aberrantes sont présentes dans les données. Etudions la répartition de la variable dépendante Pt_Poor par quartier. Pour ce faire, construisons un histogramme de la variable Pt_Poor.

Riz. 6. Histogramme de la variable Pt_Poor.

Comme vous pouvez le constater, la distribution de cette variable diffère sensiblement de la distribution normale. Cependant, même si deux comtés (les deux colonnes de droite) ont un pourcentage de familles se trouvant en dessous du seuil de pauvreté plus élevé que prévu selon une distribution normale, ils semblent se situer « dans la fourchette ».

Riz. 7. Histogramme de la variable Pt_Poor.

Ce jugement est quelque peu subjectif. La règle générale est que les valeurs aberrantes doivent être prises en compte si l'observation (ou les observations) ne se situe pas dans l'intervalle (moyenne ± 3 fois l'écart type). Dans ce cas, il convient de répéter l’analyse avec et sans valeurs aberrantes pour s’assurer qu’elles n’ont pas d’effet majeur sur la corrélation entre les membres de la population.

Nuage de points

Si l’une des hypothèses porte a priori sur la relation entre des variables données, alors il est utile de la tester sur le graphique du nuage de points correspondant.

Riz. 8. Diagramme de dispersion.

Le nuage de points montre une nette corrélation négative (-0,65) entre les deux variables. Il montre également l'intervalle de confiance de 95 % pour la droite de régression, c'est-à-dire qu'il y a une probabilité de 95 % que la droite de régression se situe entre les deux courbes en pointillés.

Critères de signification

Riz. 9. Tableau contenant les critères de signification.

Le test du coefficient de régression Pop_Chng confirme que Pop_Chng est fortement lié à Pt_Poor , p<.001 .

Conclusion

Cet exemple montre comment analyser un plan de régression simple. Des interprétations de coefficients de régression non standardisés et standardisés ont également été présentées. L'importance d'étudier la distribution des réponses d'une variable dépendante est discutée et une technique permettant de déterminer la direction et la force de la relation entre un prédicteur et une variable dépendante est démontrée.

Dans les articles précédents, l'analyse se concentrait souvent sur une seule variable numérique, telle que les rendements des fonds communs de placement, les temps de chargement des pages Web ou la consommation de boissons gazeuses. Dans cette note et les suivantes, nous examinerons les méthodes permettant de prédire les valeurs d'une variable numérique en fonction des valeurs d'une ou plusieurs autres variables numériques.

Le matériel sera illustré par un exemple transversal. Prévision du volume des ventes dans un magasin de vêtements. La chaîne de magasins de vêtements discount Tournesols est en constante expansion depuis 25 ans. Cependant, l’entreprise n’a actuellement pas d’approche systématique pour sélectionner de nouveaux points de vente. Le lieu dans lequel une entreprise a l'intention d'ouvrir un nouveau magasin est déterminé sur la base de considérations subjectives. Les critères de sélection sont des conditions de location avantageuses ou l’idée du gérant quant à l’emplacement idéal du magasin. Imaginez que vous êtes à la tête du service des projets spéciaux et de la planification. Vous avez pour mission d'élaborer un plan stratégique pour l'ouverture de nouveaux magasins. Ce plan doit inclure une prévision des ventes annuelles des magasins nouvellement ouverts. Vous pensez que l'espace de vente au détail est directement lié aux revenus et souhaitez en tenir compte dans votre processus décisionnel. Comment développer un modèle statistique pour prédire les ventes annuelles en fonction de la taille d’un nouveau magasin ?

En règle générale, l'analyse de régression est utilisée pour prédire les valeurs d'une variable. Son objectif est de développer un modèle statistique capable de prédire les valeurs d'une variable dépendante, ou réponse, à partir des valeurs d'au moins une variable indépendante ou explicative. Dans cette note, nous examinerons la régression linéaire simple - une méthode statistique qui vous permet de prédire les valeurs d'une variable dépendante. Oui par valeurs de variables indépendantes X. Les notes suivantes décriront un modèle de régression multiple conçu pour prédire les valeurs d'une variable indépendante Oui basé sur les valeurs de plusieurs variables dépendantes ( X 1, X 2, …, Xk).

Téléchargez la note au format ou, exemples au format

Types de modèles de régression

ρ 1 – coefficient d'autocorrélation ; Si ρ 1 = 0 (pas d'autocorrélation), D≈ 2 ; Si ρ 1 ≈ 1 (autocorrélation positive), D≈ 0 ; Si ρ 1 = -1 (autocorrélation négative), D ≈ 4.

En pratique, l'application du critère de Durbin-Watson repose sur la comparaison de la valeur D avec des valeurs théoriques critiques dL Et dU pour un nombre donné d'observations n, nombre de variables indépendantes du modèle k(pour une régression linéaire simple k= 1) et niveau de signification α. Si D< d L , l'hypothèse de l'indépendance des écarts aléatoires est rejetée (il existe donc une autocorrélation positive) ; Si D>dU, l’hypothèse n’est pas rejetée (c’est-à-dire qu’il n’y a pas d’autocorrélation) ; Si dL< D < d U , il n'existe pas de motifs suffisants pour prendre une décision. Lorsque la valeur calculée D dépasse 2, alors avec dL Et dU Ce n'est pas le coefficient lui-même qui est comparé D, et l'expression (4 – D).

Pour calculer les statistiques Durbin-Watson dans Excel, tournons-nous vers le tableau du bas de la Fig. 14 Retrait du solde. Le numérateur de l'expression (10) est calculé à l'aide de la fonction =SUMMAR(array1;array2) et le dénominateur =SUMMAR(array) (Fig. 16).

Riz. 16. Formules de calcul des statistiques de Durbin-Watson

Dans notre exemple D= 0,883. La question principale est la suivante : quelle valeur de la statistique de Durbin-Watson doit être considérée comme suffisamment petite pour conclure à l’existence d’une autocorrélation positive ? Il faut corréler la valeur de D avec les valeurs critiques ( dL Et dU), en fonction du nombre d'observations n et le niveau de signification α (Fig. 17).

Riz. 17. Valeurs critiques des statistiques de Durbin-Watson (fragment de tableau)

Ainsi, dans le problème du volume des ventes dans un magasin livrant des marchandises à domicile, il existe une variable indépendante ( k= 1), 15 observations ( n= 15) et le niveau de signification α = 0,05. Ainsi, dL= 1,08 et dU= 1,36. Parce que le D = 0,883 < dL= 1,08, il existe une autocorrélation positive entre les résidus, la méthode des moindres carrés ne peut pas être utilisée.

Tester des hypothèses sur la pente et le coefficient de corrélation

Ci-dessus, la régression a été utilisée uniquement à des fins de prévision. Pour déterminer les coefficients de régression et prédire la valeur d’une variable Oui pour une valeur de variable donnée X La méthode des moindres carrés a été utilisée. De plus, nous avons examiné l’erreur quadratique moyenne de l’estimation et le coefficient de corrélation mixte. Si l'analyse des résidus confirme que les conditions d'applicabilité de la méthode des moindres carrés ne sont pas violées et que le modèle de régression linéaire simple est adéquat, sur la base des données de l'échantillon, on peut affirmer qu'il existe une relation linéaire entre les variables du population.

Applicationt -critères de pente. En testant si la pente de population β 1 est égale à zéro, vous pouvez déterminer s'il existe une relation statistiquement significative entre les variables X Et Oui. Si cette hypothèse est rejetée, on peut affirmer qu'entre les variables X Et Oui il existe une relation linéaire. Les hypothèses nulles et alternatives sont formulées comme suit : H 0 : β 1 = 0 (il n'y a pas de dépendance linéaire), H1 : β 1 ≠ 0 (il y a une dépendance linéaire). Prieuré A t-la statistique est égale à la différence entre la pente de l'échantillon et la valeur hypothétique de la pente de la population, divisée par l'erreur quadratique moyenne de l'estimation de la pente :

(11) t = (b 1 β 1 ) / S b 1

b 1 – pente de régression directe sur des données d'échantillon, β1 – pente hypothétique de population directe, et statistiques de test t Il a t-distribution avec n-2 degrés de liberté.

Vérifions s'il existe une relation statistiquement significative entre la taille du magasin et les ventes annuelles à α = 0,05. t-le critère est affiché avec d'autres paramètres lorsqu'il est utilisé Pack d'analyse(option Régression). Les résultats complets du package d’analyse sont présentés dans la Fig. 4, fragment lié aux statistiques t - sur la Fig. 18.

Riz. 18. Résultats de la candidature t

Depuis le nombre de magasins n= 14 (voir Fig. 3), valeur critique t-les statistiques au niveau de signification de α = 0,05 peuvent être trouvées à l'aide de la formule : tL=ETUDIANT.ARV(0,025,12) = –2,1788, où 0,025 est la moitié du niveau de signification et 12 = n – 2; t U=ÉTUDIANT.OBR(0,975,12) = +2,1788.

Parce que le t-statistiques = 10,64 > t U= 2,1788 (Fig. 19), hypothèse nulle H 0 rejeté. D'un autre côté, R.-la valeur pour X= 10,6411, calculé par la formule =1-STUDENT.DIST(D3,12,TRUE), est approximativement égal à zéro, donc l'hypothèse H 0 encore une fois rejeté. Le fait que R.-une valeur presque nulle signifie que s'il n'y avait pas de véritable relation linéaire entre la taille des magasins et les ventes annuelles, il serait pratiquement impossible de la détecter à l'aide d'une régression linéaire. Il existe donc une relation linéaire statistiquement significative entre les ventes annuelles moyennes des magasins et la taille des magasins.

Riz. 19. Test de l'hypothèse sur la pente de population à un niveau de signification de 0,05 et 12 degrés de liberté

ApplicationF -critères de pente. Une approche alternative pour tester les hypothèses sur la pente de la régression linéaire simple consiste à utiliser F-critères. Rappelons que F-test est utilisé pour tester la relation entre deux variances (pour plus de détails, voir). Lors du test de l'hypothèse de la pente, la mesure des erreurs aléatoires est la variance d'erreur (la somme des erreurs quadratiques divisée par le nombre de degrés de liberté), donc F-critère utilise le rapport de la variance expliquée par la régression (c'est-à-dire la valeur RSS, divisé par le nombre de variables indépendantes k), à la variance d'erreur ( MSE = SYX 2 ).

Prieuré A F-la statistique est égale au carré moyen de régression (MSR) divisé par la variance d'erreur (MSE) : F = MSR/ MSE, Où MSR=RSS / k, MSE =ESS/(n– k – 1), k– nombre de variables indépendantes dans le modèle de régression. Statistiques des tests F Il a F-distribution avec k Et n– k – 1 degrés de liberté.

Pour un niveau de signification α donné, la règle de décision est formulée comme suit : si F>FU, l'hypothèse nulle est rejetée ; V sinon elle ne dévie pas. Les résultats, présentés sous forme d’un tableau récapitulatif de l’analyse de variance, sont présentés dans la Fig. 20.

Riz. 20. Tableau d'analyse de variance pour tester l'hypothèse sur la signification statistique du coefficient de régression

De même t-critère F-le critère est affiché dans le tableau lorsqu'il est utilisé Pack d'analyse(option Régression). Résultats complets des travaux Pack d'analyse sont montrés sur la Fig. 4, fragment lié à F-statistiques – sur la Fig. 21.

Riz. 21. Résultats de la candidature F-critères obtenus à l'aide du package d'analyse Excel

La statistique F est de 113,23, et R.-valeur proche de zéro (cellule ImportanceF). Si le niveau de signification α est de 0,05, déterminez la valeur critique F-des distributions avec un et 12 degrés de liberté peuvent être obtenues en utilisant la formule F U=F.OBR(1-0,05;1;12) = 4,7472 (Fig. 22). Parce que le F = 113,23 > F U= 4,7472, et R.-valeur proche de 0< 0,05, нулевая гипотеза H 0 est rejeté, c'est-à-dire La taille d'un magasin est étroitement liée à ses ventes annuelles.

Riz. 22. Test de l'hypothèse de la pente de population à un niveau de signification de 0,05 avec un et 12 degrés de liberté

Intervalle de confiance contenant la pente β 1 . Pour tester l'hypothèse d'une relation linéaire entre les variables, vous pouvez construire un intervalle de confiance contenant la pente β 1 et vérifier que la valeur hypothétique β 1 = 0 appartient à cet intervalle. Le centre de l'intervalle de confiance contenant la pente β 1 est la pente de l'échantillon b 1 , et ses limites sont les quantités b 1 ±tn –2 S b 1

Comme le montre la fig. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =ÉTUDIANT.ARV(0,975,12) = 2,1788. Ainsi, b 1 ±tn –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, soit + 1,328 ≤ β 1 ≤ +2,012. Il existe donc une probabilité de 0,95 que la pente de la population se situe entre +1,328 et +2,012 (soit entre 1 328 000 $ et 2 012 000 $). Étant donné que ces valeurs sont supérieures à zéro, il existe une relation linéaire statistiquement significative entre les ventes annuelles et la superficie du magasin. Si l’intervalle de confiance contenait zéro, il n’y aurait aucune relation entre les variables. De plus, l’intervalle de confiance signifie que chaque augmentation de la superficie du magasin de 1 000 m². ft. entraîne une augmentation du volume moyen des ventes comprise entre 1 328 000 $ et 2 012 000 $.

Usaget -critères pour le coefficient de corrélation. le coefficient de corrélation a été introduit r, qui est une mesure de la relation entre deux variables numériques. Il peut être utilisé pour déterminer s’il existe une différence statistique entre deux variables. connexion significative. Notons le coefficient de corrélation entre les populations des deux variables par le symbole ρ. Les hypothèses nulle et alternative sont formulées comme suit : H 0: ρ = 0 (pas de corrélation), H1: ρ ≠ 0 (il existe une corrélation). Vérification de l'existence d'une corrélation :

r = + , Si b 1 > 0, r = – , Si b 1 < 0. Тестовая статистика t Il a t-distribution avec n-2 degrés de liberté.

Dans le problème de la chaîne de magasins Tournesols r2= 0,904, une b1- +1,670 (voir Fig. 4). Parce que le b1> 0, le coefficient de corrélation entre les ventes annuelles et la taille du magasin est r= +√0,904 = +0,951. Testons l'hypothèse nulle selon laquelle il n'y a pas de corrélation entre ces variables en utilisant t-statistiques:

Au niveau de signification de α = 0,05, l’hypothèse nulle doit être rejetée car t= 10,64 > 2,1788. Ainsi, on peut affirmer qu’il existe une relation statistiquement significative entre les ventes annuelles et la taille du magasin.

Lorsqu’on discute des inférences concernant la pente de la population, les intervalles de confiance et les tests d’hypothèses sont utilisés de manière interchangeable. Cependant, le calcul de l'intervalle de confiance contenant le coefficient de corrélation s'avère plus difficile, car le type de distribution d'échantillonnage de la statistique r dépend du véritable coefficient de corrélation.

Estimation de l'espérance mathématique et prédiction de valeurs individuelles

Cette section traite des méthodes d'estimation de l'espérance mathématique d'une réponse Oui et prédictions de valeurs individuelles Oui pour des valeurs données de la variable X.

Construire un intervalle de confiance. Dans l'exemple 2 (voir section ci-dessus Méthode des moindres carrés) l'équation de régression a permis de prédire la valeur de la variable Oui X. Dans le problème du choix d'un lieu pour point de vente volume de ventes annuel moyen dans un magasin d'une superficie de 4000 m². pieds était égal à 7,644 millions de dollars. Cependant, cette estimation des attentes mathématiques de la population générale est ponctuelle. Pour estimer l'espérance mathématique de la population, le concept d'intervalle de confiance a été proposé. De même, nous pouvons introduire le concept intervalle de confiance pour l'espérance mathématique de la réponse pour une valeur de variable donnée X:

, = b 0 + b 1 X je– la valeur prédite est variable Ouià X = X je, SYX– erreur quadratique moyenne, n- taille de l'échantillon, Xje- valeur spécifiée de la variable X, µ Oui|X = Xje– espérance mathématique de la variable Ouià X = XI, SSX =

L'analyse de la formule (13) montre que la largeur de l'intervalle de confiance dépend de plusieurs facteurs. À un niveau de signification donné, une augmentation de l'amplitude des fluctuations autour de la droite de régression, mesurée à l'aide de l'erreur quadratique moyenne, entraîne une augmentation de la largeur de l'intervalle. D’un autre côté, comme on pouvait s’y attendre, une augmentation de la taille de l’échantillon s’accompagne d’un rétrécissement de l’intervalle. De plus, la largeur de l'intervalle change en fonction des valeurs Xje. Si la valeur de la variable Oui prévu pour les quantités X, proche de la valeur moyenne , l'intervalle de confiance s'avère plus étroit que lors de la prédiction de la réponse pour des valeurs éloignées de la moyenne.

Disons que lors du choix d'un emplacement de magasin, nous souhaitons construire un intervalle de confiance de 95 % pour les ventes annuelles moyennes de tous les magasins dont la superficie est de 4 000 mètres carrés. pieds:

Ainsi, le volume annuel moyen des ventes dans tous les magasins d'une superficie de 4 000 m². pieds, avec une probabilité de 95%, se situe entre 6,971 et 8,317 millions de dollars.

Calculez l'intervalle de confiance pour la valeur prédite. En plus de l'intervalle de confiance pour l'espérance mathématique de la réponse pour une valeur donnée de la variable X, il est souvent nécessaire de connaître l'intervalle de confiance de la valeur prédite. Bien que la formule permettant de calculer un tel intervalle de confiance soit très similaire à la formule (13), cet intervalle contient la valeur prédite plutôt que l'estimation du paramètre. Intervalle de réponse prévue OuiX = XI pour une valeur de variable spécifique Xje déterminé par la formule :

Supposons que, lors du choix d'un emplacement pour un point de vente, nous souhaitions construire un intervalle de confiance de 95 % pour le volume de ventes annuel prévu pour un magasin dont la superficie est de 4 000 mètres carrés. pieds:

Par conséquent, le volume de ventes annuel prévu pour un magasin d'une superficie de 4 000 m². pieds, avec une probabilité de 95 %, se situe entre 5,433 et 9,854 millions de dollars. Comme nous pouvons le constater, l'intervalle de confiance pour la valeur de réponse prédite est beaucoup plus large que l'intervalle de confiance pour son espérance mathématique. En effet, la variabilité dans la prédiction des valeurs individuelles est beaucoup plus grande que dans l'estimation de l'espérance mathématique.

Pièges et problèmes éthiques associés à l’utilisation de la régression

Difficultés associées à l'analyse de régression :

  • Ignorer les conditions d’applicabilité de la méthode des moindres carrés.
  • Évaluation erronée des conditions d’applicabilité de la méthode des moindres carrés.
  • Choix incorrect de méthodes alternatives lorsque les conditions d'applicabilité de la méthode des moindres carrés ne sont pas respectées.
  • Application de l'analyse de régression sans connaissance approfondie du sujet de recherche.
  • Extrapoler une régression au-delà de la plage de la variable explicative.
  • Confusion entre relations statistiques et causales.

Large utilisation feuilles de calcul Et logiciel pour les calculs statistiques a éliminé les problèmes de calcul qui empêchaient l'utilisation de l'analyse de régression. Cependant, cela a conduit au fait que l'analyse de régression était utilisée par des utilisateurs qui ne disposaient pas de qualifications et de connaissances suffisantes. Comment les utilisateurs peuvent-ils connaître les méthodes alternatives si beaucoup d’entre eux n’ont aucune idée des conditions d’applicabilité de la méthode des moindres carrés et ne savent pas comment vérifier leur mise en œuvre ?

Le chercheur ne doit pas se laisser emporter par des calculs de chiffres - en calculant le décalage, la pente et le coefficient de corrélation mixte. Il a besoin de connaissances plus approfondies. Illustrons cela avec un exemple classique tiré des manuels scolaires. Anscombe a montré que les quatre ensembles de données présentés dans la Fig. 23, ont les mêmes paramètres de régression (Fig. 24).

Riz. 23. Quatre ensembles de données artificielles

Riz. 24. Analyse de régression quatre ensembles de données artificielles ; fini avec Pack d'analyse(cliquez sur l'image pour agrandir l'image)

Ainsi, du point de vue de l’analyse de régression, tous ces ensembles de données sont complètement identiques. Si l’analyse s’était arrêtée là, nous aurions perdu beaucoup informations utiles. Ceci est démontré par les nuages ​​de points (Figure 25) et les tracés résiduels (Figure 26) construits pour ces ensembles de données.

Riz. 25. Nuages ​​de points pour quatre ensembles de données

Les nuages ​​de points et les tracés résiduels indiquent que ces données diffèrent les unes des autres. Le seul ensemble distribué le long d’une ligne droite est l’ensemble A. Le tracé des résidus calculés à partir de l’ensemble A n’a aucun motif. On ne peut pas en dire autant des ensembles B, C et D. Le nuage de points tracé pour l’ensemble B montre une tendance quadratique prononcée. Cette conclusion est confirmée par le tracé résiduel, qui a une forme parabolique. Le nuage de points et le tracé des résidus montrent que l'ensemble de données B contient une valeur aberrante. Dans cette situation, il est nécessaire d’exclure la valeur aberrante de l’ensemble de données et de répéter l’analyse. Une méthode permettant de détecter et d’éliminer les valeurs aberrantes dans les observations est appelée analyse d’influence. Après avoir éliminé la valeur aberrante, le résultat de la réestimation du modèle peut être complètement différent. Le nuage de points tracé à partir des données de l'ensemble G illustre une situation inhabituelle dans laquelle le modèle empirique dépend de manière significative d'une réponse individuelle ( X8 = 19, Oui 8 = 12,5). De tels modèles de régression doivent être calculés avec une attention particulière. Ainsi, les nuages ​​de points et les diagrammes résiduels sont extrêmement outil nécessaire analyse de régression et devrait en faire partie intégrante. Sans eux, l’analyse de régression n’est pas crédible.

Riz. 26. Graphiques résiduels pour quatre ensembles de données

Comment éviter les pièges de l'analyse de régression :

  • Analyse des relations possibles entre les variables X Et Oui commencez toujours par dessiner un nuage de points.
  • Avant d'interpréter les résultats de l'analyse de régression, vérifiez les conditions de son applicabilité.
  • Tracez les résidus par rapport à la variable indépendante. Cela permettra de déterminer dans quelle mesure le modèle empirique correspond aux résultats d'observation et de détecter une violation de la constance de la variance.
  • Utilisez des histogrammes, des diagrammes à tiges et à feuilles, des diagrammes en boîte et des diagrammes de distribution normale pour tester l'hypothèse d'une distribution d'erreurs normale.
  • Si les conditions d'applicabilité de la méthode des moindres carrés ne sont pas remplies, utilisez des méthodes alternatives (par exemple, des modèles de régression quadratique ou multiple).
  • Si les conditions d'applicabilité de la méthode des moindres carrés sont remplies, il est nécessaire de tester l'hypothèse sur la signification statistique des coefficients de régression et de construire des intervalles de confiance contenant l'espérance mathématique et la valeur de réponse prédite.
  • Évitez de prédire les valeurs de la variable dépendante en dehors de la plage de la variable indépendante.
  • Gardez à l’esprit que les relations statistiques ne sont pas toujours de cause à effet. N'oubliez pas que la corrélation entre les variables ne signifie pas qu'il existe une relation de cause à effet entre elles.

Résumé. Comme le montre le schéma fonctionnel (Figure 27), la note décrit le modèle de régression linéaire simple, les conditions de son applicabilité et comment tester ces conditions. Considéré t-critère pour tester la signification statistique de la pente de régression. Un modèle de régression a été utilisé pour prédire les valeurs de la variable dépendante. Un exemple est considéré lié au choix de l'emplacement d'un point de vente au détail, dans lequel la dépendance du volume des ventes annuelles sur la superficie du magasin est examinée. Les informations obtenues vous permettent de sélectionner plus précisément un emplacement pour un magasin et de prédire son volume de ventes annuel. Les notes suivantes poursuivront la discussion sur l'analyse de régression et examineront également plusieurs modèles de régression.

Riz. 27. Schéma structurel Remarques

Des documents du livre Levin et al. Statistics for Managers sont utilisés. – M. : Williams, 2004. – p. 792-872

Si la variable dépendante est catégorielle, une régression logistique doit être utilisée.

  • Didacticiel

Statistiques en Dernièrement a reçu un puissant soutien de relations publiques de la part de disciplines plus récentes et plus bruyantes - Apprentissage automatique Et Big Data. Ceux qui veulent surfer sur cette vague doivent se lier d'amitié avec équations de régression. Il est conseillé non seulement d'apprendre 2-3 astuces et de réussir l'examen, mais aussi d'être capable de résoudre des problèmes de Vie courante: trouver la relation entre les variables, et idéalement être capable de distinguer le signal du bruit.



Pour cela, nous utiliserons un langage de programmation et un environnement de développement R., ce qui est parfaitement adapté à de telles tâches. En même temps, vérifions ce qui détermine la note Habrapost sur la base des statistiques de ses propres articles.

Introduction à l'analyse de régression

S'il existe une corrélation entre les variables y et x, il est nécessaire de déterminer la relation fonctionnelle entre les deux quantités. La dépendance de la valeur moyenne est appelée régression de y sur x.


La base de l’analyse de régression est méthode des moindres carrés (LSM), selon laquelle l'équation de régression est considérée comme une fonction telle que la somme des carrés des différences soit minimale.



Carl Gauss a découvert, ou plutôt recréé, le MNC à l'âge de 18 ans, mais les résultats ont été publiés pour la première fois par Legendre en 1805. Selon des données non vérifiées, la méthode était connue dans la Chine ancienne, d'où elle a migré vers le Japon et n'est ensuite arrivée qu'à L'Europe . Les Européens ne l'ont pas caché et l'ont mis en production avec succès, l'utilisant pour découvrir la trajectoire de la planète naine Cérès en 1801.


Le type de fonction est, en règle générale, déterminé à l'avance et est sélectionné à l'aide des moindres carrés. valeurs optimales paramètres inconnus. La métrique de la dispersion des valeurs autour d'une régression est la variance.


  • k est le nombre de coefficients dans le système d'équations de régression.

Le modèle de régression linéaire est le plus souvent utilisé, et toutes les dépendances non linéaires conduisent à forme linéaire en utilisant des astuces algébriques et diverses transformations des variables y et x.

Régression linéaire

Les équations de régression linéaire peuvent s'écrire sous la forme



Sous forme matricielle, cela ressemblera à


  • y - variable dépendante ;
  • x - variable indépendante ;
  • β - coefficients qui doivent être trouvés à l'aide des moindres carrés ;
  • ε - erreur, erreur inexpliquée et écart par rapport à la dépendance linéaire ;


Une variable aléatoire peut être interprétée comme une somme de deux termes :



Un autre concept clé est le coefficient de corrélation R 2 .


Limites de la régression linéaire

Afin d'utiliser un modèle de régression linéaire, certaines hypothèses sont nécessaires concernant la distribution et les propriétés des variables.



Comment détecter que les conditions ci-dessus ne sont pas remplies ? Eh bien, premièrement, cela est souvent visible à l’œil nu sur la carte.


Hétérogénéité de la dispersion


À mesure que la variance augmente avec la variable indépendante, nous obtenons un graphique en forme d'entonnoir.



Dans certains cas, la régression non linéaire peut également être clairement visible sur le graphique.


Néanmoins, il existe des moyens formels assez stricts pour déterminer si les conditions de la régression linéaire sont remplies ou violées.




Dans cette formule - le coefficient de détermination mutuelle entre et d'autres facteurs. Si au moins un des VIF est > 10, il est tout à fait raisonnable de supposer la présence d'une multicolinéarité.


Pourquoi est-il si important pour nous de respecter toutes les conditions ci-dessus ? C'est a propos de Théorème de Gauss-Markov, selon lequel l'estimation OLS n'est précise et efficace que si ces restrictions sont respectées.

Comment surmonter ces limitations

La violation d’une ou plusieurs restrictions n’est pas une condamnation à mort.

  1. La non-linéarité de la régression peut être surmontée en transformant les variables, par exemple via la fonction logarithme népérien ln.
  2. De la même manière, il est possible de résoudre le problème de la variance hétérogène, en utilisant des transformations ln ou sqrt de la variable dépendante, ou en utilisant les MCO pondérés.
  3. Pour éliminer le problème de multicolinéarité, la méthode d'élimination des variables est utilisée. Son essence est que les variables explicatives hautement corrélées sont éliminées de la régression, et il est réévalué. Le critère de sélection des variables à exclure est le coefficient de corrélation. Il existe une autre manière de résoudre ce problème : remplacer les variables intrinsèquement multicolinéaires par leur combinaison linéaire. Cette liste n'est pas exhaustive, il y en a d'autres régression pas à pas et d'autres méthodes.

Malheureusement, toutes les violations de conditions et défauts de la régression linéaire ne peuvent pas être éliminés à l’aide du logarithme népérien. S'il y a autocorrélation des perturbations par exemple, il vaut mieux prendre du recul et construire un nouveau et meilleur modèle.

Régression linéaire des avantages sur Habré

Donc, assez de bagage théorique et vous pouvez construire le modèle lui-même.
Je suis depuis longtemps curieux de savoir de quoi dépend ce petit chiffre vert, qui indique la note d’un article sur Habré. Après avoir collecté toutes les statistiques disponibles sur mes propres publications, j'ai décidé de les exécuter via un modèle de régression linéaire.


Charge les données à partir d'un fichier tsv.


>historique<- read.table("~/habr_hist.txt", header=TRUE) >histoire
points lit comm favoris fb octets 31 11937 29 19 13 10265 93 34122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 4 6 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
  • points- Évaluation des articles
  • lit- Nombre de vues.
  • communication- Nombre de commentaires.
  • favoris- Ajouté aux favoris.
  • Facebook- Partagé sur dans les réseaux sociaux(fb + vk).
  • octets- Longueur en octets.

Contrôle de multicolinéarité.


> cor(hist) points lit comm faves fb octets points 1,0000000 0,5641858 0,61489369 0,24104452 0,61696653 0,19502379 lit 0,5641858 1,0000000 0,54785197 0,574511 8 9 0,57092464 0,24359202 comm 0,6148937 0,5478520 1,00000000 -0,01511207 0,51551030 0,08829029 favoris 0,2410445 0,5745119 -0,01511207 1,0 0000000 0,23659894 0,14583018 fb 0,6169665 0,5709246 0,51551030 0,23659894 1,00000000 0,06782256 octets 0,1950238 0,2435920 0,08829029 0,14583018 0,06782256 1,00000000

Contrairement à mes attentes plus grand retour pas sur le nombre de vues de l'article, mais à partir de commentaires et de publications sur les réseaux sociaux. Je pensais également que le nombre de points de vue et de commentaires aurait une corrélation plus forte, mais la relation est assez modérée - il n'est pas nécessaire d'exclure aucune des variables indépendantes.


Maintenant le modèle lui-même, nous utilisons la fonction lm.


modèle régulier<- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Interception) 1,029e+01 7,198e+00 1,430 0,1608 lectures 8,832e-05 3,158e-04 0,280 0,7812 comm 1,356e-01 5,218e-02 2,598 0,0131 * favoris 2,740e-02 3.492e-02 0.785 0,4374 fb 1.162e-01 4.691e-02 2,476 0,0177 * octets 3.960e-04 4.219e-04 0,939 0,3537 --- Signif. codes : 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Erreur type résiduelle : 16,65 sur 39 degrés de liberté R-carré multiple : 0,5384, R-carré ajusté : 0,4792 F- statistique : 9,099 sur 5 et 39 DF, valeur p : 8,476e-06

Dans la première ligne, nous définissons les paramètres de régression linéaire. Points de ligne ~. définit les points de variable dépendante et toutes les autres variables comme régresseurs. Vous pouvez définir une seule variable indépendante via des points ~ reads, un ensemble de variables - points ~ reads + comm.


Passons maintenant au décryptage des résultats obtenus.




Vous pouvez essayer d'améliorer quelque peu le modèle en lissant les facteurs non linéaires : commentaires et publications sur les réseaux sociaux. Remplaçons les valeurs des variables fb et comm par leurs puissances.


> hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)

Vérifions les valeurs des paramètres de régression linéaire.


>modèle régulier<- lm(points ~., data = hist) >résumé (regmodel) Appel : lm (formule = points ~ ., données = hist) Résidus : Min 1Q Médiane 3Q Max -22,972 -11,362 -0,603 7,977 49,549 Coefficients : Estimation Std. Erreur T Valeur PR (> | T |) (interception) 2,823E+00 7,305e+00 0,387 0,70123 Lectures -6,278e-05 3,227E-04,195 0,84674 Comm 1,436E-01 2,938 0,0052 ** FAVESS 2,753e-02 3,4 21e -02 0,805 0,42585 fb 1,601e+00 5,575e-01 2,872 0,00657 ** octets 2,688e-04 4,108e-04 0,654 0,51677 --- Signif. codes : 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 ' ' 1 Erreur type résiduelle : 16,21 sur 39 degrés de liberté R-carré multiple : 0,5624, R-carré ajusté : 0,5062 F- statistique : 10,02 sur 5 et 39 DF, valeur p : 3,186e-06

Comme on peut le voir, en général, la réactivité du modèle a augmenté, les paramètres se sont resserrés et sont devenus plus soyeux, les statistiques F ont augmenté, ainsi que le coefficient de détermination ajusté.


Vérifions si les conditions d'applicabilité du modèle de régression linéaire sont remplies ? Le test de Durbin-Watson teste l'autocorrélation des perturbations.


> dwtest(hist$points ~., data = hist) Données du test Durbin-Watson : hist$points ~ . DW = 1,585, valeur p = 0,07078 hypothèse alternative : la véritable autocorrélation est supérieure à 0

Et enfin, vérifier l'hétérogénéité de la variance à l'aide du test de Breusch-Pagan.


> bptest(hist$points ~., data = hist) données du test de Breusch-Pagan studentisé : hist$points ~ . BP = 6,5315, df = 5, valeur p = 0,2579

Enfin

Bien entendu, notre modèle de régression linéaire pour les évaluations des sujets Habr n’a pas été le plus efficace. Nous n’avons pu expliquer que la moitié de la variabilité des données. Les facteurs doivent être corrigés afin d'éliminer la dispersion hétérogène ; l'autocorrélation n'est pas non plus claire. En général, il n’existe pas suffisamment de données pour procéder à une évaluation sérieuse.


Mais d'un autre côté, c'est bien. Sinon, tout message de troll écrit à la hâte sur Habré recevrait automatiquement une note élevée, mais heureusement ce n'est pas le cas.

Matériaux utilisés

  1. Kobzar A.I. Appliqué statistiques mathématiques. - M. : Fizmatlit, 2006.
  2. William H. Green Analyse économétrique

Balises : Ajouter des balises