Friday 21 July 2017

Maximale Anzahl Der Regressoren In Stata Forex


Ich versuche, eine Panel-Regression mit über 11.000 Dummy-Interaktion Terme laufen. Meine Regression sieht so aus: wo i. countyi. year die Interaktion von Dummy-Variablen darstellt. Weder Stata, noch Matlab, noch R werden diese Variablen halten. Ich bin nicht sicher, wenn theres ein Befehl, die Anzahl der gespeicherten Variablen (z. B. a - set matsize-Befehl in stata) zu erhöhen, dass ich fehle. Ich weiß, dass die maximale Kapazität für Stata-Matrizen 11.000 Variablen ist. Wie kann ich diese Fixed-Effects-Regression in Stata Is Mata eine Option hier gefragt Mai 11 13 at 18: 11Lineare Regressionsanalyse mit Stata Einführung Lineare Regression, auch als einfache lineare Regression oder bivariate lineare Regression bekannt, wird verwendet, wenn wir vorhersagen wollen Der Wert einer abhängigen Variablen, basierend auf dem Wert einer unabhängigen Variablen. Beispielsweise könnten Sie die lineare Regression verwenden, um zu verstehen, ob die Prüfungsleistung aufgrund der Revisionszeit vorhergesagt werden kann (dh Ihre abhängige Variable wäre die Prüfungsleistung, gemessen von 0-100 Mark und Ihre unabhängige Variable wäre die Revisionszeit in Stunden) . Alternativ können Sie die lineare Regression verwenden, um zu verstehen, ob der Zigarettenkonsum aufgrund der Dauer des Rauchens vorhergesagt werden kann (dh Ihre abhängige Variable wäre Zigarettenkonsum, gemessen an der Anzahl der täglich verbrauchten Zigaretten, und Ihre unabhängige Variable würde die Dauer des Rauchens betragen in Tagen). Wenn Sie zwei oder mehr unabhängige Variablen und nicht nur einen haben, müssen Sie mehrere Regression verwenden. Alternativ, wenn Sie nur wollen, um festzustellen, ob eine lineare Beziehung existiert, könnten Sie Pearsons Korrelation. Hinweis: Die abhängige Variable wird auch als Ergebnis-, Ziel - oder Kriteriumvariable bezeichnet, während die unabhängige Variable auch als Prädiktor-, Erklärungs - oder Regressor-Variable bezeichnet wird. Letztlich, je nachdem, welcher Begriff Sie verwenden, ist es am besten, konsistent zu sein. Wir werden auf diese als abhängige und unabhängige Variablen in diesem Leitfaden zu verweisen. In dieser Anleitung zeigen wir Ihnen, wie Sie mit Stata eine lineare Regression durchführen und die Ergebnisse aus diesem Test interpretieren und berichten. Bevor wir Ihnen dieses Verfahren vorstellen, müssen Sie jedoch die unterschiedlichen Annahmen verstehen, die Ihre Daten erfüllen müssen, damit die lineare Regression Ihnen ein gültiges Ergebnis liefert. Wir diskutieren diese Annahmen als nächstes. Annahmen Es gibt sieben Annahmen, die eine lineare Regression untermauern. Wenn eine dieser sieben Annahmen nicht erfüllt ist, können Sie Ihre Daten nicht linear analysieren, da Sie kein gültiges Ergebnis erhalten. Da die Annahmen 1 und 2 sich auf Ihre Wahl der Variablen beziehen, können sie nicht für die Verwendung von Stata getestet werden. Allerdings sollten Sie entscheiden, ob Ihre Studie erfüllt diese Annahmen, bevor Sie fortfahren. Annahme 1: Ihre abhängige Variable sollte auf der kontinuierlichen Ebene gemessen werden. Beispiele für solche kontinuierlichen Variablen sind die Höhe (gemessen in Fuß und Inch), die Temperatur (gemessen in ° C), das Gehalt (gemessen in US-Dollar), die Revisionszeit (gemessen in Stunden), die Intelligenz (gemessen mit IQ - Gemessen in Millisekunden), Testleistung (gemessen von 0 bis 100), Umsatz (gemessen in Anzahl der Transaktionen pro Monat) und so weiter. Wenn Sie sich nicht sicher sind, ob Ihre abhängige Variable kontinuierlich ist (d. H. Auf der Intervall - oder der Verhältnisstufe), finden Sie in unseren Variablen-Typen. Annahme 2: Ihre unabhängige Variable sollte auf kontinuierlicher oder kategorischer Ebene gemessen werden. Wenn Sie jedoch eine kategoriale unabhängige Variable haben, ist es üblicher, einen unabhängigen t-Test (für 2 Gruppen) oder eine Einweg-ANOVA (für 3 Gruppen oder mehr) zu verwenden. Beispiele für kategorische Variablen sind das Geschlecht (zB 2 Gruppen: männlich und weiblich), Ethnizität (zB 3 Gruppen: Kaukasier, Afroamerikaner und Hispanic), körperliche Aktivität (zB 4 Gruppen: sesshaft, niedrig, mäßig und Hoch) und Beruf (zB 5 Gruppen: Chirurg, Arzt, Krankenschwester, Zahnarzt, Therapeut). In dieser Anleitung zeigen wir Ihnen das lineare Regressionsverfahren und die Stata-Ausgabe, wenn sowohl Ihre abhängigen als auch unabhängigen Variablen auf einer kontinuierlichen Ebene gemessen wurden. Glücklicherweise können Sie Annahmen 3, 4, 5, 6 und 7 mit Stata. Wenn wir uns auf die Annahmen 3, 4, 5, 6 und 7 begeben, empfehlen wir, diese in dieser Reihenfolge zu testen, da es einen Auftrag darstellt, bei dem, falls ein Verstoß gegen die Annahme nicht korrigierbar ist, die lineare Regression nicht mehr möglich ist. In der Tat, seien Sie nicht überrascht, wenn Ihre Daten nicht eine oder mehrere dieser Annahmen, da dies ziemlich typisch ist, wenn die Arbeit mit realen Daten anstatt Lehrbuch Beispiele, die oft nur zeigen, wie die Durchführung linearer Regression, wenn alles gut geht. Jedoch sorgen Sie sich nicht, weil, selbst wenn Ihre Daten bestimmte Annahmen ausfallen, es häufig eine Lösung gibt, zum dieses zu überwinden (zB Ihre Daten zu verwandeln oder einen anderen statistischen Test anstatt zu verwenden). Denken Sie daran, dass die Ergebnisse, die Sie beim Ausführen der linearen Regression erhalten, nicht gültig sind, wenn Sie nicht überprüfen, ob Daten diese Annahmen erfüllen oder ob Sie sie falsch testen. Annahme 3: Es muss eine lineare Beziehung zwischen den abhängigen und unabhängigen Variablen bestehen. Während es eine Reihe von Möglichkeiten gibt, zu überprüfen, ob eine lineare Beziehung zwischen den beiden Variablen existiert, empfehlen wir die Erstellung eines Scatterplots mit Stata, in dem Sie die abhängige Variable mit Ihrer unabhängigen Variablen darstellen können. Sie können das Scatterplot dann visuell überprüfen, um die Linearität zu überprüfen. Ihr Scatterplot kann etwa so aussehen: Wenn die in Ihrem Scatterplot angezeigte Beziehung nicht linear ist, müssen Sie entweder eine nicht lineare Regressionsanalyse durchführen oder Ihre Daten transformieren, was Sie mit Stata tun können. Annahme 4: Es sollten keine signifikanten Ausreißer vorhanden sein. Ausreißer sind einfach einzelne Datenpunkte innerhalb Ihrer Daten, die nicht dem üblichen Muster folgen (zB in einer Studie von 100 Studenten IQ Scores, wo die mittlere Punktzahl 108 mit nur einer kleinen Abweichung zwischen den Schülern war, hatte ein Schüler eine Punktzahl von 156, die Ist sehr ungewöhnlich, und kann sie sogar in die Top 1 der IQ-Scores weltweit setzen). Die folgenden Scatterplots zeigen die möglichen Auswirkungen von Ausreißern auf: Das Problem bei Ausreißern besteht darin, dass sie einen negativen Einfluss auf die Regressionsgleichung haben können, die dazu verwendet wird, den Wert der abhängigen Variablen basierend auf der unabhängigen Variablen vorherzusagen. Dies ändert die Ausgabe, die Stata produziert, und verringert die prädiktive Genauigkeit Ihrer Ergebnisse. Glücklicherweise können Sie Stata verwenden, um eine Casewise-Diagnose durchzuführen, damit Sie mögliche Ausreißer erkennen können. Annahme 5: Sie sollten die Unabhängigkeit der Beobachtungen haben. Die Sie bequem mit der Durbin-Watson-Statistik überprüfen können. Das ist ein einfacher Test, mit Stata laufen. Annahme 6: Ihre Daten müssen Homosedastizität zeigen. Wo die Abweichungen entlang der Linie der besten Passung bleiben ähnlich, wie Sie entlang der Linie bewegen. Die beiden Scatterplots unten bieten einfache Beispiele für Daten, die diese Annahme erfüllt und eine, die die Annahme nicht: Wenn Sie Ihre eigenen Daten zu analysieren, werden Sie Glück haben, wenn Ihr Scatterplot sieht aus wie eine der beiden oben. Während sie dazu beitragen, die Unterschiede in den Daten zu veranschaulichen, die die Annahme der Homoscedastizität erfüllen oder verletzen, sind Daten in der realen Welt oft viel chaotischer. Sie können überprüfen, ob Ihre Daten Homosedastizität zeigten, indem sie die standardisierten Rückstände der Regression auf den standardisierten Vorhersagewert der Regression skizzierten. Annahme 7: Schließlich müssen Sie überprüfen, ob die Residuen (Fehler) der Regressionsgeraden annähernd normal verteilt sind. Zwei gängige Methoden, um diese Annahme zu überprüfen, umfassen die Verwendung entweder eines Histogramms (mit einer überlagerten Normalkurve) oder eines normalen P-P-Plots. In der Praxis wird die Überprüfung der Annahmen 3, 4, 5, 6 und 7 voraussichtlich die meiste Zeit in Anspruch nehmen, wenn sie eine lineare Regression durchführt. Allerdings ist es keine schwierige Aufgabe, und Stata bietet alle Werkzeuge, die Sie benötigen, um dies zu tun. Im Abschnitt Verfahren. Veranschaulichen wir das Stata-Verfahren, das erforderlich ist, um eine lineare Regression unter der Annahme durchzuführen, dass keine Annahmen verletzt worden sind. Zuerst beschreiben wir das Beispiel, das wir verwenden, um das lineare Regressionsverfahren in Stata zu erklären. Studien zeigen, dass die Ausübung kann dazu beitragen, Herzkrankheiten zu verhindern. Innerhalb vernünftiger Grenzen, je mehr Sie üben, desto weniger Risiko haben Sie von Herzkrankheiten leiden. Eine Möglichkeit, in der Übung verringert Ihr Risiko von Herzkrankheiten leiden, ist durch die Verringerung eines Fett in Ihrem Blut, genannt Cholesterin. Je mehr Sie üben, desto niedriger die Cholesterin-Konzentration. Darüber hinaus wurde vor kurzem gezeigt, dass die Menge der Zeit, die Sie verbringen TV ndash ein Indikator für eine sitzende Lebensweise ndash könnte ein guter Prädiktor für Herzerkrankungen (dh, desto mehr TV Sie sehen, desto größer ist das Risiko von Herzerkrankungen ). Daher entschied ein Forscher, festzustellen, ob Cholesterinkonzentration im Zusammenhang mit Zeit verbrachten Fernsehen in ansonsten gesunden 45 bis 65 Jahre alten Männern (eine gefährdete Kategorie von Menschen). Zum Beispiel, da die Menschen mehr Zeit damit verbracht, fernzusehen, hat ihre Cholesterinkonzentration auch zunehmen (ein positives Verhältnis) oder das Gegenteil passieren. Der Forscher wollte auch wissen, wie viel Cholesterin Konzentration, die Zeit Fernsehen fernsehen könnte erklären, als auch sein Die Cholesterinkonzentration vorherzusagen. Der Forscher konnte dann feststellen, ob zum Beispiel Menschen, die acht Stunden verbrachte Fernsehen pro Tag hatte gefährlich hohe Konzentrationen von Cholesterin im Vergleich zu Menschen, die nur zwei Stunden Fernsehen. Zur Durchführung der Analyse rekrutierte der Forscher 100 gesunde männliche Teilnehmer im Alter zwischen 45 und 65 Jahren. Die Zeitspanne, die für das Fernsehen (d. H. Die unabhängige Variable, Zeitsteuerung) und die Cholesterolkonzentration (d. h. die abhängige Variable, Cholesterol) verbracht wurde, wurde für alle 100 Teilnehmer aufgezeichnet. In variablen Ausdrücken ausgedrückt, wollte der Forscher Cholesterin auf Timetv regressiv. Hinweis: Das Beispiel und die Daten, die für dieses Handbuch verwendet werden, sind fiktiv. Wir haben sie gerade für die Zwecke dieses Leitfadens erstellt. Setup in Stata In Stata haben wir zwei Variablen erstellt: (1) timetv. Was die durchschnittliche tägliche Fernsehzeit in Minuten (d. H. Die unabhängige Variable) und (2) Cholesterin ist. Die die Cholesterinkonzentration in mmolL (d. h. die abhängige Variable) ist. Hinweis: Es spielt keine Rolle, ob Sie zuerst die abhängige oder unabhängige Variable erstellen. Nachdem wir diese beiden Variablen ndash timetv und cholesterol ndash erstellt haben, haben wir die Scores in die beiden Spalten der Dateneditor-Tabelle (Bearbeiten) eingegeben (dh die Zeit in Stunden, die die Teilnehmer in der linken Spalte (z Unabhängige Variable) und die Cholesterinkonzentration der Teilnehmer in mmolL in der rechten Spalte (zB Cholesterin, abhängige Variable) wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP Testverfahren in Stata In diesem Abschnitt zeigen wir Ihnen, wie Sie Analysieren Sie Ihre Daten mithilfe der linearen Regression in Stata, wenn die sechs Annahmen im vorherigen Abschnitt, Annahmen nicht verletzt worden sind. Sie können lineare Regression mit Code oder grafische Benutzeroberfläche GUI (GUI) durchführen. Nachdem Sie Ihre Analyse durchgeführt haben, Zeigen Sie an, wie Sie Ihre Ergebnisse interpretieren können: Wählen Sie zuerst aus, ob Sie den Code oder die grafische Benutzeroberfläche von GUI verwenden möchten. Der Code für die Durchführung der linearen Regression Ihrer Daten erfolgt wie folgt: regress DependentVariable IndependentVariable Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP . Mit unserem Beispiel, wo die abhängige Variable ist Cholesterin und die unabhängige Variable ist timetv. Der erforderliche Code wäre: regress cholesterol timetv Anmerkung 1: Sie müssen präzise sein, wenn Sie den Code in das Feld eingeben. Der Code ist case sensitive. Wenn Sie zum Beispiel Cholesterin eingegeben haben, wo das C Großbuchstaben und nicht Kleinbuchstaben (dh ein kleines c) sind, erhalten Sie eine Fehlermeldung wie die folgende: Anmerkung 2: Wenn Sie die Fehlermeldung in Anmerkung 2 immer noch erhalten : Oben, ist es wert, den Namen zu überprüfen, den Sie Ihre zwei Variablen im Daten-Editor gab, wenn Sie Ihre Akte gründen (dh sehen Sie den Dateneditorschirm oben). In dem Feld auf der rechten Seite des Dateneditor-Bildschirms ist es die Art und Weise, dass Sie Ihre Variablen im Abschnitt geschrieben haben, nicht den Abschnitt, den Sie in den Code eingeben müssen (siehe unten für unsere abhängige Variable). Dies mag offensichtlich sein, aber es ist ein Fehler, der manchmal gemacht wird, was zu dem Fehler in Anmerkung 2 oben führt. Geben Sie daher den Code ein, regressieren Sie den Cholesterinspiegel. Und drücken Sie die ReturnEnter-Taste auf Ihrer Tastatur. Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Sie können die Stata-Ausgabe sehen, die hier erzeugt wird. Grafische Benutzeroberfläche (GUI) Die drei Schritte, die zur Durchführung der linearen Regression in den Stata 12 und 13 erforderlich sind, sind nachfolgend aufgeführt: Klicken Sie auf S tatistics gt Lineare Modelle und zugehörige gt Lineare Regression im Hauptmenü, wie unten gezeigt: Publiziert mit schriftlicher Genehmigung von StataCorp LP. Sie werden mit dem Regress ndash Linear Regression Dialogbox präsentiert: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Wählen Sie Cholesterin aus dem Dropdown-Feld Abhängige Variable aus, und wählen Sie innerhalb der Dropdown-Liste Independent variables die Option timetv aus. Sie werden am Ende mit dem folgenden Bildschirm: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Ausgabe der linearen Regressionsanalyse in Stata Wenn Ihre Daten die Annahme 3 (dh, es gab eine lineare Beziehung zwischen den beiden Variablen), 4 (dh keine signifikanten Ausreißer), Annahme 5 (dh Sie hatten Unabhängigkeit von Beobachtungen), Annahme 6 Dh Ihre Daten zeigten Homosedastizität) und Annahme 7 (dh die Residuen (Fehler) wurden annähernd normalverteilt), was wir bereits im Abschnitt Annahmen erklärt haben, müssen Sie nur die folgende lineare Regressionsausgabe in Stata interpretieren: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Die Ausgabe besteht aus vier wichtigen Informationen: a) Der R 2 - Wert (R-Quadrat-Zeile) repräsentiert den Variationsanteil der abhängigen Variablen, der sich durch unsere unabhängige Variable erklären lässt (technisch gesehen ist der Anteil der Variation Durch das Regressionsmodell über das mittlere Modell hinaus). Allerdings basiert R2 auf der Stichprobe und ist eine positiv voreingestellte Schätzung des Anteils der vom Regressionsmodell ermittelten Varianz der abhängigen Variablen (dh zu groß) (b) ein eingestellter R 2 - Wert (Adj R - (F (1, 98)) und die statistische Signifikanz des Regressionsmodells (Prob gt F-Reihe), die eine positive Vorspannung korrigiert, um einen Wert zu liefern, Und (d) die Koeffizienten für die konstante und unabhängige Variable (Coef-Spalte), die die Information ist, die Sie benötigen, um die abhängige Variable, Cholesterin vorherzusagen. Mit der unabhängigen Variable, timetv. In diesem Beispiel ist R 2 0,151. Angepasst R 2 0,143 (zu 3 d. p.), was bedeutet, daß die unabhängige Variable, timetv. Erklärt 14,3 der Variabilität der abhängigen Variablen, Cholesterin. In der Bevölkerung. Die bereinigte R 2 ist ebenfalls eine Schätzung der Effektgröße, die bei 0,143 (14,3) für eine mittlere Effektgröße nach Cohens (1988) Klassifizierung anzeigt. Normalerweise ist es jedoch R 2 nicht das eingestellte R 2, das in den Ergebnissen berichtet wird. In diesem Beispiel ist das Regressionsmodell statistisch signifikant, F (1, 98) 17.47, p .0001. Dies zeigt, dass insgesamt das angewandte Modell die abhängige Variable, Cholesterin, statistisch signifikant vorhersagen kann. Anmerkung: Wir präsentieren die Ausgabe aus der linearen Regressionsanalyse oben. Da Sie jedoch Ihre Daten für die Annahmen getestet haben, die wir im Abschnitt Annahmen erläutert haben, müssen Sie auch die Stata-Ausgabe interpretieren, die bei der Prüfung dieser Annahmen erstellt wurde. Dazu gehören: a) die Scatterplots, mit denen Sie überprüft haben, ob eine lineare Beziehung zwischen den beiden Variablen existiert (dh Assumption 3), b) casewise Diagnostik, um zu überprüfen, dass keine signifikanten Ausreißer vorhanden sind (dh Annahme 4) Die Durbin-Watson-Statistik zur Überprüfung der Unabhängigkeit von Beobachtungen (dh Assumption 5) (d) eines Streudiagramms der regressions-standardisierten Residuen gegen den regressionseigenen Vorhersagewert, um zu bestimmen, ob Ihre Daten Homosedastizität (dh Annahme 6) und ein Histogramm (mit überlagerten Normalkurve) und Normal PP Plot, um zu überprüfen, ob die Residuen (Fehler) annähernd normalverteilt waren (dh Annahme 7). Denken Sie auch daran, dass die Ausgabe, die Sie aus dem linearen Regressionsverfahren (dh der Ausgabe, die wir oben besprochen haben) nicht mehr relevant ist, wenn Ihre Daten eine dieser Annahmen nicht bestanden haben, und Sie müssen möglicherweise einen anderen statistischen Test ausführen, um zu analysieren deine Daten. Berichte über die Ausgabe der linearen Regressionsanalyse Wenn Sie die Ausgabe Ihrer linearen Regression messen, ist es empfehlenswert, a) eine Einführung in die von Ihnen durchgeführte Analyse einzuholen, b) Informationen über die Stichprobe einschließlich fehlender Werte (c) Der beobachtete F-Wert, Freiheitsgrade und Signifikanzniveau (dh der p-Wert) (d) der Prozentsatz der Variabilität der abhängigen Variablen, die durch die unabhängige Variable (dh Ihre bereinigte R 2) und (e) die Regressionsgleichung erklärt wird Für Ihr Modell. Basierend auf den obigen Ergebnissen konnten wir die Ergebnisse dieser Studie wie folgt berichten: Eine lineare Regression ergab, dass die tägliche Verweildauer feststellen konnte, dass die Cholesterinkonzentration F (1, 98) 17.47, p .0001 und die Zeit, die TV verbrachte, statistisch signifikant vorhergesagt werden konnten Entfielen 14,3 der erklärten Variabilität in der Cholesterinkonzentration. Die Regressionsgleichung war: vorhergesagte Cholesterinkonzentration -2.135 0.044 x (Zeit verbrachte Fernsehen). Zusätzlich zur Meldung der Ergebnisse wie oben kann ein Diagramm verwendet werden, um Ihre Ergebnisse visuell darzustellen. Zum Beispiel könnten Sie dies mit einem Scatterplot mit Vertrauen und Vorhersageintervalle (obwohl es nicht sehr häufig, um die letzten hinzuzufügen). Dies kann es einfacher für andere, Ihre Ergebnisse zu verstehen. Darüber hinaus können Sie Ihre lineare Regressionsgleichung verwenden, um Vorhersagen über den Wert der abhängigen Variablen basierend auf verschiedenen Werten der unabhängigen Variablen vorzunehmen. Während Stata diese Werte nicht als Teil des linearen Regressionsverfahrens oben erzeugt, gibt es eine Prozedur in Stata, die Sie verwenden können, um dies zu tun.

No comments:

Post a Comment