Polychorische Korrelationen Im Stata Forex
Im mit Stata 12.0 und Ive heruntergeladen die polychoricpca Befehl von Stas Kolenikov geschrieben, die ich mit Daten, die eine Mischung aus kategorischen und kontinuierlichen Variablen enthält verwenden wollte. Angesichts der Anzahl der Variablen (um die 25), meine Ahnung ist, dass ich mehr als 3 Komponenten generieren müssen. Letztendlich möchte ich eine Handvoll aussagekräftiger Komponenten (anstelle von Dutzenden von Variablen) generieren und die Komponenten als unabhängige Variablen in der logistischen Regression verwenden. Verwendung polychoricpca. Ich bin in der Lage, eine Tabelle, die die Eigenwerte und die Eigenvektoren (Belastungen) für jede Variable für die ersten drei (3) Komponenten nur zu generieren. Polychoricpca scheint diese Beladungen Scoring-Koeffizienten zu nennen und diese für jede Ebene der Variablen zu erzeugen, so dass, wenn eine Variable drei Kategorien hat, Sie drei Scoring-Koeffizienten (loadings) für diese Variable sehen. Ich habe nie mit polychoric PCA vorher gearbeitet, Im verwendet, um nur eine Belastung pro variableitem zu sehen. Ich möchte diese Koeffizienten (loadings) untersuchen, um zu versuchen, zu verstehen, was die Bestandteile sind und wie sie beschriftet werden konnten. (1) Was, wenn es aussieht, als ob ich 4 Komponenten generieren Es scheint, als ob ich nicht in der Lage zu untersuchen und zu verstehen, was diese 4. Komponente ist, weil ich nicht sehen kann, wie jedes der Elemente auf die 4. Komponente, nur die ersten 3 laden Dass es nicht mehr als die ersten drei Komponenten gibt (2) Kann ich einfach die polychorische Korrelationsmatrix verwenden, die mit dem Statas pcamat Befehl kombiniert wird, um zu untersuchen, wie jedes Element auf jede Komponente geladen wird (die Eigenvektortabelle). Ich dachte, dies könnte eine Möglichkeit sein, zu prüfen, Belastungen, wenn ich mehr als 3 Komponenten haben. Die Idee kam aus dieser UCLA stats Hilfe post auf mit factormat mit einer polychorischen Korrelation Matrix. Pcamat in Stata erzeugt jedoch nur 1 Beladung (Koeffizient) pro Variable, nicht 1 Beladung für jede Ebene der Variablen. Irgendwelche Gedanken auf, ob es angebracht sein würde, nur das einzelne Laden von pcamat zu berichten. Tetrachorische, polychorische, biserielle und polyserielle Korrelationen aus verschiedenen Eingabearten Beschreibung Die tetrachorische Korrelation ist die abgeleitete Pearson-Korrelation aus einer Zwei-Zwei-Tabelle mit der Annahme der bivariaten Normalität. Die polychorische Korrelation verallgemeinert diese zu der n x m-Tabelle. Besonders wichtig bei der Durchführung der Item Response Theory oder der Umwandlung von Komorbiditätsstatistiken unter Verwendung der Normaltheorie zu Korrelationen. Die Eingabe kann eine 2 · 2 Tabelle von Zellfrequenzen, ein Vektor von Zellfrequenzen oder ein Datenrahmen oder eine Matrix von dichotomalen Daten (für tetrachorische) oder von numerischen Daten (für polychorische) sein. Die Biserial-Korrelation liegt zwischen einer stetigen y-Variablen und einer dichotomischen x-Variablen, von der angenommen wird, dass sie aus einer dichotomierten Normalgröße resultiert. Biserial ist ein Spezialfall der polyserialen Korrelation, die die abgeleitete latente Korrelation zwischen einer kontinuierlichen Variablen (X) und einer geordneten kategorischen Variablen (z. B. einer Itemantwort) ist. Input für diese später zwei sind Datenrahmen oder Matrizen. Die Eingabe kann in einer von vier Formen erfolgen: a) ein Datenrahmen oder eine Matrix aus dichotischen Daten (zB lsat6 aus dem Bock-Datensatz) oder diskrete numerische (dh nicht zu viele Ebenen, zB der große 5 Datensatz, bfi) Polychorisch oder kontinuierlich für den Fall von biserial und polyserial. B) eine 2 x 2 Tabelle von Zellzahlen oder Zellfrequenzen (für tetrachoric) c) einen Vektor mit Elementen entsprechend den vier Zellfrequenzen (für tetrachoric) d) einen Vektor mit Elementen der beiden Randfrequenzen (Zeile und Spalte) und Die Komorbidität (für tetrachoric) A (Matrix oder Dataframe) von diskreten Werten. Im Fall von Tetrachorid sollten diese dichotom, für polychorische nicht zu viele Niveaus sein, für die Biserie sollten sie diskret (z. B. Itemreaktionen) mit nicht zu vielen (lt10) Kategorien sein. Korrekt für Kontinuität im Fall der Null-Eintrittszelle für tetrachorische Fälle ohne Abweichung werden mit einer Warnung gelöscht, bevor sie fortfahren. Tetrachorische Korrelationen schliessen eine latente Pearson-Korrelation aus einer zwei · zwei Tabelle von Frequenzen mit der Annahme der bivariaten Normalität ab. Das Schätzverfahren ist zweistufig ML. Zellenfrequenzen für jedes Paar von Elementen werden gefunden. Im Falle von Tetrachorika werden Zellen mit Nullzählungen durch .5 als Korrektur für die Kontinuität (correctTRUE) ersetzt. Die Daten werden typischerweise eine Rohdatenmatrix von Reaktionen auf einen Fragebogen sein, der entweder Truefalse (tetrachorisch) oder mit einer begrenzten Anzahl von Antworten (polychorisch) erzielt wird. In beiden Fällen werden die Grenzfrequenzen in normale theoretische Schwellenwerte umgewandelt, und die resultierende Tabelle für jedes Elementpaar wird in die (abgeleitete) latente Pearsonenkorrelation umgewandelt, die die beobachteten Zellfrequenzen mit den beobachteten Randbedingungen erzeugen würde. Dies ist eine sehr rechenintensive Funktion, die durch die Verwendung mehrerer Kerne und die Verwendung des Parallelpakets erheblich beschleunigt werden kann. Die Anzahl der Kerne zu verwenden, wenn Sie polychoric oder tetrachoric. Der größte Schritt in der Geschwindigkeit geht von 1 Kern zu 2. Dies ist etwa 50 Einsparungen. Going to 4 Kerne scheint etwa bei 66 Einsparungen und 8 a 75 Einsparungen haben. Die Anzahl der parallelen Prozesse ist standardmäßig auf 2 gesetzt, kann aber mit dem Befehl options geändert werden: options (quotmc. coresquot4) setzt die Anzahl der Kerne auf 4. Die tetrachorische Korrelation wird in einer Vielzahl von Kontexten verwendet Response Theory (IRT) - Analysen von Testergebnissen, eine Sekunde bei der Umwandlung von Comorbity-Statistiken in Korrelationskoeffizienten. In diesem zweiten Kontext werden Beispiele für die Empfindlichkeit des Koeffizienten für die Zellfrequenzen deutlich: Betrachten wir den Testdatensatz von Kirk (1973), der die Wirksamkeit eines ML-Algorithmus für die tetrachorische Korrelation (siehe Beispiele) berichtet. Beispiele umfassen die lsat6- und lsat7-Datensätze in den Bock-Daten. Die polychorische Funktion bildet Matrizen polychorischer Korrelationen entweder durch die Verwendung von John Foxs-Polychorfunktion oder durch eine lokale Funktion (polyc) und berichtet auch die tau-Werte für jede Alternative. Polychoric ersetzt poly. mat und wird empfohlen. Poly. mat ist eine Alternative zur Polycorfunktion. Biserialen und polyseriellen Korrelationen sind die abgeleiteten latenten Korrelationen, die den beobachteten Punkt-biserialen und Punkt-Polyserial-Korrelationen äquivalent sind (die selbst nur Pearson-Korrelationen sind). Die Polyserialfunktion soll mit Matrix - oder Dataframeeingabe arbeiten und fehlende Daten behandeln, indem sie den paarweisen Pearson r korrigiert durch die Gesamt - (alle beobachtete Fälle) Wahrscheinlichkeit der Antwortfrequenz findet. Dies ist besonders nützlich für SAPA-Verfahren (sapa-project. org) mit großen Mengen an fehlenden Daten und keine vollständigen Fälle. Fähigkeitstests und Persönlichkeitstestmatrizen haben typischerweise eine sauberere Struktur, wenn tetrachorische oder polychorische Korrelationen verwendet werden als bei Verwendung der normalen Pearson-Korrelation. Wenn jedoch entweder Alpha oder Omega verwendet wird, um die Zuverlässigkeit zu finden, wird dies eine Überschätzung der quadrierten Korrelation einer latenten Variablen der beobachteten Variablen sein. Eine biserielle Korrelation (nicht zu verwechseln mit der Punkt-biserialen Korrelation, die nur eine Pearson-Korrelation ist) ist die latente Korrelation zwischen x und y, wobei y stetig ist und x ist dichotom, aber angenommen, eine (nicht beobachtete) stetige Normalgröße darzustellen. Es sei p Wahrscheinlichkeit von x Stufe 1 und q 1 - p. Es sei zp die Ordinalzahl der mit p assoziierten z-Punktzahl. Dann ist rbi rs radic (pq) zp. Die Ad-hoc-Polyserialkorrelation rps ist nur rr sqrt (n-1) n) sigma y sum (zpi), wobei zpi die Ordinaten der Normalkurve am normalen Äquivalent der Schnittpunktgrenzen zwischen den Itemreaktionen sind. (Olsson, 1982) Alle diese wurden durch (und angepasst) von John Foxs Polychor-Paket, die für präzise ML Schätzungen der Korrelationen verwendet werden sollte inspiriert. Siehe insbesondere die Hetcorfunktion im Polychorpaket. Besonders für tetrachorische Korrelationen aus Datenmengen mit fehlenden Daten ist die Matrix manchmal nicht positiv. Verschiedene Glättungsalternativen sind möglich, hier wird eine Eigenwertzerlegung der Korrelationsmatrix durchgeführt, alle negativen Eigenwerte auf 10 gesetzt, die positiven Eigenwerte auf die Anzahl der Variablen normiert und dann rekonstituiert Die Korrelationsmatrix. Eine Warnung wird ausgegeben, wenn dies geschieht. Für Kombinationen von kontinuierlichen, kategorischen und dichotomen Variablen finden Sie unter mixed. cor. Wenn Daten mit einer variablen Anzahl von Antwortalternativen verwendet werden, ist es notwendig, die Option globalFALSE in Polychoric zu verwenden.
Comments
Post a Comment