Thursday 2 November 2017

Regressioni In Corso In Forex Stata


Analisi Regressione multipla usando Stata Introduzione regressione multipla (un'estensione semplice regressione lineare) viene usato per predire il valore di una variabile dipendente (anche noto come variabile dipendente) in base al valore di due o più variabili indipendenti (noto anche come variabili predittive ). Ad esempio, è possibile utilizzare la regressione multipla per determinare se l'esame l'ansia può essere previsto in base a marchio corsi, tempo di revisione, la presenza conferenza e QI (cioè la variabile dipendente sarebbe esame ansia, e le quattro variabili indipendenti sarebbe segno di corsi, la revisione tempo, presenze conferenza e QI). In alternativa, è possibile utilizzare la regressione multipla per determinare se il reddito può essere previsto in base a età, sesso e livello di istruzione (cioè la variabile dipendente sarebbe reddito, e le tre variabili indipendenti sarebbe età, sesso e livello di istruzione). Se si dispone di una variabile dipendente dicotomica è possibile utilizzare una regressione logistica binomiale. regressione multipla consente anche di determinare la misura complessiva (varianza spiegata) del modello e il contributo relativo di ciascuna delle variabili indipendenti per la varianza totale spiegata. Ad esempio, si potrebbe desiderare di sapere quanta parte della variazione di ansia esame può essere spiegato da Mark corsi, tempo di revisione, la presenza conferenza e QI nel suo complesso, ma anche il contributo relativo di ciascuna variabile indipendente nello spiegare la varianza. Questa guida rapida mostra come effettuare regressione multipla usando Stata, così come il modo di interpretare e riportare i risultati di questo test. Tuttavia, prima che vi presentiamo a questa procedura, è necessario comprendere le diverse ipotesi che i dati devono soddisfare per la regressione multipla per darvi un risultato valido. Discutiamo questi presupposti prossimo. Ipotesi Ci sono otto assunzioni che stanno alla base di regressione multipla. Se uno qualsiasi di questi otto ipotesi non sono soddisfatte, non è possibile analizzare i dati utilizzando la regressione multipla, perché non sarà possibile ottenere un risultato valido. Dal momento che le ipotesi 1 e 2 si riferiscono alla vostra scelta di variabili, non possono essere testati per l'utilizzo di Stata. Tuttavia, si dovrebbe decidere se il vostro studio soddisfa questi presupposti prima di passare. Assunzione 1: la variabile dipendente deve essere misurata a livello continuo. Esempi di tali variabili continue includono altezza (misurata in piedi e pollici), la temperatura (misurata in 176C), lo stipendio (misurato in dollari USA), tempo di revisione (misurato in ore), intelligenza (misurata con QI), il tempo di reazione (misurato in millisecondi), prestazioni (misurato da 0 a 100), vendite (misurata in numero di transazioni al mese), e così via. Se non siete sicuri se la variabile dipendente è continua (cioè misurata durante l'intervallo o il livello di rapporto), vedere i nostri Tipi di guida variabile. Ipotesi 2: Si dispone di due o più variabili indipendenti. che dovrebbe essere misurato al livello continuo o categoriale. Per esempi di variabili continue. vedere il proiettile sopra. Esempi di variabili categoriali includono genere (ad esempio 2 gruppi: maschi e femmine), l'etnia (ad esempio 3 gruppi: caucasico, africano-americana), il livello di attività fisica (ad esempio 4 gruppi: sedentari, basso, moderato e alto), la professione (ad esempio, 5 gruppi: chirurgo, medico, infermiere, dentista, terapeuta), e così via. In questa guida, vi mostriamo la procedura di regressione multipla, perché abbiamo un mix di variabili continue e categoriali indipendenti. Nota: Se avete solo variabili indipendenti categoriche (cioè non variabili indipendenti continue), è più comune per avvicinarsi l'analisi dal punto di vista di un ANOVA a due vie (per due variabili indipendenti categoriche) o fattoriale ANOVA (per tre o più categorica variabili indipendenti) invece di regressione multipla. Fortunatamente, è possibile controllare le ipotesi 3, 4, 5, 6, 7 e 8 usando Stata. Quando si sposta verso ipotesi 3, 4, 5, 6, 7 e 8, li suggeriamo prova in questo ordine perché rappresenta un ordine in cui, se una violazione del presupposto non è correggibile, non sarà più in grado di utilizzare più regressione. In realtà, non stupitevi se i dati non riesce una o più di queste ipotesi dal momento che questo è abbastanza tipico quando si lavora con i dati del mondo reale, piuttosto che esempi da manuale, che spesso mostrano solo il modo di effettuare la regressione lineare quando tutto va bene. Tuttavia, non ti preoccupare perché anche quando i dati non riesce alcune ipotesi, vi è spesso una soluzione per superare questo (ad esempio trasformare i dati o utilizzando un altro test statistico, invece). Basta ricordare che se non controllare che i dati soddisfa queste ipotesi o si prova per loro in modo corretto, i risultati ottenuti durante l'esecuzione di regressione multipla potrebbe non essere valido. Assunzione 3: Si dovrebbe avere l'indipendenza di osservazioni (cioè l'indipendenza dei residui), che è possibile controllare in Stata usando la statistica Durbin-Watson. Assunzione 4: ci deve essere un rapporto lineare tra (a) la variabile dipendente e ciascuno dei vostri variabili indipendenti, e (b) la variabile dipendente e le variabili indipendenti collettivamente. È possibile verificare la linearità Stata utilizzando grafici a dispersione e le trame di regressione parziali. Assunzione 5: I suoi dati ha bisogno di mostrare omoschedasticità. che è dove le variazioni lungo la linea di misura migliore rimangono simili come ci si sposta lungo la linea. È possibile verificare la presenza di omoschedasticità in Stata tracciando i residui studentizzati contro i valori attesi non standardizzati. Assunzione 6: I suoi dati non devono mostrare multicollinearità. che si verifica quando si hanno due o più variabili indipendenti che sono altamente correlati tra loro. È possibile controllare questo assunzione in Stata attraverso un'ispezione di coefficienti di correlazione e dei valori ToleranceVIF. Assunzione 7: Non ci dovrebbero essere valori anomali significativi. punti di leva alti o punti molto influenti. che rappresentano le osservazioni nel set di dati che sono in qualche modo insolito. Questi possono avere un effetto molto negativo sulla regressione che viene utilizzato per prevedere il valore della variabile dipendente sulla base delle variabili indipendenti. È possibile verificare la presenza di valori anomali, punti di leva e punti influenti utilizzando Stata. Assunzione 8: I residui (errori) dovrebbe essere di circa distribuita normalmente. che è possibile controllare in Stata usando un istogramma (con una curva normale sovrapposta) e Normale P-P Plot, o un normale Q-Q Plot dei residui studentizzati. In pratica, il controllo per le ipotesi 3, 4, 5, 6, 7 e 8 vorranno probabilmente la maggior parte del vostro tempo nello svolgimento di regressione multipla. Tuttavia, non è un compito difficile, e Stata fornisce tutti gli strumenti necessari per farlo. Nella sezione, Procedura di prova del Stata. illustriamo la procedura Stata necessario per eseguire la regressione multipla partendo dal presupposto che non ci ipotesi sono stati violati. In primo luogo, abbiamo deciso l'esempio che usiamo per spiegare la procedura di regressione multipla in Stata. Un ricercatore di salute vuole essere in grado di prevedere VO 2 max, un indicatore di fitness e salute. Normalmente, per eseguire questa procedura richiede attrezzature di laboratorio costose, nonché individui che richiedono di esercitare la loro massima (cioè fino a quando non possono più continuare la dovuta all'esaurimento fisico). Questo può mettere fuori gli individui che non sono molto activefit e coloro che potrebbero essere a più alto rischio di problemi di salute (ad esempio soggetti inabili anziani). Per queste ragioni, è stato auspicabile trovare un modo di prevedere un individui VO 2 max basato su attributi che possono essere misurati più facilmente ed economicamente. A tal fine, un ricercatore ha reclutato 100 partecipanti di effettuare un test massima VO 2 max, ma anche registrato la loro età, il peso, frequenza cardiaca e di genere. La frequenza cardiaca è la media degli ultimi 5 minuti di meno di 20 minuti, molto più facile, più basso carico di lavoro di prova in bicicletta. L'obiettivo dei ricercatori è quello di essere in grado di prevedere VO 2 max sulla base di questi quattro attributi: età, peso, frequenza cardiaca e di genere. Nota: L'esempio e dati utilizzati per questa guida sono fittizi. Abbiamo semplicemente creato per gli scopi di questa guida. Impostazione in Stata In Stata, abbiamo creato cinque variabili: (1) VO 2 max. che è la massima capacità aerobica (cioè la variabile dipendente) e (2) l'età. che è l'età partecipanti (3) il peso. che è il peso partecipanti (tecnicamente, è la loro massa) (4) heartrate. che è il tasso partecipanti cardiaca e (5) di genere. che è il genere partecipanti (cioè le variabili indipendenti). Dopo la creazione di queste cinque variabili, siamo entrati i punteggi per ciascuna nelle cinque colonne del foglio di calcolo Data Editor (Edit), come illustrato di seguito: Pubblicato con il permesso scritto da parte StataCorp LP. Procedura di prova in Stata In questa sezione, si mostrerà come analizzare i dati utilizzando la regressione multipla in Stata quando gli otto assunzioni nella sezione precedente, le ipotesi. non sono stati violati. È possibile effettuare la regressione multipla utilizzando il codice o Statas interfaccia utente grafica (GUI). Dopo aver effettuato l'analisi, vi mostriamo come interpretare i risultati. In primo luogo, scegliere se si desidera utilizzare il codice o Statas interfaccia utente grafica (GUI). Il codice per effettuare regressione multipla sui dati prende la forma: regredire DependentVariable IndependentVariable1 IndependentVariable2 IndependentVariable3 IndependentVariable4 Utilizzando il nostro esempio in cui la variabile dipendente è VO2max e le quattro variabili indipendenti sono l'età. peso. frequenza cardiaca e di genere. il codice richiesto sarebbe: regredire VO2max età peso frequenza cardiaca i. gender Nota: Youll vedere dal codice di cui sopra che le variabili indipendenti continue vengono semplicemente immesse, mentre variabili indipendenti categoriche hanno il prefisso i (ad esempio età per età dal momento che questo è un. continua variabile indipendente, ma i. gender per genere. poiché si tratta di una variabile categoriale indipendente). Quindi, inserire il codice, regredire VO2max età peso frequenza cardiaca i. gender. e premere il pulsante ReturnEnter sulla tastiera. È possibile visualizzare l'output Stata che sarà prodotta qui. Interfaccia grafica utente (GUI) I sette passi necessari per effettuare la regressione multipla in Stata sono riportati di seguito: Fare clic su modelli lineari Statistiche GT e relativi regressione lineare GT nel menu principale, come illustrato di seguito: Pubblicato con il permesso scritto da parte StataCorp LP. Nota: Non ti preoccupare che tu sei selezionando Statistiche gt modelli lineari e relativo gt regressione lineare nel menu principale, o che le finestre di dialogo nei passaggi che seguono avere il titolo, la regressione lineare. Non hai fatto un errore. Sei nel posto giusto per effettuare la procedura di regressione multipla. Questo è solo il titolo che dà Stata, anche durante l'esecuzione di una procedura di regressione multipla. Verrà presentato con il regresso - Linear finestra di dialogo di regressione, come illustrato di seguito: Pubblicato con il permesso scritto da parte StataCorp LP. Selezionare la variabile dipendente, VO2max. dalla variabile dipendente: dialogo e selezionare le variabili continue indipendenti, l'età. peso e frequenza cardiaca dalle variabili indipendenti: scatola, utilizzando il pulsante a discesa, come illustrato di seguito: Pubblicato con il permesso scritto da parte StataCorp LP. Selezionare la variabile categoriale indipendente di genere. dalle variabili indipendenti: scatola, facendo prima clic sul pulsante. Questo vi presenterà con la seguente finestra di dialogo in cui si sono già inseriti nel varlist le variabili indipendenti continue (età peso e frequenza cardiaca.): Box: Pubblicato con il permesso scritto da parte StataCorp LP. Dare una variabile fattore selezionato nel ndashType dell'area variablendash. Successivamente, nel fattore zona variablendash ndashAdd, lasciare selezionata nella specifica: scatola. Ora, selezionare genere nella casella variabili utilizzando il pulsante a discesa, quindi selezionare Predefinito nella casella Base. Infine, fare clic sul pulsante. Vi si presenterà con la seguente finestra di dialogo in cui la categorica variabile indipendente, i. gender. è stato inserito nella lista-variabili: scatola: Pubblicato con il permesso scritto da parte StataCorp LP. Fare clic sul pulsante. Si tornerà al regresso - Linear finestra di dialogo di regressione, ma con la variabile indipendente categorica, i. gender. ormai entrato nelle variabili indipendenti: scatola, come illustrato di seguito: Pubblicato con il permesso scritto da parte StataCorp LP. Fare clic sul pulsante. Questo genera l'uscita. Interpretazione e Reporting l'uscita Stata di regressione multipla Analisi Stata genererà un unico pezzo di uscita per una analisi di regressione multipla in base alle selezioni effettuate in precedenza, partendo dal presupposto che gli otto assunzioni richieste per la regressione multipla sono stati rispettati. La determinazione con cui il modello si adatta ai R 2 e R 2 aggiustato possono essere utilizzati per determinare quanto bene un modello di regressione adatta ai dati: La riga R al quadrato rappresenta il valore R 2 (detto anche il coefficiente di determinazione), che è la proporzione della varianza nella variabile dipendente che può essere spiegato con le variabili indipendenti (tecnicamente, è la percentuale di variazione valutate con il modello di regressione al di sopra e al di là del modello di media). Si può vedere dal nostro valore di 0,577 che le nostre variabili indipendenti spiegano il 57,7 della variabilità della nostra variabile dipendente, VO 2 max. Tuttavia, è anche necessario essere in grado di interpretare Adj R-squared (adj. R 2) per segnalare con precisione i dati. La significatività statistica Gli F test - ratio se il modello di regressione generale è una buona misura per i dati. L'output mostra che le variabili indipendenti statisticamente predire significativamente la variabile dipendente, F (4, 95) 32.39, p lt 0,0005 (vale a dire il modello di regressione è una buona misura dei dati). modello stimato Coefficienti La forma generale dell'equazione di prevedere VO 2 max dall'età. peso. frequenza cardiaca e di genere è: previsto VO 2 max 87.83 ndash (0,165 x età) ndash (0,385 x peso) ndash (0,118 x frequenza cardiaca) (13,208 x sesso) Questo è ottenuto dalla Coef. colonna, come illustrato di seguito: i coefficienti non standardizzati indicano quanto la variabile dipendente varia con una variabile indipendente, quando tutte le altre variabili indipendenti sono mantenute costanti. Considerare l'effetto dell'età in questo esempio. Il coefficiente di non standardizzato, B 1. per l'età è pari a -0,165 (vedere la prima riga della colonna Coef.). Ciò significa che per ogni aumento di 1 anno di età, vi è una diminuzione VO 2 max di 0.165 mlminkg. La significatività statistica delle variabili indipendenti è possibile verificare per la significatività statistica di ciascuna delle variabili indipendenti. Questo mette alla prova se i non standardizzato (o standardizzati) coefficienti sono pari a 0 (zero) nella popolazione. Se p lt 0,05, è possibile concludere che i coefficienti sono statisticamente significativamente diverso da 0 (zero). La t - value e corrispondente p - value si trovano rispettivamente il t e colonne PGTT,, come di seguito evidenziato: Si può vedere dalla colonna PGTT che tutti i coefficienti variabili indipendenti sono statisticamente significativamente diverso da 0 (zero). Anche se l'intercetta, B 0. è testato per la significatività statistica, questo è raramente un dato importante o interessante. Segnalazione l'output di analisi di regressione multipla Si potrebbe scrivere i risultati come segue: una regressione multipla è stato eseguito per prevedere VO 2 max da sesso, età, peso e della frequenza cardiaca. Queste variabili hanno predetto in modo statisticamente significativo VO 2 max, F (4, 95) 32.39, p lt 0,0005, R 2 0,577. Tutti i quattro variabili aggiunte statisticamente significativa alla previsione, p lt analisi di regressione .05.Linear utilizzando la regressione lineare Stata Introduzione, nota anche come semplice regressione lineare o regressione lineare bivariato, viene utilizzata quando si vuole prevedere il valore di una variabile dipendente basato su il valore di una variabile indipendente. Ad esempio, è possibile utilizzare la regressione lineare per capire se le prestazioni esame può essere previsto in base al tempo di revisione (cioè la variabile dipendente sarebbe prestazioni esame, misurata da 0-100 marchi, e la variabile indipendente sarebbe tempo di revisione, misurato in ore) . In alternativa, è possibile utilizzare la regressione lineare per capire se il consumo di sigarette può essere previsto in base alla durata di fumare (cioè la variabile dipendente sarebbe il consumo di sigarette, misurata in termini di numero di sigarette consumate ogni giorno, e la variabile indipendente sarebbe fumare durata, misurata in giorni). Se si dispone di due o più variabili indipendenti, piuttosto che uno solo, è necessario utilizzare regressione multipla. In alternativa, se si desidera stabilire se esiste una relazione lineare, è possibile utilizzare la correlazione Pearsons. Nota: La variabile dipendente è indicato anche come variabile esito, di destinazione o il criterio, mentre la variabile indipendente è anche indicato come il predittore, variabile esplicativa o regressore. In ultima analisi, a seconda di quale termine si usa, è meglio essere coerenti. Si farà riferimento a queste variabili come dipendenti ed indipendenti in questa guida. In questa guida, vi mostriamo come effettuare la regressione lineare utilizzando Stata, così come interpretare e riferire i risultati di questo test. Tuttavia, prima che vi presentiamo a questa procedura, è necessario comprendere le diverse ipotesi che i dati devono soddisfare per la regressione lineare per darvi un risultato valido. Discutiamo questi presupposti prossimo. Ipotesi Ci sono sette le ipotesi che stanno alla base della regressione lineare. Se uno qualsiasi di questi sette ipotesi non sono soddisfatte, non è possibile analizzare i dati utilizzando lineare, perché non sarà possibile ottenere un risultato valido. Dal momento che le ipotesi 1 e 2 si riferiscono alla vostra scelta di variabili, non possono essere testati per l'utilizzo di Stata. Tuttavia, si dovrebbe decidere se il vostro studio soddisfa questi presupposti prima di passare. Assunzione 1: la variabile dipendente deve essere misurata a livello continuo. Esempi di tali variabili continue includono altezza (misurata in piedi e pollici), la temperatura (misurata in ° C), lo stipendio (misurato in dollari USA), tempo di revisione (misurato in ore), intelligenza (misurata con QI), il tempo di reazione ( misurata in millisecondi), prestazioni (misurato da 0 a 100), vendite (misurata in numero di transazioni al mese), e così via. Se non siete sicuri se la variabile dipendente è continua (cioè misurata durante l'intervallo o il livello di rapporto), vedere i nostri Tipi di guida variabile. Ipotesi 2: La variabile indipendente dovrebbe essere misurata a livello continuo o categoriale. Tuttavia, se si dispone di una variabile categoriale indipendente, è più comune l'utilizzo di un t-test indipendente (per 2 gruppi) o ANOVA (per 3 gruppi o più). Nel caso in cui non si è sicuri, esempi di variabili categoriali includono genere (ad esempio 2 gruppi: maschi e femmine), l'etnia (ad esempio 3 gruppi: caucasico, africano-americana), il livello di attività fisica (ad esempio 4 gruppi: sedentari, basso, moderato e alti), e professione (ad esempio 5 gruppi: chirurgo, medico, infermiere, dentista, terapeuta). In questa guida, vi mostriamo la procedura di regressione lineare e uscita Stata quando entrambe le variabili dipendenti e indipendenti sono stati misurati su un livello continuo. Fortunatamente, è possibile controllare le ipotesi 3, 4, 5, 6 e 7 con Stata. Quando si sposta verso ipotesi 3, 4, 5, 6 e 7, li suggeriamo prova in questo ordine perché rappresenta un ordine in cui, se una violazione del presupposto non è correggibile, non sarà più in grado di utilizzare la regressione lineare. In realtà, non stupitevi se i dati non riesce una o più di queste ipotesi dal momento che questo è abbastanza tipico quando si lavora con i dati del mondo reale, piuttosto che esempi da manuale, che spesso mostrano solo il modo di effettuare la regressione lineare quando tutto va bene. Tuttavia, non ti preoccupare perché anche quando i dati non riesce alcune ipotesi, vi è spesso una soluzione per superare questo (ad esempio trasformare i dati o utilizzando un altro test statistico, invece). Basta ricordare che se non controllare che i dati soddisfa queste ipotesi o si prova per loro in modo errato, i risultati che si ottengono quando si esegue la regressione lineare potrebbe non essere valido. Assunzione 3: ci deve essere una relazione lineare tra le variabili dipendenti e indipendenti. Mentre ci sono un certo numero di modi per controllare se esiste una relazione lineare tra le due variabili, si suggerisce la creazione di un grafico a dispersione utilizzando Stata, dove è possibile tracciare la variabile dipendente contro la variabile indipendente. È quindi possibile ispezionare visivamente la dispersione per verificare la linearità. Il tuo grafico a dispersione può essere simile a una delle seguenti operazioni: Se il rapporto visualizzato nel grafico a dispersione non è lineare, si dovrà o eseguire un'analisi di regressione non lineare o trasformare i dati, che si può fare usando Stata. Assunzione 4: Non ci dovrebbero essere valori anomali significativi. I valori anomali sono punti dati semplicemente singoli all'interno dei dati che non seguono lo schema abituale (per esempio in uno studio di 100 punteggi studenti IQ, dove il punteggio medio è stato di 108, con solo una piccola variazione tra gli studenti, uno studente aveva un punteggio di 156, che è molto insolito, e può anche metterla nella top 1 di punteggi QI a livello globale). I seguenti scatterplot evidenziano il potenziale impatto dei valori anomali: Il problema con valori anomali è che possono avere un effetto negativo sulla regressione che viene utilizzato per prevedere il valore della variabile dipendente in base alla variabile indipendente. Questo cambierà l'uscita che Stata produce e ridurre la precisione predittiva dei risultati. Fortunatamente, è possibile usare Stata per effettuare la diagnostica per casi quello di individuare eventuali valori anomali. Assunzione 5: Si dovrebbe avere l'indipendenza delle osservazioni. il quale è possibile controllare facilmente usando la statistica Durbin-Watson. che è un semplice test da eseguire utilizzando Stata. Assunzione 6: I suoi dati ha bisogno di mostrare omoschedasticità. che è dove le variazioni lungo la linea di misura migliore rimangono simili come ci si sposta lungo la linea. I due grafici a dispersione sotto forniscono semplici esempi di dati che soddisfi questo presupposto e uno che non riesce l'ipotesi: Quando si analizzano i propri dati, sarete fortunati se il grafico a dispersione si presenta come uno dei due sopra. Mentre questi contribuiscono a illustrare le differenze nei dati che soddisfa o viola l'assunzione di omoschedasticità, i dati del mondo reale è spesso molto più disordinato. È possibile controllare se i dati hanno mostrato omoschedasticità tracciando i residui di regressione standardizzato rispetto al valore previsto di regressione standardizzato. Assunzione 7: Infine, è necessario verificare che i residui (errori) della retta di regressione sono circa distribuiti normalmente. Due metodi comuni per verificare questa ipotesi includono utilizzando un istogramma (con una curva normale sovrapposta) o un normale P-P Plot. In pratica, il controllo per le ipotesi 3, 4, 5, 6 e 7 vorranno probabilmente la maggior parte del vostro tempo nello svolgimento di regressione lineare. Tuttavia, non è un compito difficile, e Stata fornisce tutti gli strumenti necessari per farlo. Nella sezione procedura. illustriamo la procedura Stata necessario per eseguire la regressione lineare partendo dal presupposto che non ci ipotesi sono stati violati. In primo luogo, abbiamo deciso l'esempio che usiamo per spiegare la procedura di regressione lineare in Stata. Gli studi dimostrano che l'esercizio può aiutare a prevenire le malattie cardiache. Entro limiti ragionevoli, più ci si allena, minore è il rischio di avere di soffrire di malattie cardiache. Un modo in cui l'esercizio fisico riduce il rischio di soffrire di malattie cardiache è quello di ridurre un grasso nel sangue, chiamato colesterolo. Quanto più ci si allena, minore la concentrazione di colesterolo. Inoltre, è stato recentemente dimostrato che la quantità di tempo che passate a guardare la TV ndash un indicatore di un ndash di stile di vita sedentario potrebbe essere un buon predittore di malattia cardiaca (vale a dire che è, più TV si guarda, maggiore è il rischio di malattie cardiache ). Pertanto, un ricercatore ha deciso di determinare se la concentrazione di colesterolo è stata legata al tempo trascorso a guardare la TV in altrimenti sani da 45 a 65 anni gli uomini (una categoria a rischio di persone). Per esempio, come le persone hanno trascorso più tempo a guardare la TV, hanno fatto la loro concentrazione di colesterolo anche aumentare (un rapporto positivo) o è accaduto il contrario I ricercatori hanno anche voluto sapere la percentuale di concentrazione di colesterolo che il tempo trascorso a guardare la TV potrebbe spiegare, oltre ad essere in grado di prevedere la concentrazione di colesterolo. Il ricercatore potrebbe quindi determinare se, per esempio, le persone che hanno speso otto ore trascorse a guardare la TV al giorno avevano livelli pericolosamente alti di concentrazione di colesterolo rispetto alle persone che guardano solo due ore di TV. Per effettuare l'analisi, il ricercatore ha reclutato 100 partecipanti sani di sesso maschile di età compresa tra 45 e 65 anni tra. La quantità di tempo trascorso a guardare la TV (vale a dire la variabile indipendente, timetv) e la concentrazione di colesterolo (cioè la variabile dipendente, il colesterolo) sono stati registrati per tutti i 100 partecipanti. Espresso in termini variabili, il ricercatore ha voluto regredire colesterolo su timetv. Nota: L'esempio e dati utilizzati per questa guida sono fittizi. Abbiamo semplicemente creato per gli scopi di questa guida. Impostazione in Stata In Stata, abbiamo creato due variabili: (1) timetv. che è il tempo medio giornaliero speso guardare la TV in minuti (ossia la variabile indipendente) e (2) il colesterolo. che è la concentrazione di colesterolo nel mmolL (ossia la variabile dipendente). Nota: non importa se si crea la variabile dipendente o indipendente prima. Dopo la creazione di queste due variabili timetv ndash e colesterolo ndash siamo entrati i punteggi per ciascuna nelle due colonne del foglio di calcolo Data Editor (Edit) (cioè il tempo in ore che i partecipanti guardato la TV nella colonna di sinistra (cioè timetv. Il variabile indipendente), ed i partecipanti concentrazione di colesterolo nel mmolL nella colonna di destra (cioè il colesterolo variabile dipendente), come illustrato di seguito:.. Pubblicato con il permesso scritto da parte procedura di prova StataCorp LP in Stata in questa sezione, mostrano come analizzare i dati utilizzando la regressione lineare in stata quando i sei assunzioni nella sezione precedente, le ipotesi. non sono stati violati. È possibile effettuare la regressione lineare utilizzando il codice o Statas interfaccia utente grafica (GUI). Dopo aver effettuato l'analisi, abbiamo .. mostrare come interpretare i risultati in primo luogo, scegliere se si desidera utilizzare il codice o Statas interfaccia utente grafica (GUI) il codice per effettuare la regressione lineare sui dati prende la forma: regredire DependentVariable IndependentVariable Pubblicato con il permesso scritto di StataCorp LP . Utilizzando l'esempio in cui la variabile dipendente è il colesterolo e la variabile indipendente è timetv. il codice richiesto sarebbe: colesterolo regresso timetv Nota 1: È necessario essere precisi quando inserendo il codice nella casella. Il codice è case sensitive. Ad esempio, se hai inserito il colesterolo dove la C è maiuscola e non minuscola (cioè un piccolo c), che dovrebbe essere, si ottiene un messaggio di errore simile al seguente: Nota 2: Se siete ancora ottenere il messaggio di errore nella nota 2 : sopra, vale la pena controllare il nome assegnato al due variabili nell'Editor dei dati quando si imposta il file (ad esempio vedere la schermata Editor dati di cui sopra). Nella casella sul lato destro dello schermo Editor di dati, è il modo in cui hai digitato le variabili nella sezione, non la sezione che è necessario entrare nel codice (vedi sotto per la nostra variabile dipendente). Questo può sembrare ovvio, ma è un errore che a volte è fatta, con conseguente errore nella precedente nota 2. Quindi, inserire il codice, regredire colesterolo timetv. e premere il pulsante ReturnEnter sulla tastiera. Pubblicato con il permesso scritto da parte StataCorp LP. È possibile visualizzare l'output Stata che sarà prodotta qui. Interfaccia grafica utente (GUI) I tre passaggi necessari per effettuare la regressione lineare in Stata 12 e 13 sono riportati di seguito: Fare clic su S TATISTICHE GT Modelli lineari e dei relativi regressione lineare GT nel menu principale, come illustrato di seguito: Pubblicato con il permesso scritto di StataCorp LP. Verrà presentato con regresso ndash finestra di dialogo Regressione lineare: Pubblicato con il permesso scritto da parte StataCorp LP. Selezionare il colesterolo dal di dentro la variabile dipendente: casella a discesa, e timetv dall'interno delle variabili indipendenti: casella a discesa. Vi ritroverete con la seguente schermata: Pubblicato con il permesso scritto da parte StataCorp LP. Uscita di analisi di regressione lineare in Stata Se i dati passati ipotesi 3 (cioè vi era una relazione lineare tra le due variabili), 4 (vale a dire non c'erano valori anomali significativi), assunzione 5 (cioè si aveva l'indipendenza delle osservazioni), assunzione 6 ( vale a dire i dati hanno mostrato omoschedasticità) e assunzione 7 (cioè i residui (errori) sono stati di circa normalmente distribuito), che abbiamo spiegato in precedenza nella sezione ipotesi, si avrà solo bisogno di interpretare il seguente output di regressione lineare in Stata: Pubblicato con il permesso scritto da parte StataCorp LP. L'uscita consiste di quattro importanti informazioni: (a) il 2 valore di R (riga R-squared) rappresenta la proporzione della varianza nella variabile dipendente che può essere spiegato con la nostra variabile indipendente (tecnicamente è la percentuale di variazione rappresentato dal modello di regressione al di sopra e al di là del modello di media). Tuttavia, R 2 è basato sul campione ed è una stima positivamente distorta della proporzione della varianza della variabile dipendente rappresentato dal modello di regressione (cioè è troppo grande) (b) un nuovo valore R 2 (Adj R - fila al quadrato), che corregge bias positivo per fornire un valore che ci si aspetterebbe nella popolazione (c) il valore F, i gradi di libertà (F (1, 98)) e la significatività statistica del modello di regressione (Prob GT F fila) e (d) i coefficienti per la variabile costante e indipendente (colonna Coef.), che è le informazioni necessarie per prevedere la variabile dipendente, il colesterolo. utilizzando la variabile indipendente, timetv. In questo esempio, R 2 0,151. Rettificato R 2 0.143 (3 d. p.), il che significa che la variabile indipendente, timetv. spiega 14.3 della variabilità della variabile dipendente, il colesterolo. nella popolazione. Rettificato R 2 è anche una stima della dimensione dell'effetto, che a 0,143 (14.3), è indicativa di medie dimensioni effetto, secondo Cohen (1988) classificazione. Tuttavia, di solito si tratta di R 2 non rettificato R 2 che viene riportato nei risultati. In questo esempio, il modello di regressione è statisticamente significativa, F (1, 98) 17,47, p .0001. Ciò indica che, nel complesso, il modello applicato può statisticamente significativo prevedere la variabile dipendente, il colesterolo. Nota: Vi presentiamo l'uscita dalla regressione lineare sopra. Tuttavia, dal momento che si dovrebbe avere testato i dati per le ipotesi che abbiamo spiegato in precedenza nella sezione Ipotesi, sarà anche necessario per interpretare l'output Stata che è stato prodotto quando testato per queste ipotesi. Questo include: (a) i grafici a dispersione che hai utilizzato per controllare se ci fosse una relazione lineare tra le due variabili (cioè Assunzione 3) (b) la diagnostica per casi per verificare non vi erano valori anomali significativi (cioè Assunzione 4) (c) l'uscita dal la statistica di Durbin-Watson per verificare l'indipendenza delle osservazioni (cioè Assunzione 5) (d) un grafico a dispersione dei residui di regressione standardizzato rispetto al valore previsto di regressione standardizzato per determinare se i dati hanno mostrato omoschedasticità (ovvero Assunzione 6) e un istogramma (con sovrapposto curva normale) e normale Plot PP per verificare se i residui (errori) sono stati circa una distribuzione normale (cioè Assunzione 7). Inoltre, ricorda che se i dati non sono riusciti qualsiasi di queste ipotesi, l'output che si ottiene dalla procedura di regressione lineare (cioè l'uscita discutiamo sopra) non sarà più rilevanti, e potrebbe essere necessario effettuare un test statistico diverso da analizzare i tuoi dati. Segnalazione l'output di analisi di regressione lineare Quando si riporta l'uscita del regressione lineare, è buona norma includere: (a) una introduzione all'analisi voi effettuata (b) le informazioni sul campione, comprese le eventuali valori mancanti (c) la F - value osservato, gradi di libertà e significato livello (ossia il p - value) (d) la percentuale di variabilità nella variabile dipendente spiegata dalla variabile indipendente (cioè l'rettificato R 2) e (e) l'equazione di regressione per il modello. Sulla base dei risultati di cui sopra, si potrebbe riportare i risultati di questo studio come segue: A regressione lineare ha stabilito che il tempo quotidiano trascorso a guardare la TV in grado di prevedere in modo statisticamente significativo la concentrazione di colesterolo, F (1, 98) 17.47, p .0001 e il tempo trascorso a guardare la TV rappresentato il 14.3 della variabilità spiegato nella concentrazione di colesterolo. L'equazione di regressione è: previsti colesterolo concentrazione -2.135 0.044 x (tempo trascorso a guardare la TV). Oltre al riportare i risultati di cui sopra, un diagramma può essere utilizzato per presentare visivamente i risultati. Ad esempio, è possibile farlo utilizzando un grafico a dispersione con intervalli di confidenza e di previsione (anche se non è molto comune per aggiungere l'ultimo). Questo può rendere più facile per gli altri a capire i risultati. Inoltre, è possibile utilizzare l'equazione di regressione lineare per fare previsioni circa il valore della variabile dipendente in base a diversi valori della variabile indipendente. Mentre Stata non produce questi valori come parte della procedura di regressione lineare sopra, vi è una procedura in Stata che è possibile utilizzare per farlo.

No comments:

Post a Comment