суббота, 16 июня 2018 г.

Running ols regression in stata forex


Quão ruim é usar OLS em vez de efeitos fixos quando você tem 7 anos de dados de painel. Pelo que entendi, o risco é que os coeficientes estejam correlacionados com o termo de erro, tornando as estimativas tendenciosas. Haverá alguma forma de endogeneidade. Isso ajudaria se eu incluísse manequins de ano na regressão OLS agrupada. Ainda não capturaria os efeitos da intercepção variável na dimensão individual, certo. Uma das minhas principais variáveis ​​explicativas é significativa no nível 5 na regressão FE. No OLS agrupado é significativo no nível 0.001. Este resultado é insignificante ou ainda pode ser usado com a reserva de que é superestimado. Pergunto isso porque a maioria dos parâmetros estimados são fortemente significativos na regressão OLS combinada. Além disso, duas das minhas variáveis ​​explicativas que são constantes caem na regressão FE. Embora sejam de interesse secundário, eles contribuem explicando bastante a variação na variável dependente. (A amostra não é congruente com um modelo de efeitos aleatórios). Existe alguma maneira de decidir qual modelo pode ser mais adequado? Se você conhece algumas coisas que eu devo ter em mente ao implementar os modelos, eu ficaria muito agradecido por escutá-los para 18 de junho 14 em 9: 47NOTICE: o grupo de consultoria estatística IDRE será Migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital Ajudar o Grupo de Consultoria Estatal, dando um presente Regressão com o Stata Capítulo 1 - Regressão simples e múltipla Descrição do capítulo 1.0 Introdução 1.1 Uma primeira análise de regressão 1.2 Dados de exame 1.3 Regressão linear simples 1.4 Regressão múltipla 1.5 Variáveis ​​de transformação 1.6 Resumo 1.7 Auto-avaliação 1.8 Para mais informações Este livro é composto por quatro capítulos que cobrem uma variedade de tópicos sobre o uso do Stata para regressão. Devemos enfatizar que este livro é sobre quotdata analysisquot e que demonstra como Stata pode ser usado para análise de regressão, em oposição a um livro que cobre a base estatística de regressão múltipla. Assumimos que você teve pelo menos um curso de estatísticas que cobre a análise de regressão e que você tenha um livro de regressão que você pode usar como referência (veja a página Regressão com Stata e nossa página de Livros de Estatísticas para Empréstimos para livros de análise de regressão recomendados). Este livro foi concebido para aplicar o seu conhecimento de regressão, combiná-lo com instruções sobre o Stata, para realizar, compreender e interpretar análises de regressão. Este primeiro capítulo abordará tópicos em regressão simples e múltipla, bem como as tarefas de suporte que são importantes na preparação para analisar seus dados, e. Verificação de dados, familiarizar-se com seu arquivo de dados e examinar a distribuição de suas variáveis. Vamos ilustrar o básico de regressão simples e múltipla e demonstrar a importância de inspecionar, verificar e verificar seus dados antes de aceitar os resultados de sua análise. Em geral, esperamos mostrar que os resultados de sua análise de regressão podem ser enganosos sem mais exames de seus dados, o que poderia revelar relacionamentos que uma análise casual poderia ignorar. Neste capítulo, e em capítulos subsequentes, estaremos usando um arquivo de dados que foi criado pela amostra aleatorizada de 400 escolas primárias do conjunto de dados do Departamento de Educação da Califórnia 2000. Este arquivo de dados contém uma medida do desempenho acadêmico da escola, bem como outros atributos das escolas primárias, como tamanho da turma, inscrição, pobreza, etc. Você pode acessar este arquivo de dados na Web a partir do Stata com o comando de uso do Stata como mostrado abaixo. Nota: Não digite o ponto inicial no comando - o ponto é uma convenção para indicar que a instrução é um comando Stata. Depois de ler o arquivo, você provavelmente deseja armazenar uma cópia no seu computador (então você não precisa ler isso na web sempre). Digamos que você está usando o Windows e deseja armazenar o arquivo em uma pasta chamada c: regstata (você pode escolher um nome diferente, se quiser). Primeiro, você pode fazer essa pasta dentro do Stata usando o comando mkdir. Podemos então mudar para esse diretório usando o comando cd. E então, se você salvar o arquivo, ele será salvo na pasta c: regstata. Permite salvar o arquivo como elemapi. Agora o arquivo de dados é salvo como c: regstataelemapi. dta e você pode desistir do Stata e o arquivo de dados ainda estaria lá. Quando você deseja usar o arquivo no futuro, você usaria apenas o comando cd para mudar para o diretório c: regstata (ou o que você chamou) e, em seguida, use o arquivo elemapi. 1.1 Uma primeira análise de regressão Permite mergulhar diretamente e realizar uma análise de regressão usando as variáveis ​​api00. Acsk3. Refeições e cheio. Estes medem o desempenho acadêmico da escola (api00), o tamanho médio das aulas no jardim de infância até a 3ª série (acsk3), a porcentagem de alunos que recebem refeições gratuitas (refeições) - que é um indicador de pobreza e a porcentagem de professores que têm Credenciais de ensino completas (completo). Esperamos que um melhor desempenho acadêmico seja associado ao menor tamanho da turma, menos alunos recebendo refeições gratuitas e uma maior porcentagem de professores com credenciais de ensino completas. Abaixo, mostramos o comando Stata para testar este modelo de regressão seguido da saída da Stata. Vamos nos concentrar nos três preditores, se eles são estatisticamente significativos e, em caso afirmativo, a direção do relacionamento. O tamanho médio da aula (acsk3. B-2.68), não é estatisticamente significativo no nível 0,05 (p0,055), mas apenas assim. O coeficiente é negativo, o que indicaria que o tamanho da aula maior está relacionado ao menor desempenho acadêmico - o que é o que esperamos. Em seguida, o efeito das refeições (b-3.70, p.000) é significante e seu coeficiente é negativo, indicando que quanto maior a proporção de alunos recebendo refeições gratuitas, menor será o desempenho acadêmico. Por favor, note que não estamos dizendo que as refeições gratuitas estão causando menor desempenho acadêmico. A variável refeições é altamente relacionada ao nível de renda e funciona mais como uma proxy para a pobreza. Assim, níveis mais altos de pobreza estão associados ao menor desempenho acadêmico. Este resultado também faz sentido. Finalmente, a porcentagem de professores com credenciais completas (full. B0.11, p.232) parece não estar relacionada com o desempenho acadêmico. Isso parece indicar que a porcentagem de professores com credenciais completas não é um fator importante na previsão do desempenho acadêmico - esse resultado foi algo inesperado. Devemos levar esses resultados e escrevê-los para publicação. A partir desses resultados, concluiríamos que o menor tamanho das aulas está relacionado ao maior desempenho, que menos estudantes que recebem refeições gratuitas estão associados ao maior desempenho e que a porcentagem de professores com credenciais completas foi Não relacionado ao desempenho acadêmico nas escolas. Antes de escrever isso para publicação, devemos fazer uma série de cheques para garantir que possamos suportar firmemente esses resultados. Começamos por nos familiarizar mais com o arquivo de dados, fazendo a verificação preliminar de dados, buscando erros nos dados. 1.2 Examinando dados Primeiro, vamos usar o comando de descrição para saber mais sobre esse arquivo de dados. Podemos verificar quantas observações tem e ver os nomes das variáveis ​​que contém. Para fazer isso, simplesmente digitemos Nós não entraremos em todos os detalhes desse resultado. Observe que existem 400 observações e 21 variáveis. Temos variáveis ​​sobre o desempenho acadêmico em 2000 e 1999 e a mudança no desempenho, api00. Api99 e crescimento, respectivamente. Nós também temos várias características das escolas, e. Tamanho da turma, educação dos pais, porcentagem de professores com credenciais completas e de emergência e número de alunos. Note-se que, quando fizemos nossa análise de regressão original, disse que havia 313 observações, mas o comando de descrição indica que temos 400 observações no arquivo de dados. Se você quiser saber mais sobre o arquivo de dados, você pode listar todas ou algumas das observações. Por exemplo, abaixo, listamos as cinco primeiras observações. Isso ocupa muito espaço na página, mas não nos fornece muita informação. Listar nossos dados pode ser muito útil, mas é mais útil se você listar apenas as variáveis ​​que você está interessado. Vamos listar as 10 primeiras observações para as variáveis ​​que analisamos em nossa primeira análise de regressão. Verificamos que, entre as primeiras 10 observações, temos quatro valores faltantes para as refeições. É provável que os dados faltantes para refeições tenham algo a ver com o fato de que o número de observações em nossa primeira análise de regressão foi 313 e não 400. Outra ferramenta útil para aprender sobre suas variáveis ​​é o comando do livro de códigos. Permite fazer um livro de códigos para as variáveis ​​incluídas na análise de regressão, bem como a variável yrrnd. Nós intercalamos alguns comentários sobre esta saída entre colchetes e em negrito. O comando do livro de códigos descobriu uma série de peculiaridades dignas de um exame mais aprofundado. Permite usar o comando de resumo para saber mais sobre essas variáveis. Conforme mostrado abaixo, o comando de resumo também revela o grande número de valores faltantes para refeições (400 - 315 85) e vemos o mínimo incomum para acsk3 de -21. Permite obter um resumo mais detalhado para a acsk3. Em Stata, a vírgula após a lista de variáveis ​​indica que as opções seguem, neste caso, a opção é detalhada. Como você pode ver abaixo, a opção de detalhe oferece os percentis, os quatro maiores e menores valores, medidas de tendência e variância central, etc. Observe que resumir. E outros comandos, podem ser abreviados: podemos ter digitado sum acsk3, d. Parece que alguns dos tamanhos das aulas tornaram-se negativos, como se um sinal negativo fosse incorretamente digitado na frente deles. Vamos fazer uma tabela de tamanho da turma para ver se isso parece plausível. Na verdade, parece que alguns dos tamanhos de aula de alguma forma obtiveram sinais negativos na frente deles. Vamos ver o número da escola e do distrito para essas observações para ver se eles são do mesmo distrito. Na verdade, todos eles provêm do distrito 140. Observemos todas as observações para o distrito 140. Todas as observações do distrito 140 parecem ter esse problema. Quando você encontrar esse problema, você deseja voltar para a fonte original dos dados para verificar os valores. Temos que revelar que fabricamos esse erro para fins de ilustração e que os dados reais não tiveram esse problema. Vamos fingir que verificamos com o distrito 140 e houve um problema com os dados lá, um hífen foi acidentalmente colocado na frente do tamanho das aulas tornando-os negativos. Vamos fazer uma nota para corrigir isso. Vamos continuar a verificar os nossos dados. Examinamos alguns métodos gráficos para inspecionar dados. Para cada variável, é útil inspecioná-los usando um histograma, uma caixa e um gráfico de haste e folha. Esses gráficos podem mostrar-lhe informações sobre a forma das suas variáveis ​​melhor do que as estatísticas numéricas simples podem. Já conhecemos o problema com a acsk3. Mas vamos ver como esses métodos gráficos teriam revelado o problema com essa variável. Primeiro, mostramos um histograma para acsk3. Isso nos mostra as observações em que o tamanho médio da aula é negativo. Do mesmo modo, um boxplot também chamou essas observações para nossa atenção. Você pode ver as observações negativas externas na parte inferior do boxplot. Finalmente, um enredo de haste e folha também ajudou a identificar essas observações. Esta trama mostra os valores exatos das observações, indicando que havia três -21s, dois -20s e um -19. Recomendamos traçar todos esses gráficos para as variáveis ​​que você estará analisando. Omitiremos, devido a considerações de espaço, mostrando esses gráficos para todas as variáveis. No entanto, ao examinar as variáveis, a trama de haste e folha parece ser bastante incomum. Até agora, não vimos nada problemático com esta variável, mas olhe para o gráfico do caule e da folha para o conteúdo abaixo. Mostra 104 observações onde a percentagem com uma credencial completa é inferior a uma. Este é mais de 25 das escolas, e parece muito incomum. Vamos ver a distribuição de freqüência de cheio para ver se podemos entender isso melhor. Os valores vão de 0,42 para 1,0, depois pular para 37 e subir de lá. Parece que algumas das porcentagens são realmente inseridas como proporções, e. 0.42 foi inserido em vez de 42 ou 0.96 que realmente deveria ter sido de 96. Vejamos de qual (são) distrito (s) esses dados vieram. Observamos que todas as 104 observações em que o total era menor ou igual a um veio do distrito 401. Contamos com o número de observações que existem no distrito 401 usando o comando de contagem e vemos que o distrito 401 possui 104 observações. Todas as observações deste distrito parecem ser registradas como proporções em vez de porcentagens. Novamente, deixe-nos afirmar que este é um problema aparente que inserimos nos dados para fins ilustrativos. Se este fosse um problema da vida real, verificamos com a fonte dos dados e verificamos o problema. Vamos também fazer uma anotação para corrigir esse problema nos dados. Outra técnica gráfica útil para rastrear seus dados é uma matriz de diagrama de dispersão. Embora isso seja provavelmente mais relevante como uma ferramenta de diagnóstico que busca por não-linearidades e outliers em seus dados, também pode ser uma ferramenta de rastreio de dados útil, possivelmente revelando informações nas distribuições conjuntas de suas variáveis ​​que não seriam evidentes na análise de distribuições univariadas . Examine a matriz de dispersão para as variáveis ​​em nosso modelo de regressão. Isso revela os problemas que já identificamos, ou seja, os tamanhos de aula negativos e a porcentagem de credencial completa sendo inserida como proporções. Identificamos três problemas nos nossos dados. Existem inúmeros valores faltantes para as refeições. Houve negativos inseridos acidentalmente antes de alguns tamanhos de aula (acsk3) e mais de um quarto dos valores por completo eram proporções em vez de porcentagens. A versão corrigida dos dados é chamada elemapi2. Permite usar esse arquivo de dados e repetir nossa análise e ver se os resultados são os mesmos que a nossa análise original. Primeiro, repita a análise de regressão original abaixo. Agora, use o arquivo de dados corrigido e repita a análise de regressão. Vemos uma grande diferença nos resultados. Na análise original (acima), acsk3 foi quase significativo, mas na análise corrigida (abaixo), os resultados mostram que esta variável não é significativa, talvez devido aos casos em que o tamanho da turma foi dado Valor negativo. Da mesma forma, a porcentagem de professores com credenciais completas não foi significativa na análise original, mas é significativa na análise corrigida, talvez devido aos casos em que o valor foi dado como a proporção com credenciais completas em vez da porcentagem. Além disso, note que a análise corrigida baseia-se em 398 observações em vez de 313 observações, devido à obtenção dos dados completos para a variável refeições, que teve muitos valores faltantes. A partir deste ponto, usaremos o corrigido, elemapi2. arquivo de dados. Você pode querer salvar isso em seu computador para que você possa usá-lo em futuras análises. Até agora, cobrimos alguns tópicos na verificação de dados, mas não discutimos a análise de regressão propriamente dita. Deixe agora falar mais sobre a realização de análise de regressão na Stata. 1.3 Regressão linear simples Comecemos por mostrar alguns exemplos de regressão linear simples usando Stata. Neste tipo de regressão, temos apenas uma variável preditor. Esta variável pode ser contínua, o que significa que pode assumir todos os valores dentro de um intervalo, por exemplo, idade ou altura, ou pode ser dicotômico, o que significa que a variável pode assumir apenas um dos dois valores, por exemplo, 0 ou 1. O O uso de variáveis ​​categóricas com mais de dois níveis será abordado no Capítulo 3. Há apenas uma resposta ou variável dependente, e é contínua. Em Stata, a variável dependente é listada imediatamente após o comando de regressão seguido de uma ou mais variáveis ​​preditoras. Examinamos a relação entre o tamanho da escola eo desempenho acadêmico para ver se o tamanho da escola está relacionado ao desempenho acadêmico. Para este exemplo, api00 é a variável dependente e inscrição é o preditor. Revise este resultado um pouco com mais cuidado. Primeiro, vemos que o teste F é estatisticamente significativo, o que significa que o modelo é estatisticamente significativo. O R-quadrado de .1012 significa que aproximadamente 10 da variância de api00 são explicadas pelo modelo, neste caso, inscreva-se. O t-test para inscrição é igual a -70, e é estatisticamente significativo, o que significa que o coeficiente de regressão para inscrição é significativamente diferente de zero. Observe que (-6.70) 2 44.89, que é o mesmo que a estatística F (com algum erro de arredondamento). O coeficiente para inscrição é -.1998674, ou aproximadamente -.2, o que significa que para um aumento de uma unidade na matrícula. Esperamos uma diminuição de 0,2 unidades em api00. Em outras palavras, espera-se que uma escola com 1100 alunos tenha uma classificação de api 20 unidades inferior a uma escola com 1000 alunos. A constante é 744.2514, e este é o valor previsto quando se inscreve igual a zero. Na maioria dos casos, a constante não é muito interessante. Nós preparamos um resultado anotado que mostra o resultado dessa regressão, juntamente com uma explicação de cada um dos itens nele. Além de obter a tabela de regressão, pode ser útil ver um diagrama de dispersão das variáveis ​​preditas e de resultados com a linha de regressão traçada. Depois de executar uma regressão, você pode criar uma variável que contenha os valores previstos usando o comando predito. Você pode obter esses valores em qualquer ponto depois de executar um comando de regressão, mas lembre-se que, uma vez que você execute uma nova regressão, os valores previstos serão baseados na regressão mais recente. Para criar valores previstos, basta digitar prever e o nome de uma nova variável Stata lhe dará os valores ajustados. Para este exemplo, nosso novo nome da variável será fv. Então vamos digitar Se usamos o comando da lista, vemos que um valor ajustado foi gerado para cada observação. Abaixo, podemos mostrar um diagrama de dispersão da variável de resultado, api00 e o preditor, inscreva-se. Podemos combinar a dispersão com lfit para mostrar um diagrama de dispersão com valores ajustados. Como você vê, alguns dos pontos parecem ser outliers. Se você usar a opção mlabel (snum) no comando de dispersão, você pode ver o número da escola para cada ponto. Isso nos permite ver, por exemplo, que um dos outliers é a escola 2910. Como vimos anteriormente, o comando predizer pode ser usado para gerar valores preditos (ajustados) após a corrida regredir. Você também pode obter residuais usando o comando predito seguido de um nome de variável, neste caso e. Com a opção residual. Este comando pode ser encurtado para prever e, residir ou mesmo prever e, r. A tabela abaixo mostra alguns dos outros valores que podem ser criados com a opção de previsão. 1.4 Regressão múltipla Agora, vamos ver um exemplo de regressão múltipla, em que temos uma variável de resultado (dependente) e vários preditores. Antes de começar com o nosso próximo exemplo, precisamos tomar uma decisão sobre as variáveis ​​que criamos, porque estaremos criando variáveis ​​semelhantes com nossa regressão múltipla e não queremos confundir as variáveis. Por exemplo, na regressão simples, criamos uma variável fv para nossos valores previstos (e ajustados) e para os resíduos. Se quisermos criar valores previstos para o nosso próximo exemplo, poderíamos chamar o valor previsto de outra coisa, p. Ex. Fvmr. Mas isso poderia começar a ficar confuso. Podemos soltar as variáveis ​​que criamos, usando drop fv e. Em vez disso, limpe os dados na memória e use o arquivo de dados elemapi2 novamente. Quando iniciamos novos exemplos em capítulos futuros, vamos limpar o arquivo de dados existente e usar o arquivo novamente para começar de novo. Para este exemplo de regressão múltipla, vamos regredir a variável dependente, api00. Em todas as variáveis ​​preditoras no conjunto de dados. Examinamos o resultado desta análise de regressão. Tal como acontece com a regressão simples, olhamos para o valor p da prova F para ver se o modelo geral é significativo. Com um p-valor de zero a quatro casas decimais, o modelo é estatisticamente significativo. O R-squared é 0.8446, o que significa que aproximadamente 84 da variabilidade de api00 são explicadas pelas variáveis ​​no modelo. Nesse caso, o R-quadrado ajustado indica que cerca de 84 da variabilidade de api00 é explicada pelo modelo, mesmo depois de ter em conta o número de variáveis ​​preditoras no modelo. Os coeficientes para cada uma das variáveis ​​indicam a quantidade de mudança que se poderia esperar em api00, dada uma alteração de uma unidade no valor dessa variável, uma vez que todas as outras variáveis ​​no modelo são mantidas constantes. Por exemplo, considere a variável ell. Esperamos uma diminuição de 0.86 na pontuação api00 por cada aumento de uma unidade em ell. Supondo que todas as outras variáveis ​​no modelo sejam mantidas constantes. A interpretação de grande parte da saída da regressão múltipla é a mesma que foi para a regressão simples. Nós preparamos um resultado anotado que explica mais detalhadamente o resultado desta análise de regressão múltipla. Você pode estar se perguntando o que realmente significa uma mudança 0.86 em ell e como você pode comparar a força desse coeficiente com o coeficiente para outra variável, digamos refeições. Para resolver este problema, podemos adicionar uma opção ao comando de regressão chamado beta. O que nos dará os coeficientes de regressão padronizados. Os coeficientes beta são usados ​​por alguns pesquisadores para comparar a força relativa dos vários preditores dentro do modelo. Como os coeficientes beta são todos medidos em desvios padrão, em vez das unidades das variáveis, eles podem ser comparados entre si. Em outras palavras, os coeficientes beta são os coeficientes que você obtém se o resultado e as variáveis ​​preditoras fossem todos os escores padrão transformados, também chamados de escores z, antes de executar a regressão. Como os coeficientes na coluna Beta estão todos nas mesmas unidades padronizadas, você pode comparar esses coeficientes para avaliar a força relativa de cada um dos preditores. Neste exemplo, as refeições têm o maior coeficiente Beta, -0,66 (em valor absoluto), e acsk3 possui o menor Beta, 0,013. Assim, um aumento de desvio padrão nas refeições leva a uma diminuição do desvio padrão de 0,66 na api00 prevista. Com as demais variáveis ​​mantidas constantes. E, um aumento de desvio padrão em acsk3. Por sua vez, leva a um aumento de desvio padrão de 0,013 na api00 prevista com as demais variáveis ​​no modelo mantido constante. Ao interpretar esse resultado, lembre-se que a diferença entre os números listados no Coef. Coluna e a coluna Beta está nas unidades de medida. Por exemplo, para descrever o coeficiente bruto para ell, você diria quot. Uma diminuição de uma unidade em ell produziria um aumento de 0,86 unidade no api00.quot previsto. Contudo, para o coeficiente padronizado (Beta), você diria, um padrão A diminuição do desvio em ell produziria um aumento de desvio padrão de .15 no api00 previsto. quot O comando listcoef fornece um resultado mais extenso em relação aos coeficientes padronizados. Não faz parte do Stata, mas você pode baixá-lo pela internet dessa maneira. E depois siga as instruções (veja também Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). Agora que baixamos o listcoef. Podemos executá-lo assim. Vamos comparar a saída de regressão com a saída de listcoef. Você notará que os valores listados no Coef. T, e os valores de Pgtt são os mesmos nas duas saídas. Os valores listados na coluna Beta da saída de regressão são os mesmos que os valores na coluna bStadXY do listcoef. A coluna bStdX dá a mudança de unidade em Y esperada com uma alteração de desvio padrão em X. A coluna bStdY fornece a mudança de desvio padrão em Y esperada com uma alteração de unidade em X. A coluna SDofX dá esse desvio padrão de cada variável de preditores em O modelo. Por exemplo, o bStdX para ell é -21.3, o que significa que um aumento de desvio padrão em ell levaria a uma diminuição esperada de 21,3 unidades em api00. O valor bStdY para ell de -0.0060 significa que, para um aumento de uma unidade, de um por cento, em aprendizes de língua inglesa, esperamos uma redução de desvio padrão de 0,006 em api00. Como os valores do bStdX estão em unidades padrão para as variáveis ​​preditoras, você pode usar esses coeficientes para comparar a força relativa dos preditores, como você compararia os coeficientes Beta. A diferença é BStdX os coeficientes são interpretados como mudanças nas unidades da variável de resultado em vez de em unidades padronizadas da variável de resultado. Por exemplo, o BStdX para refeições versus ell é -94 contra -21, ou cerca de 4 vezes maior, a mesma proporção que a proporção dos coeficientes Beta. Criamos um resultado anotado que explica mais detalhadamente o resultado do listcoef. Até agora, nos preocupamos com o teste de uma única variável de cada vez, por exemplo, analisando o coeficiente para ell e determinando se isso é significativo. Também podemos testar conjuntos de variáveis, usando o comando de teste, para ver se o conjunto de variáveis ​​é significativo. Primeiro, vamos começar testando uma única variável, ell. Usando o comando de teste. Se você comparar esta saída com a saída da última regressão, você pode ver que o resultado do teste F, 16.67, é o mesmo que o quadrado do resultado da t-test na regressão (-4.0832 16.67). Observe que você pode obter os mesmos resultados se você digitar o seguinte, pois o Stata padrão compara o (s) termo (s) listado (s) para 0. Talvez um teste mais interessante seja ver se a contribuição do tamanho da turma é significativa. Uma vez que a informação relativa ao tamanho da turma está contida em duas variáveis, acsk3 e acs46. Nós incluímos estes dois com o comando de teste. O teste F significativo, 3,95, significa que a contribuição coletiva dessas duas variáveis ​​é significante. Uma maneira de pensar nisso é que existe uma diferença significativa entre um modelo com acsk3 e acs46 em comparação com um modelo sem eles, ou seja, há uma diferença significativa entre o modelo quotfullquot e os modelos quotreduced. Finalmente, como parte de fazer uma análise de regressão múltipla, você pode estar interessado em ver as correlações entre as variáveis ​​no modelo de regressão. Você pode fazer isso com o comando correlate como mostrado abaixo. Se olharmos para as correlações com api00. Vemos refeições e temos as duas maiores correlações com api00. Essas correlações são negativas, o que significa que, à medida que o valor de uma variável diminui, o valor da outra variável tende a subir. Sabendo que essas variáveis ​​estão fortemente associadas a api00. Podemos prever que eles seriam variáveis ​​preditoras estatisticamente significativas no modelo de regressão. Também podemos usar o comando pwcorr para fazer correlações em pares. A diferença mais importante entre correlação e pwcorr é a forma como os dados faltantes são tratados. Com correlação. Uma observação ou caso é descartado se qualquer variável tiver um valor faltante, em outras palavras, correlacionar usa listwise. Também chamado de caso, exclusão. Pwcorr usa a exclusão em pares, o que significa que a observação é descartada somente se houver um valor faltando para o par de variáveis ​​sendo correlacionadas. Duas opções que você pode usar com o pwcorr. Mas não com correlação. São a opção sig, que dará os níveis de significância para as correlações e a opção obs, que dará o número de observações utilizadas na correlação. Essa opção não é necessária com corr como Stata lista o número de observações na parte superior da saída. 1.5 Transformando Variáveis ​​Anteriormente nos concentramos em rastrear seus dados para possíveis erros. No próximo capítulo, vamos nos concentrar nos diagnósticos de regressão para verificar se seus dados atendem aos pressupostos de regressão linear. Aqui, vamos nos concentrar na questão da normalidade. Alguns pesquisadores acreditam que a regressão linear requer que o resultado (dependente) e as variáveis ​​preditoras sejam normalmente distribuídas. Precisamos esclarecer este problema. Na realidade, são os resíduos que precisam ser normalmente distribuídos. De fato, os resíduos devem ser normais apenas para que os testes t sejam válidos. A estimativa dos coeficientes de regressão não requerem resíduos normalmente distribuídos. Como estamos interessados ​​em ter t-testes válidos, investigaremos questões relativas à normalidade. Uma causa comum de resíduos não distribuídos normalmente é resultado não distribuído normalmente e ou variáveis ​​preditoras. Então, vamos explorar a distribuição de nossas variáveis ​​e como podemos transformá-las em uma forma mais normal. Comece por fazer um histograma da variável inscrição. Que analisamos anteriormente na regressão simples. Podemos usar a opção normal para sobrepor uma curva normal neste gráfico e a opção bin (20) para usar 20 caixas. A distribuição parece distorcida para a direita. Você também pode querer modificar rótulos dos eixos. Por exemplo, usamos a opção xlabel () para rotular o eixo x abaixo, rotulando de 0 a 1600 incrementando em 100. Os histogramas são sensíveis ao número de caixas ou colunas que são usadas no visor. Uma alternativa aos histogramas é o gráfico da densidade do núcleo, que se aproxima da densidade de probabilidade da variável. As parcelas de densidade de kernel têm a vantagem de serem suaves e de serem independentes da escolha da origem, ao contrário dos histogramas. O Stata implementa gráficos de densidade de kernel com o comando kdensity. Não surpreendentemente, o gráfico de kdensity também indica que a inscrição variável não parece normal. Agora, vamos fazer um boxplot para se inscrever. Usando o comando de caixa de gráfico. Observe os pontos na parte superior do boxplot que indicam possíveis outliers, ou seja, esses pontos de dados são mais de 1,5 (intervalo intercuartil) acima do 75º percentil. Este boxplot também confirma que a inscrição é inclinada para a direita. Existem três outros tipos de gráficos que são freqüentemente usados ​​para examinar a distribuição de variáveis ​​de parcelas de simetria, parcelas de cupé e parcelas de probabilidade normais. Um gráfico de simetria grafica a distância acima da mediana para o i-ésimo valor em relação à distância abaixo da mediana para o i-ésimo valor. Uma variável simétrica teria pontos que se situam na linha diagonal. Como seria de esperar, esta distribuição não é simétrica. Um gráfico quantile normal grafica os quantiles de uma variável contra os quantiles de uma distribuição normal (gaussiana). O qnorm é sensível à não-normalidade perto das caudas, e, de fato, vemos desvios consideráveis ​​do normal, a linha diagonal, nas caudas. Este gráfico é típico de variáveis ​​que são fortemente distorcidas para a direita. Finalmente, o gráfico de probabilidade normal também é útil para examinar a distribuição de variáveis. Pnorm é sensível aos desvios da normalidade mais próxima do centro da distribuição. Mais uma vez, vemos indicações de não-normalidade na inscrição. Having concluded that enroll is not normally distributed, how should we address this problem First, we may try entering the variable as-is into the regression, but if we see problems, which we likely would, then we may try to transform enroll to make it more normally distributed. Potential transformations include taking the log, the square root or raising the variable to a power. Selecting the appropriate transformation is somewhat of an art. Stata includes the ladder and gladder commands to help in the process. Ladder reports numeric results and gladder produces a graphic display. Lets start with ladder and look for the transformation with the smallest chi-square. The log transform has the smallest chi-square. Lets verify these results graphically using gladder . This also indicates that the log transformation would help to make enroll more normally distributed. Lets use the generate command with the log function to create the variable lenroll which will be the log of enroll. Note that log in Stata will give you the natural log, not log base 10. To get log base 10, type log10(var) . Now lets graph our new variable and see if we have normalized it. We can see that lenroll looks quite normal. We would then use the symplot . qnorm and pnorm commands to help us assess whether lenroll seems normal, as well as seeing how lenroll impacts the residuals, which is really the important consideration. In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use Stata to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals See the Stata Topics: Regression page for more information and resources on simple and multiple regression in Stata. 1.7 Self Assessment Make five graphs of api99 . histogram, kdensity plot, boxplot, symmetry plot and normal quantile plot. What is the correlation between api99 and meals Regress api99 on meals . What does the output tell you Create and list the fitted (predicted) values. Graph meals and api99 with and without the regression line. Look at the correlations among the variables api99 meals ell avged using the corr and pwcorr commands. Explain how these commands are different. Make a scatterplot matrix for these variables and relate the correlation results to the scatterplot matrix. Perform a regression predicting api99 from meals and ell . Interpret the output. Click here for our answers to these self assessment questions. 1.8 For More Information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California.

Комментариев нет:

Отправить комментарий