Tuesday 6 June 2017

Poly In Stata Forex


Risco Idiosyncratic BREAKING Down Risco Idiosyncratic Risco Idiosyncratic pode ser pensado como os fatores que afetam um ativo, como um estoque e sua empresa subjacente no nível microeconômico. O risco idiosincrásico tem pouca ou nenhuma correlação com o risco de mercado. E, portanto, pode ser substancialmente mitigada ou eliminada de uma carteira usando uma diversificação adequada. A pesquisa sugere que o risco idiossincrático representa a maior parte da variação no risco de estoque individual ao longo do tempo e não o risco de mercado. Como o risco idiossincrásico é, por definição, geralmente imprevisível, os investidores procuram minimizar seu impacto negativo em uma carteira de investimentos por diversificação ou hedge. O risco sistemático é os fatores macroeconômicos que afetam não apenas um ativo único, mas outros ativos como ele e mercados e economias maiores também. O risco sistemático não pode ser eliminado adicionando mais e mais ativos a um portfólio. Por exemplo, o risco de mercado não pode ser eliminado adicionando ações de vários setores a uma carteira de investimentos, independentemente do número deles. Exemplos de risco idiossincrásico Todas as empresas de pipeline e suas ações enfrentam o risco idiossincrático de que suas tubulações podem se danificar, derramar petróleo e gerar despesas de reparos, ações judiciais ou multas de agências governamentais. Circunstâncias infelizes como essas podem fazer com que a empresa reduza as distribuições aos investidores e faça com que o estoque caia no preço. O risco de uma empresa de gasodutos incorrer em danos maciços por causa de um derramamento de óleo pode ser mitigado investindo em uma ampla seção transversal de ações dentro do portfólio. Um fator macroeconômico, no entanto, não pode ser diversificado, pois afeta não apenas os estoques de pipeline, mas todos os estoques. Se as taxas de juros aumentam, por exemplo, o valor das ações de uma empresa de pipeline provavelmente se ajustará a todas as outras ações. Isso é um risco sistemático. Outro exemplo de risco idiossincrático é a dependência da empresa do CEO. Quando o CEO e co-fundador da Apple, Steve Jobs, adoeceu e demitiu-se da empresa, o estoque de maçãs continuou a apreciar em termos absolutos, mas sua avaliação em relação aos múltiplos de preços caiu. Depois que o Jobs faleceu, as ações das maçãs foram negociadas mais baixas. Jobs era conhecido por ser um visionário e virar a Apple como tal, sua liderança fazia parte do sucesso das Maçãs e, finalmente, do preço das ações. Riscos Idiosyncráticos Comuns As decisões de gestão da empresa em política financeira, política de investimentos e operações são todos riscos idiossincráticos específicos para uma determinada empresa e estoque. Outros exemplos podem incluir a localização das operações e a cultura da empresa. Em contrapartida, os riscos não idiossincráticos podem incluir taxas de juros, inflação, crescimento econômico ou política tributária. Bem-vindo ao Instituto de Pesquisas Digitais e Regressão Educacional com SAS Capítulo 5: Sistemas de codificação adicionais para variáveis ​​categóricas na análise de regressão Resumo do Capítulo 5.1 Codificação Simples 5.2 Diferença Avançada Codificação 5.3 Codificação de diferença para trás 5.4 Codificação Helmert 5.5 Codificação Helmert reversa 5.6 Codificação de desvio 5.7 Codificação polinomial ortogonal 5.8 Codificação definida pelo usuário 5.9 Resumo As variáveis ​​categóricas requerem atenção especial na análise de regressão porque, ao contrário de variáveis ​​dicotômicas ou contínuas, elas não podem entrar na equação de regressão Tal como estão. Por exemplo, se você tem uma variável chamada raça que é codificada 1 hispânica, 2 Asian 3 Black 4 White, então entrar na corrida em sua regressão analisará o efeito linear da raça, o que provavelmente não é o que você pretendia. Em vez disso, variáveis ​​categóricas como essa precisam ser recodificadas em uma série de variáveis ​​que podem ser inseridas no modelo de regressão. Existem uma variedade de sistemas de codificação que podem ser usados ​​na codificação de variáveis ​​categóricas. Idealmente, você escolheria um sistema de codificação que reflete as comparações que você deseja fazer. No Capítulo 3 da Regressão com o Web Book SAS, cobrimos o uso de variáveis ​​categóricas na análise de regressão centrada no uso de variáveis ​​dummy, mas esse não é o único esquema de codificação que você pode usar. Por exemplo, você pode querer comparar cada nível com o próximo nível superior, caso em que você gostaria de usar uma codificação de diferença diferente, ou você pode querer comparar cada nível com a média dos níveis subsequentes da variável, caso em que Você gostaria de usar a codificação quotHelmertquot. Ao escolher deliberadamente um sistema de codificação, você pode obter comparações que são mais significativas para testar suas hipóteses. Independentemente do sistema de codificação que você escolher, o teste do efeito geral da variável categórica (ou seja, o efeito geral da raça) permanecerá o mesmo. Abaixo está uma tabela listando vários tipos de contrastes e a comparação que eles fazem. Nome do contraste Compara cada nível de uma variável com o nível de referência Níveis adjacentes de uma variável (cada nível menos o próximo nível) Níveis adjacentes de uma variável (cada nível menos o nível anterior) Compare os níveis de uma variável com a média do subsequente Níveis da variável Compara os níveis de uma variável com a média dos níveis anteriores da variável Compara os desvios com os grandes contrastes polinomiais ortogonais principais Existem algumas notas a serem feitas sobre os sistemas de codificação listados acima. A primeira é que eles representam comparações planejadas e não comparações posteriores. Em outras palavras, eles são comparações que você planeja fazer antes de começar a analisar seus dados, não as comparações que você pensa, uma vez que você viu os resultados das análises preliminares. Além disso, algumas formas de codificação fazem mais sentido com as variáveis ​​categóricas categóricas do que com as variáveis ​​categóricas nominais. Abaixo, vamos mostrar exemplos usando a raça como uma variável categórica, que é uma variável nominal. Como a codificação de efeitos simples compara a média da variável dependente para cada nível da variável categórica com a média da variável dependente para o nível de referência, faz sentido com uma variável nominal. No entanto, pode não ter muito sentido usar um esquema de codificação que teste o efeito linear da raça. À medida que descrevemos cada tipo de sistema de codificação, observamos os sistemas de codificação com os quais não faz muito sentido usar uma variável nominal. Além disso, você pode notar que seguimos várias regras ao criar os esquemas de codificação de contraste. Para obter mais informações sobre essas regras, consulte a seção sobre codificação definida pelo usuário. Esta página irá ilustrar duas maneiras pelas quais você pode realizar análises usando esses esquemas de codificação: 1) usando proc glm com instruções de estimativa para definir quotcontrastquot coeficientes que especificam níveis da variável categórica que devem ser comparados e 2) usando proc reg. Ao usar o proc reg para fazer contrastes, primeiro você precisa criar novas variáveis ​​k-1 (onde k é o número de níveis da variável categórica) e use essas novas variáveis ​​como preditores em seu modelo de regressão. O método 1 usa um tipo de codificação que chamaremos de codificação de quotcontrast enquanto o método 2 usa um tipo de codificação que chamaremos de quotregressão de codificação. O Exemplo de Arquivo de Dados Os exemplos nesta página usarão o conjunto de dados chamado hsb2.sas7bdat e nos focaremos na raça variável categórica. Que tem quatro níveis (1 hispânico, 2 asiáticos, 3 afro-americanos e 4 brancos) e usaremos a escrita como nossa variável dependente. Embora nosso exemplo use uma variável com quatro níveis, esses sistemas de codificação funcionam com variáveis ​​que têm mais ou menos categorias. Independentemente do sistema de codificação que você selecionar, você terá sempre menos variáveis ​​recodificadas do que os níveis da variável original. No nosso exemplo, nossa variável categórica tem quatro níveis, então teremos três novas variáveis ​​(uma variável correspondente ao nível final das variáveis ​​categóricas seria redundante e, portanto, desnecessária). Antes de considerar qualquer análise, olhe para a média da variável dependente, escreva. Para cada nível de raça. Isso ajudará na interpretação do resultado das análises posteriores. Os resultados da codificação simples são muito semelhantes à codificação falsa, na medida em que cada nível é comparado ao nível de referência. No exemplo abaixo, o nível 4 é o nível de referência e a primeira comparação compara o nível 1 com o nível 4, a segunda comparação compara o nível 2 com o nível 4 e a terceira comparação compara o nível 3 com o nível 4. Método 1: PROC GLM A tabela Abaixo mostra a codificação simples que faz as comparações descritas acima. O primeiro contraste compara o nível 1 com o nível 4 e o nível 1 é codificado como 1 e o nível 4 é codificado como -1. Do mesmo modo, o segundo contraste compara o nível 2 com o nível 4, codificando o nível 2 como 1 e o nível 4 como -1. Como você pode ver com codificação de contraste, você pode discernir o significado das comparações simplesmente inspecionando os coeficientes de contraste. Por exemplo, olhando os coeficientes de contraste para c3, você pode ver que ele compara o nível 3 com o nível 4. Codificação de contraste SIMPLE Nova variável 1 (c1) Nova variável 2 (c2) Abaixo, ilustramos como formar essas comparações usando proc glm. Como você vê, uma declaração de estimativa separada é usada para cada contraste. A estimativa de contraste para o primeiro contraste compara a média da variável dependente, escreva. Para os níveis 1 e 4 produzindo -7.597 e é estatisticamente significativo (plt.000). O valor t associado a este teste é -3,82. Os resultados do segundo contraste, comparando a média de escrita para os níveis 2 e 4, não são estatisticamente significativos (t 1,40, p. 1638), enquanto o terceiro contraste é estatisticamente significativo. Por favor, note que enquanto incluímos a saída SAS completa para este exemplo, mostraremos apenas a saída relevante em exemplos posteriores para economizar espaço. Método 2: Regressão A codificação de regressão é um pouco mais complexa do que a codificação de contraste. No nosso exemplo abaixo, o nível 4 é o nível de referência e x1 compara o nível 1 ao nível 4, o x2 compara o nível 2 com o nível 4 e o x3 compara o nível 3 com o nível 4. Para x1, a codificação é 34 para o nível 1 e -14 Para todos os outros níveis. Da mesma forma, para x2, a codificação é de 34 para o nível 2 e -14 para todos os outros níveis, e para x3 a codificação é de 34 para o nível 3 e -14 para todos os outros níveis. Não é intuitivo que este esquema de codificação de regressão produz essas comparações no entanto, se você deseja comparações simples, você pode seguir esta regra geral para obter essas comparações. SIMPLE regressão codificação Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) 3 (afro-americano) Abaixo, mostramos a regra mais geral para criar esse tipo de esquema de codificação usando a codificação de regressão, onde k é o número de Níveis da variável categórica (neste caso, k 4). SIMPLE regressão codificação Nova variável 1 (x1) Nova variável 2 (x2) Abaixo, ilustramos como criar x1. X2 e x3 e insira essas novas variáveis ​​no modelo de regressão usando proc reg. Você notará que os coeficientes de regressão na tabela abaixo são os mesmos que os coeficientes de contraste que vimos usando proc glm. Tanto o coeficiente de regressão para x1 como a estimativa de contraste para c1 são a média de escrita para o nível 1 de raça (hispânico) menos a média de escrita para o nível 4 (branco). Do mesmo modo, o coeficiente de regressão para x2 e a estimativa de contraste para c2 são a média de escrita para o nível 2 (asiático) menos a média de escrita para o nível 4 (branco). Você também pode ver que os valores t e os níveis de significância também são os mesmos da saída proc glm. Por favor, note que enquanto incluímos a saída SAS completa para este exemplo, mostraremos apenas a saída relevante em exemplos posteriores para economizar espaço. 5.2 Codificação de diferença direta Neste sistema de codificação, a média da variável dependente para um nível da variável categórica é comparada à média da variável dependente para o próximo nível (adjacente). No nosso exemplo abaixo, a primeira comparação compara a média de escrita para o nível 1 com a média de escrita para o nível 2 da raça (hispânicos minus asiáticos). A segunda comparação compara a média de escrita para o nível 2 menos o nível 3, e a terceira comparação compara a média de escrita para nível 3 menos o nível 4. Esse tipo de codificação pode ser útil com uma variável nominal ou uma variável ordinal. Método 1: PROC GLM FORWARD DIFFERENCE contraste codificação Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Nível 1 v. Nível 2 Nível 2 v. Nível 3 Nível 3 v. Nível 4 3 (afro-americano) Com este sistema de codificação, os níveis adjacentes da variável categórica são comparados. Assim, a média da variável dependente no nível 1 é comparada à média da variável dependente no nível 2: 46.4583 - 58 -11.542, que é estatisticamente significante. Para a comparação entre os níveis 2 e 3, o cálculo do coeficiente de contraste seria 58 - 48.2 9.8, o que também é estatisticamente significante. Finalmente, comparando os níveis 3 e 4, 48.2 - 54.0552 -5.855, uma diferença estatisticamente significante. Um deles conclui que cada nível adjacente de raça é estatisticamente significativamente diferente. Método 2: Regressão Para a primeira comparação, onde o primeiro e segundo níveis são comparados, x1 é codificado 34 para o nível 1 e os outros níveis são codificados -14. Para a segunda comparação em que o nível 2 é comparado com o nível 3, x2 é codificado 12 12 -12 -12 e para a terceira comparação em que o nível 3 é comparado com o nível 4, x3 é codificado 14 14 14 -34. DIFERENÇA AVANÇADA codificação de regressão Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Nível 1 v. Nível 2 Nível 2 v. Nível 3 Nível 3 v. Nível 4 3 (afro-americano) A regra geral para este O esquema de codificação de regressão é mostrado abaixo, onde k é o número de níveis da variável categórica (neste caso k 4). DIFERENÇA PRÓXIMA codificação de regressão Nova variável 1 (x1) Nova variável 2 (x2) Você pode ver o coeficiente de regressão para x1 é a média de escrita para o nível 1 (hispânico) menos a média de escrita para o nível 2 (asiático). Do mesmo modo, o coeficiente de regressão para x2 é a média de escrita para o nível 2 (asiático) menos a média de escrita para o nível 3 (afro-americano) eo coeficiente de regressão para x3 é a média de escrita para o nível 3 (afro-americano) menos A média de escrita para o nível 4 (branco). 5.3 Codificação de diferença para trás Neste sistema de codificação, a média da variável dependente para um nível da variável categórica é comparada com a média da variável dependente para o nível anterior adjacente. No nosso exemplo abaixo, a primeira comparação compara a média de escrita para o nível 2 com a média de escrita para nível 1 de raça (hispânicos minus asiáticos). A segunda comparação compara a média de escrita para o nível 3 menos o nível 2 e a terceira comparação compara a média de escrita para nível 4 menos o nível 3. Esse tipo de codificação pode ser útil com uma variável nominal ou uma variável ordinal. Método 1: PROC GLM BACKWARD DIFFERENCE contraste codificação Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Nível 1 v. Nível 2 Nível 2 v. Nível 3 Nível 3 v. Nível 4 3 (afro-americano) Com este sistema de codificação, os níveis adjacentes da variável categórica são comparados, com cada nível comparado ao nível anterior. Assim, a média da variável dependente no nível 2 é comparada à média da variável dependente no nível 1: 58 - 46.4583 11.542, que é estatisticamente significante. Para a comparação entre os níveis 3 e 2, o cálculo do coeficiente de contraste é 48,2 - 58 -9,8, o que também é estatisticamente significante. Finalmente, comparando os níveis 4 e 3, 54.0552 - 48.2 5.855, uma diferença estatisticamente significante. Um deles conclui que cada nível adjacente de raça é estatisticamente significativamente diferente. Método 2: Regressão Para a primeira comparação, onde o primeiro e segundo níveis são comparados, x1 é codificado 34 para o nível 1 enquanto os outros níveis são codificados -14. Para a segunda comparação em que o nível 2 é comparado com o nível 3, x2 é codificado 12 12 -12 -12 e para a terceira comparação em que o nível 3 é comparado com o nível 4, x3 é codificado 14 14 14 -34. DIFERENÇA PARA ATRÁS codificação de regressão Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Nível 2 v. Nível 1 Nível 3 v. Nível 2 Nível 4 v. Nível 3 3 (afro-americano) A regra geral para este O esquema de codificação de regressão é mostrado abaixo, onde k é o número de níveis da variável categórica (neste caso, k 4). DIFERENÇA ATRÁS codificação de regressão Nova variável 1 (x1) Nova variável 2 (x2) No exemplo acima, o coeficiente de regressão para x1 é a média de escrita para o nível 2 menos a média de escrita para o nível 1 (58- 46.4583 11.542). Do mesmo modo, o coeficiente de regressão para x2 é a média de escrita para o nível 3 menos a média de escrita para o nível 2 eo coeficiente de regressão para x3 é a média de escrita para o nível 4 menos a média de escrita para o nível 3. 5.4 Codificação Helmert A codificação Helmert compara cada nível de uma variável categórica com a média dos níveis subsequentes. Assim, o primeiro contraste compara a média da variável dependente para o nível 1 da raça com a média de todos os níveis subsequentes de raça (níveis 2, 3 e 4), o segundo contraste compara a média da variável dependente para o nível 2 da raça com a média de todos os níveis subseqüentes de raça (níveis 3 e 4) eo terceiro contraste compara a média da variável dependente para o nível 3 da raça com a média de todos os níveis subsequentes de raça (nível 4). Embora esse tipo de sistema de codificação não faça muito sentido com uma variável nominal como a raça. É útil em situações em que os níveis da variável categórica são ordenados, digamos, do menor ao mais alto, ou menor ao maior, etc. Para a codificação Helmert, vemos que a primeira comparação que compara o nível 1 com os níveis 2, 3 e 4 é codificada 1, -13, -13 e -13, refletindo a comparação do nível 1 com todos os outros níveis. A segunda comparação é codificada 0, 1, -12 e -12, refletindo que compara o nível 2 com os níveis 3 e 4. A terceira comparação é codificada 0, 0, 1 e -1, refletindo que o nível 3 é comparado ao nível 4 Método 1: PROC GLM HELMERT codificação de contraste Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Nível 1 v. Mais tarde Nível 2 v. Mais tarde Nível 3 v. Mais tarde 3 (afro-americano) Abaixo, ilustramos Como formar essas comparações usando proc glm com extratos. Note-se que na primeira declaração de estimativa indicamos -333333 e não apenas -.33. Precisamos usar estes muitos decimais, de modo que a soma de todos os coeficientes de contraste (ou seja, 1 -3333333 -3333333 -3333333) é suficientemente próxima de zero, caso contrário, a SAS dirá que o termo não pode ser estimado. A estimativa de contraste para a comparação entre o nível 1 e os níveis remanescentes é calculada tomando a média da variável dependente para o nível 1 e subtraindo a média da variável dependente para os níveis 2, 3 e 4: 46.4583 - (58 48.2 54.0552) 3 -6.960, que é estatisticamente significativo. Isso significa que a média de escrita para o nível 1 da raça é estatisticamente significativamente diferente da média de escrita para os níveis 2 a 4. Conforme mencionado acima, essa comparação provavelmente não é significativa porque a raça variável é nominal. Esse tipo de comparação seria mais significativo se a variável categórica fosse ordinária. Para calcular o coeficiente de contraste para a comparação entre o nível 2 e os níveis posteriores, você subtrai a média da variável dependente para os níveis 3 e 4 da média da variável dependente para o nível 2: 58 - (48.2 54.0552) 2 6.872, que É estatisticamente significativo. A estimativa de contraste para a comparação entre o nível 3 eo nível 4 é a diferença entre a média da variável dependente para os dois níveis: 48.2 - 54.0552 -5.855, que também é estatisticamente significante. Método 2: Regressão Abaixo, vemos um exemplo de codificação de regressão Helmert. Para a primeira comparação (comparando o nível 1 com os níveis 2, 3 e 4), os códigos são 34 e -14 -14 -14. A segunda comparação compara o nível 2 com os níveis 3 e 4 e é codificada 0 23 -13 -13. A terceira comparação compara o nível 3 com o nível 4 e é codificada 0 0 12 -12. Codificação de regressão HELMERT Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) Abaixo, ilustramos como criar x1. X2 e x3 e insira essas novas variáveis ​​no modelo de regressão usando o padrão porc. Como você vê abaixo, o coeficiente de regressão para x1 é a média de escrita para o nível 1 (hispânico) versus todos os níveis subseqüentes (níveis 2, 3 e 4). Do mesmo modo, o coeficiente de regressão para x2 é a média de escrita para o nível 2 menos a média de escrita para os níveis 3 e 4. Finalmente, o coeficiente de regressão para x3 é a média de escrita para o nível 3 menos a média de escrita para o nível 4. 5.5 Codificação Reversa Helmert A codificação Helmert reversa (também conhecida como codificação de diferença) é exatamente o oposto da codificação de Helmert: em vez de comparar cada nível de variável categórica com a média do (s) nível (s) subseqüente (s), cada uma é comparada à média do anterior Nível (s). No nosso exemplo, o primeiro contraste codifica a comparação da média da variável dependente para o nível 2 da raça com a média da variável dependente para o nível 1 da raça. A segunda comparação compara a média da variável dependente nível 3 da raça com os níveis 1 e 2 da raça. E a terceira comparação compara a média da variável dependente para o nível 4 da raça com os níveis 1, 2 e 3. Claramente, esse sistema de codificação não faz muito sentido com nosso exemplo de raça porque é uma variável nominal. No entanto, esse sistema é útil quando os níveis da variável categórica são ordenados de forma significativa. Por exemplo, se tivéssemos uma variável categórica em que o estresse relacionado ao trabalho fosse codificado como baixo, médio ou alto, então, comparar os meios dos níveis anteriores da variável faria mais sentido. Para a codificação Helmert reversa, vemos que a primeira comparação que compara os níveis 1 e 2 é codificada -1 e 1 para comparar esses níveis, e 0 caso contrário. A segunda comparação que compara os níveis 1, 2 com o nível 3 é codificada -12, -12, 1 e 0 e a última comparação que compara os níveis 1, 2 e 3 com o nível 4 são codificadas -13, -13, -13 e 1. Método 1: PROC GLM REVERSE HELMERT codificação de contraste Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Abaixo, ilustramos como formar essas comparações usando proc glm com extratos. Note-se que na terceira declaração de estimativa indicamos -333333 e não apenas -.33. Precisamos usar esses muitos decimais, de modo que a soma de todos os coeficientes de contraste (isto é, -3333333 - .333333 - .333333 1) é suficientemente próxima de zero, caso contrário, a SAS dirá que o termo não pode ser estimado. Uma maneira alternativa, que resolve o problema dos decimais repetidos, é mostrada abaixo. Apenas uma saída é mostrada porque as duas saídas são idênticas. A estimativa de contraste para a primeira comparação mostrada nesta saída foi calculada subtraindo a média da variável dependente para o nível 2 da variável categórica da média da variável dependente para o nível 1: 58 - 46.4583 11.542. Esse resultado é estatisticamente significativo. A estimativa de contraste para a segunda comparação (entre o nível 3 e os níveis anteriores) foi calculada subtraindo a média da variável dependente para os níveis 1 e 2 do nível 3: 48,2 - (46,4583 58) 2 -4,029. Este resultado não é estatisticamente significante, o que significa que não há uma diferença confiável entre a média de escrita para o nível 3 de raça em comparação com a média de escrita para os níveis 1 e 2 (hispânicos e asiáticos). Conforme mencionado acima, esse tipo de sistema de codificação não faz muito sentido para uma variável nominal, como a raça. Para a comparação do nível 4 e dos níveis anteriores, você toma a média da variável dependente para esses níveis e subtrai-lo da média da variável dependente para o nível 4: 54.0552 - (46.4583 58 48.2) 3 3.169. Esse resultado é estatisticamente significativo. Método 2: Regressão A codificação de regressão para a codificação Helmert reversa é mostrada abaixo. Para a primeira comparação, onde o primeiro e o segundo nível são comparados, x1 é codificado -12 e 12 e 0 caso contrário. Para a segunda comparação, os valores de x2 são codificados -13 -13 23 e 0. Finalmente, para a terceira comparação, os valores de x3 são codificados -14 -14 -14 e 34. REVERSE HELMERT codificação de regressão Nova variável 1 (x1 ) Nova variável 2 (x2) Nova variável 3 (x3) Abaixo, ilustramos como criar x1. X2 e x3 e insira essas novas variáveis ​​no modelo de regressão usando proc reg. Nos exemplos acima, tanto o coeficiente de regressão para x1 quanto a estimativa de contraste para c1 seria a média de escrita para o nível 1 (hispânico) menos a média de escrita para o nível 2 (asiático). Do mesmo modo, o coeficiente de regressão para x2 e a estimativa de contraste para c2 seria a média de escrita para os níveis 1 e 2 combinados menos a média de escrita para o nível 3. Finalmente, o coeficiente de regressão para x3 e a estimativa de contraste para c3 seria o Significa escrever para os níveis 1, 2 e 3 combinados menos a média de escrita para o nível 4. 5.6 Codificação do desvio Este sistema de codificação compara a média da variável dependente para um determinado nível com a média global da variável dependente. No nosso exemplo abaixo, a primeira comparação compara nível 1 (hispânicos) com todos os níveis de raça. A segunda comparação compara o nível 2 (asiáticos) com todos os níveis de raça. E a terceira comparação compara nível 3 (afro-americanos) com todos os níveis de raça. Como você pode ver, a lógica da codificação do contraste é bastante direta. A primeira comparação compara o nível 1 com os níveis 2, 3 e 4. Um valor de 34 é atribuído ao nível 1 e um valor de -14 é atribuído aos níveis 2, 3 e 4. Da mesma forma, a segunda comparação compara o nível 2 com os níveis 1 , 3 e 4. Um valor de 34 é atribuído ao nível 2 e um valor de -14 é atribuído aos níveis 1, 3 e 4. Um padrão semelhante é seguido para atribuir valores para a terceira comparação. Note que você poderia substituir 3 por 34 e 1 por 14 e você obteria o mesmo teste de significância, mas o coeficiente de contraste seria diferente. Método 1: PROC GLM DEVIATION codificação de contraste Nova variável 1 (c1) Nova variável 2 (c2) Nova variável 3 (c3) Abaixo, ilustramos como formar essas comparações usando proc glm. A estimativa de contraste é a média para o nível 1 menos a média principal. No entanto, esse grande significado não é a média da variável dependente que está listada na saída do comando de meios acima. Em vez disso, é a média dos meios da variável dependente em cada nível da variável categórica: (46.4583 58 48.2 54.0552) 4 51.678375. Essa estimativa de contraste é então 46.4583 - 51.678375 -5.220. A diferença entre este valor e zero (a hipótese nula de que o coeficiente de contraste é zero) é estatisticamente significativa (p .0016) e o valor t para este teste de -3,20. Os resultados para os dois contrastes seguintes foram calculados de forma semelhante. Método 2: Regressão Como você vê no exemplo abaixo, a codificação de regressão é realizada atribuindo 1 ao nível 1 para a primeira comparação (porque o nível 1 é o nível a ser comparado com todos os outros), um de 1 a 2 para o segundo Comparação (porque o nível 2 deve ser comparado com todos os outros) e 1 para o nível 3 para a terceira comparação (porque o nível 3 deve ser comparado com todos os outros). Observe que um -1 é atribuído ao nível 4 para todas as três comparações (porque é o nível que nunca é comparado aos outros níveis) e todos os outros valores são atribuídos a 0. Esse esquema de codificação de regressão produz as comparações descritas acima. Codificação de regressão DEVIATION Nova variável 1 (x1) Nova variável 2 (x2) Nova variável 3 (x3) 3 (afro-americano) Abaixo, ilustramos como criar x1. X2 e x3 e insira essas novas variáveis ​​no modelo de regressão usando proc reg. Neste exemplo, tanto o coeficiente de regressão para x1 é a média de escrita para o nível 1 (hispânico) menos a grande média de escrita. Do mesmo modo, o coeficiente de regressão para x2 é a escrita média para o nível 2 (asiático) menos a grande média de escrita. e assim por diante. Como vimos nas análises anteriores, os três contrastes são estatisticamente significantes. 5.7 Codificação polinomial ortogonal A codificação polinomial ortogonal é uma forma de análise de tendências, na medida em que procura as tendências linear, quadrática e cúbica na variável categórica. Este tipo de sistema de codificação deve ser usado apenas com uma variável ordinal em que os níveis estão igualmente espaçados. Exemplos de tal variável podem ser renda ou educação. A tabela abaixo mostra os coeficientes de contraste para as tendências linear, quadrática e cúbica para os quatro níveis. Estes poderiam ser obtidos na maioria dos livros de estatísticas em modelos lineares. 3 (afro-americano) Método 1: PROC GLM Para calcular as estimativas de contraste para essas comparações, você precisa multiplicar o código usado na nova variável pela média para a variável dependente para cada nível da variável categórica e, em seguida, somar os valores . Por exemplo, o código usado em x1 para o nível 1 da raça é -671 e a média de escrita para o nível 1 é 46.4583. Assim, você multiplicaria -671 e 46.4583 e adicionaria isso ao produto do código para o nível 2 de x1 e seu significado, e assim por diante. Para obter a estimativa de contraste para o contraste linear, você faria o seguinte: -.67146.4583 -.22458 .22448.2 .67154.0552 2.905 (com erro de arredondamento). Este resultado não é estatisticamente significativo no nível alfa .05, mas está próximo. O componente quadrático também não é estatisticamente significativo, mas o cúbico é. Isso sugere que, se a média da variável dependente fosse traçada contra a raça. A linha tenderia a ter duas curvas. Conforme mencionado anteriormente, esse tipo de sistema de codificação não faz muito sentido com uma variável nominal, como a raça. Método 2: Regressão A codificação de regressão para codificação polinomial ortogonal é a mesma que a codificação de contraste. Abaixo você pode ver o código SAS para criar x1. X2 e x3 que correspondem às tendências lineares, quadráticas e cúbicas da raça. Os coeficientes de regressão obtidos a partir desta análise são os mesmos que os coeficientes de contraste obtidos usando proc glm. 5.8 Codificação definida pelo usuário Você pode usar SAS para qualquer tipo geral de esquema de codificação. Para o nosso exemplo, gostaríamos de fazer as seguintes três comparações: 1) nível 1 para nível 3 2) nível 2 para níveis 1 e 4 3) níveis 1 e 2 para níveis 3 e 4. Para comparar o nível 1 com o nível 3, usamos os coeficientes de contraste 1 0 -1 0. Para comparar o nível 2 com os níveis 1 e 4 usamos os coeficientes de contraste -12 1 0 -12. Finalmente, para comparar os níveis 1 e 2 com os níveis 3 e 4 usamos os coeficientes 12 12 -12 -12. Antes de prosseguir com o código SAS necessário para realizar essas análises, vamos demorar um momento para explicar melhor a lógica por trás da seleção desses coeficientes de contraste. Para o primeiro contraste, estamos comparando o nível 1 com o nível 3 e os coeficientes de contraste são 1 0 -1 0. Isso significa que os níveis associados aos coeficientes de contraste com sinais opostos estão sendo comparados. De fato, a média da variável dependente é multiplicada pelo coeficiente de contraste. Portanto, os níveis 2 e 4 não estão envolvidos na comparação: eles são multiplicados por zero e quotdropped out. quot Você também notará que os coeficientes de contraste somam para zero. Isso é necessário. Se os coeficientes de contraste não somarem para zero, o contraste não é estimável e o SAS emitirá uma mensagem de erro. Which level of the categorical variable is assigned a positive or negative value is not terribly important: 1 0 -1 0 is the same as -1 0 1 0 in that both of these codings compare the first and the third levels of the variable. However, the sign of the regression coefficient would change. Now lets look at the contrast coefficients for the second and third comparisons. You will notice that in both cases we use fractions that sum to one (or minus one). They do not have to sum to one (or minus one). You may wonder why we would use fractions like -12 1 0 -12 instead of whole numbers such as -1 2 0 -1. While -12 1 0 -12 and -1 2 0 -1 both compare level 2 with levels 1 and 4 and both will give you the same t-value and p-value for the regression coefficient, the contrast estimatesregression coefficients themselves would be different, as would their interpretation. The coefficient for the -12 1 0 -12 contrast is the mean of level 2 minus the mean of the means for levels 1 and 4: 58 - (46.4583 54.0552)2 7.74325. (Alternatively, you can multiply the contrasts by the mean of the dependent variable for each level of the categorical variable: -1246.4583 158.00 048.20 -1254.0552 7.74325. Clearly these are equivalent ways of thinking about how the contrast coefficient is calculated.) By comparison, the coefficient for the -1 2 0 -1 contrast is two times the mean for level 2 minus the means of the dependent variable for levels 1 and 4: 258 - (46.4583 54.0552) 15.4865, which is the same as -146.4583 258 048.20 - 154.0552 15.4865. Note that the regression coefficient using the contrast coefficients -1 2 0 -1 is twice the regression coefficient obtained when -12 1 0 -12 is used. Method 1: PROC GLM In order to compare level 1 to level 3, we use the contrast coefficients 1 0 -1 0. To compare level 2 to levels 1 and 4 we use the contrast coefficients -12 1 0 -12. Finally, to compare levels 1 and 2 with levels 3 and 4, we use the coefficients 12 12 -12 -12. These coefficients are used in the estimate statements below. The contrast estimate for the first comparison is the mean of level 1 minus the mean for level 3, and the significance of this is .525, i. e. not significant. The second contrast estimate is 7.743, which is the mean of level 2 minus the mean of level 1 and level 4, and this difference is significant, p 0.008. The final contrast estimate is 1.1 which is the mean of levels 1 and 2 minus the mean of levels 3 and 4, and this contrast is not statistically significant, p .576. Method 2: Regression As in the prior example, we will make the following three comparisons: 1) level 1 to level 3, 2) level 2 to levels 1 and 4 and 3) levels 1 and 2 to levels 3 and 4. For methods 1 and 2 it was quite easy to translate the comparisons we wanted to make into contrast codings, but it is not as easy to translate the comparisons we want into a regression coding scheme. If we know the contrast coding system, then we can convert that into a regression coding system using the SAS program shown below. As you can see, we place the three contrast codings we want into the matrix c and then perform a set of matrix operations on c, yielding the matrix x . We then display x using the print command. Below we see the output from this program showing the regression coding scheme we would use. This converted the contrast coding into the regression coding that we need for running this analysis with proc reg . Below, we use if-then statements to create x1 . x2 and x3 according to the coding shown above and then enter them into the regression analysis. The first comparison of the mean of the dependent variable for level 1 to level 3 of the categorical variable was not statistically significant, while the comparison of the mean of the dependent variable for level 2 to that of levels 1 and 4 was. The comparison of the mean of the dependent variable for levels 1 and 2 to that of levels 3 and 4 also was not statistically significant. This page has described a number of different coding systems that you could use for categorical data, and two different strategies you could use for performing the analyses. You can choose a coding system that yields comparisons that make the most sense for testing your hypotheses. In general we would recommend using the easiest method that accomplishes your goals. 5.10 Additional Information Here are some additional resources. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment