Atualização 2
Resumo
Bioestatística-Ánalis LISREL
IntroduçãoNos últimos meses, recebemos vários trabalhos envolvendo a aplicação de uma análise estatística que, no Brasil, vem ganhando notoriedade a partir do desenvolvimento do software denominado LISREL (Linear Structural Relations)¹. Este artigo tem por objetivo apresentar uma visão geral da análise que se refere a um conjunto de técnicas para testar a adequabilidade de teorias, quando estas são modeladas como equações estruturais.No Brasil, o método de análise LISREL ainda não é muito utilizado, provavelmente devido a complexidade dos conhecimentos técnicos necessários, conjugada à falta de uma literatura nacional que facilite o acesso a esses conhecimentos², todavia, é senso comum dentre os especialistas que o método uma importante aquisição para os pesquisadores, posto que este oferece uma grande potência e versatilidade na análise.Considerações iniciaisUma das funções da inferência estatística é a predição do comportamento de um fenómeno com base no conhecimento do comportamento de outros fenômenos, assim, um medico pode querer prever qual será o tempo de recuperação de um dado paciente com base na sua idade, seu sexo e sua pressão arterial.Na predição referida, são adotadas funções matemáticas que relacionam a variável dependente Tempo de Recuperação (Y) com as variáveis independentes Idade (X1), Sexo (X2) e Pressão Arterial (X3)A despeito das críticas sobre o caráter linear dos fenômenos comportamentais, devido a sua simplicidade, os modelos lineares de relacionamento tendem a ser os mais empregados, nesse sentido o modelo de predição a ser utilizado no exemplo é a Regressão Linear Múltipla que é dado pela função:Y=β¬0 +X1 + β2X2 + β3X3 + ɛ (1)Um modelo matemático é uma descrição funcional da estrutura de relacionamento que se espera observar entre as variáveis que representam os fenômenos, no caso da RLM, presume-se que é razoável admitir que a variável dependente (1 uma combinação linear ponderada das variáveis independentes. Os coeficientes β1, β2 e β3 representam os pesos das variáveis independentes na composição da variável dependente. O coeficiente β0 é empregado para maior generalidade do modelo e a variável e representa o erro ligado ao modelo escolhido.Para se obter uma estimativa da equação de previsão (1), O modelo RLM assume que a variável dependente é aleatória, as variáveis independentes não são aleatórias e que o erro ligado à variável independente tem distribuição normal, com média zero e variância constante, assume também que os erros não são autocorrelacionados e que há uma baixa multicolinearidade entre as variáveis independentes (para melhor descrição dessas hipóteses, veja Hoffmann & Vieira4 ou Hill et al5).As hipóteses assumidas irão permitir estimar os valores dos coeficientes e facultarão a construção de uma equação para prever o valor médio da variável dependente. Nesse sentido, apesar do modelo relacionar o tempo de recuperação com a idade, sexo e pressão arterial do paciente, a equação construída para a previsão irá estimar o tempo médio de recuperação do paciente com base nas variáveis independentes.A análise de regressão e bastante conveniente para problemas de ajustamento em cientificas, onde um relacionamento empírico entre uma variável dependente observada e uma variável independente manipulável deve ser estimado6. Ela também serve bem aos propósitos da investigação biológica, na qual organismos tem tratamentos designados aleatoriamente e diferenças na resposta média entre os grupos de tratamentos são estimadas.Uma característica essencial dessas aplicações é que apenas a variável dependente é assumida como sujeita a uma medida de erro ou outra variação incontrolável. A variável independente é considerada fixa no experimento tendo um valor predeterminado conhecido.O método de regressão ordinária não apresenta um desempenho satisfatório nos estudos puramente observacionais, nos quais todas as variáveis estão sujeitas a erros de medida ou variações incontroláveis e o propósito do estudo é estimar relacionamentos que apontam para variações entre as variáveis em questão4,5. Este é o problema essencial da análise de dados nestas áreas do conhecimento, onde experimentações são impossíveis ou impraticáveis e meras predições empíricas não objetivos do estudo.A estimação de relacionamentos e típica de quase todas as áreas de pesquisa. Quando o modelo matemático que representa esse relacionamento é linear, fala-se de relacionamento estrutural linear.Os vários aspectos da formulação, ajuste e testagem de tais relações é referido na literatura como modelagem de equações estruturais.Ideia central da análise LISRELUma das ideias fundamentais trabalhadas em cursos de estatística aplicada de nível intermediário e o efeito de transformações aditivas e multiplicativas sobre uma lista de números.Demonstra-se7 que, se multiplicarmos uma dada lista de números por urna constante K, a média da lista de números ficara multiplicada por K e sua variância ficará multiplicada por K2.Por exemplo suponha a lista de números 1, 2, 3. Estes números tem uma média de 2 e uma variância de 1. Ágora, suponha que os três números são multiplicados por 4. Iremos gerar a lista de números 4, 8, 12. A média da nova lista de números será 8 = 4.2, enquanto que a variância será 16 = 42. 1.O ponto é, se você tem um conjunto de números X relacionado a um conjunto de números Y pela equação Y = 4X então a variância de Y deve ser 16 vezes a variância de X, assim, você pode testar a hipótese de que Y e X estão relacionadas pela equação Y = 4X, indiretamente pela comparação das variâncias das variáveis Y e X.A ideia pode ser generalizada para inúmeros variáveis interrelacionadas por um grupo de equações lineares. Os cálculos ficam mais complexos, mas a ideia é a mesma - você pode testar se as variáveis estão interrelacionadas por meio de um conjunto de relações lineares, pelo exame das variâncias e covariâncias das variáveis.É exatamente isso que a analise LISREL procura fazer: testar se um conjunto de variâncias e covariâncias em uma matriz de covariâncias ajusta-se a uma determinada estrutura. Nesse sentido a análise permite examinar as relações causais entre vários conjuntos de variáveis independentes e dependentes.HistóricoO primeiro artigo sobre equações estruturais e atribuído a BAGOZZI e data de 19778. O artigo gerou a publicação de vários outros sobre o método analise de estrutura de covariância, e a utilização dos modelos de causalidade se estendeu largamente entre os pesquisadores.O programa chamado LISREL é um representante significativo do referido método2. Outros programas também tratam da analise, dentre eles citamos: COSAN (Macdonald, 1980), MILS (Schoenberg, 1982), BENWEE (Browne & Cudeck, 1983), LISREL 8 (jöreskog & Sorbom, 1993), EQS (Bentler, 1985), LISCOMP (Mumunthen, 1987).Jöreskog & Sörbom¹ desenvolveram um modelo geral e o programa LISREL para a análise das estruturas de covariância. Esta análise consiste de um conjunto de técnicas para o teste de teorias. As teorias testadas são representadas por um sistema de equações que mostram influencias unidirecionais ou bidirecionais de diversas variáveis, umas sobre as outras5.A análise LISRELA Análise LISREL são técnicas confirmatórias, que partilham duas características: a estimação de relações de dependência múltiplas e inter-relacionadas e a capacidade de representar conceitos não observados, recorrendo as chamadas variáveis latentes.Uma variável é dita latente quando ela não é observada diretamente e podem ser descritas por um conjunto de variáveis observáveis9. Nesse sentido, toda variável latente é um constructo.Vamos considerar um exemplo no qual a Satisfação Dos Pacientes (SP) com um determinado procedimento médico se reflita em quatro indicadores: a satisfação com a rapidez do atendimento, a satisfação com a precisão, a satisfação com a cordialidade e a satisfação com a disponibilidade do médico.Se permitirmos ao paciente avaliar cada um dos quatro indicadores segundo uma escala Likert de 5 pontos, teremos uma quantificação aproximada de sua satisfação com cada um dos indicadores, permitindo assim avaliar sua satisfação geral com o atendimento recebido. A Figura 1 exibe uma modelagem LTSREL para a variável latente e os indicadores referidos. No modelo LISREL, os indicadores das variáveis latentes são representados por quadrados ou retângulos, enquanto que as variáveis latentes são representada por círculos ou elipses. As relações entre indicadores e variáveis latentes são representadas por setas. O modelo LISREL assume que as variáveis latentes se refletem nos seus indicadores. Ele assume também, que as variáveis latentes são indeterminadas, ou seja, não são uma combinação exata de seus indicadores empíricos, e não podem ser expressas como uma função destes sem incluir um termo de erro. A estimação dessas relações (setas) é feita com a base nas regressões simples.Para discutir a relação entre variáveis latentes, vamos considerar no nosso exemplo que estejamos querendo averiguar o efeito competência dos médicos (CM) sobre a satisfação dos clientes. Iremos considerar que a competência dos médicos é indicada pelas variáveis: tempo de serviço, tempo de formação, numero de promoções na carreira.Suponhamos, ainda, que queremos investigar o efeito hábito de escutar os pacientes (HE) sobre a satisfação do paciente e sua relação com a competência do medico. A variável latente habito de escutar se compõe de dois indicadores: nº. de oportunidades de fala dadas ao paciente e nº. de abordagens utilizadas pelos médicos para oportunizar a fala do paciente. O modelo hipotético assumirá a forma exibida na Figura 2.Figura 2 - Modelo hipotético2Nessa representação, encontramos as três variáveis latentes (HE, CM e SP) do nosso modelo. Há dois tipos de ligações que podem ser especificadas no modelo:a) Hortogonalidade, ou independência “sem seta”.b) Causais ou direcionais. Estas podem ser de dois tipos. São chamadas recursivas, quando unidirecionais (A B B ou A à.B) e não recursivas, quando bidirecionais ( A Ba B).O modelo poderia ainda ser acrescido de sinais (+ ou -) posicionados sobre as setas para representar o tipo de relacionamento ou efeito. Assim o sinal positivo indicaria que o aumento em uma das variáveis tende a estar ligado ao aumento da outra, enquanto que um sinal negativo indicaria que o aumento na variável tende a estar ligado a uma diminuição da outra.Se observamos a Figura 2, o modelo apresentado propõe o teste de três hipóteses. A primeira, refere-se a influencia do habito de escuta sobre a satisfação do paciente. A segunda, diz que a cow,oetã1m'a do médico também interfere na satisfação do cliente. A terceira hipótese, fala da relação que existe entre o habito de escuta e a competência do médico.O modelo de equações estruturais é, então, o segundo passo da analise realizada por LISREL, num caso semelhante a este. Ele especifica as relações causais entre as variáveis latentes, descrevendo os efeitos causais e fixando a variância explicada e a não explicada. Digno de nota, o modelo ira testar as ligações entre as variáveis latentes, com base nas relações existentes entre os indicadores dessas variáveis.O modelo inclui ainda procedimentos para análise fatorial confirmatória, analise fatorial de segunda ordem, regressão múltipla, analise de relações (“path”) e modelos de estruturas de covariância, tudo para uma ou várias amostras.Para o pesquisador acostumado a testar redes de hipóteses com os métodos tradicionais de pesquisa, o modelo LISREL é um achado insubstituível, posto que ele calcula a adequação do modelo proposto de uma forma integrada, possibilitando uma grande economia de passos, além de uma boa flexibilidade para ajustes e novas descobertas.Os vários tipos de resultados fornecidos pelo cálculo da adequação do modelo permitem uma visão esclarecedora de toda situação. A extração dos coeficientes de regressão dos indicadores das variáveis latentes entre si, por exemplo, podem levar a conclusões interessantes. No nosso caso, poderíamos chegar a conclusão, como subproduto do cálculo de nosso modelo, de que o número de promoções obtidas pelo médico, em sua carreira, tem um efeito especialmente forte sobre a cordialidade do atendimento que ele presta a seus pacientes. Os resultados permitem um refinamento muito grande na análise da rede de hipóteses testada.Os coeficientes das relações (os valores das setas entre as variáveis) indicam os efeitos diretos de uma variável indicada, como sendo causas sobre uma variável, indicada como sendo efeito. Em relação à estimação, os coeficientes das relações são equivalentes a coeficientes de regressão estandardizados.Existe uma diferença importante entre a regressão comum e a análise de relações do modelo. Na primeira técnica, é realizada a regressão de uma variável dependente sobre todas as variáveis independentes consideradas. Na é estimada. A segunda técnica, mais de uma regres analise consiste de diversos estágios. Em cada estágio, uma regressão e calculada para uma variável tida como efeito, sobre duas causas. As relações calculadas são coeficientes que partem de um conjunto particular de variáveis independentes, sobre a variável dependente em consideração3.A natureza da inferência LISRELUm modelo causal, como este de nosso exemplo, parte de uma conclusão à qual o pesquisador chegou, através de estudos teóricos, e que deve ser confrontada a dados empíricos. Uma vez os dados corretamente recolhidos e o modelo de mensuração cuidadosamente formulado, varias técnicas para a análise da estrutura de covariância podem ser utilizadas, para verificar se o modelo arquitetado pelo pesquisador se adapta aos dados.Se o modelo é rejeitado pelos dados, o problema é determinar o que está errado com ele, e como pode ser modificado para adequar-se melhor aos dados.Se o modelo corresponde aos dados, isto ainda não quer dizer que ele está correto, ou ainda, que seja o melhor modelo. Na verdade, pode haver diversos modelos equivalentes com a mesma qualidade de ajustamento, a um mesmo conjunto de dados.Entretanto de maneira geral, a analise realizada na busca do melhor modelo é feita pela comparação entre diversos modelos que se adequam razoavelmente bem aos dados.No teste de teorias utilizando o LISREL, podemos distinguir três situações: na primeira, o pesquisador formulou um só modelo e recolheu dados para testa-lo. Esta situação se configura como estritamente confirmatória, onde o modelo deve ser aceito ou rejeitado.Na segunda, o pesquisador especifica vários modelos alternativos e, baseado num só conjunto de dados empíricos, um dos modelos é selecionado.Na terceira situação (a mais usual), o pesquisador especifica um modelo inicial, como tentativa de explicar uma questão. Ele vai testa-lo e modificado gradualmente, para ajusta-lo da melhor maneira possível aos dados. Vários modelos podem ser testados neste processo. O objetivo é obter uma configuração que não só se adapte bem aos dados, do ponto de vista estatístico, como também permita uma explicação lógica e aceitável a todas as relações detectadas. Esta situação pode ser melhor definida como geradora de um modelo do que como testadora.ConclusãoEntende-se que a análise de estruturas de covariância permite uma abordagem muito mais articulada das teorias do que aquelas baseadas nos modelos de regressão simples posto sue elas permitem maior intervenção do pesquisador na modelagem.O artigo não teve a pretensão de tratar em profundidade o método, mas dar uma visão geral e introdutória. Espera-se que ele contribua para um incremento de trabalhos na área de saúde que adotem um modelo de previsão mais realista.Downloads
Referências
Joreskog KG. Basic ideas of factor and component analysis. In: Joreskog KG, Sorbom D. Advances in factor analysis and structural equation models. Cambridge: Abt Books; 1979.p. 5-20.
Schuler M. Análise multivariada de Segunda geração: tudo o que eu queria saber sobre LISREL e que os matemáticos foram herméticos demais para explicar. Revista Brasileira da Administração Contemporânea 1995; 1(5): 94- 106.
Dillon G. Multivariate analysis: methods and application. New York, willey; 1984.
Hoffmann R, Vieira S. Análise de regressão: uma introdução à econometria. São Paulo: Hucitec; 1977.
C, Griffiths W, judge J. Econometria. Trad. Alfredo de Farias. São Paulo: Saraiva; 2000.
Bollen KA. Structural equation models that are nonlinear in latent variables: A least squares estimator. In P.M. Marsden (Ed.): Sociological Methodology. Cambridge: Blackwell; 1995.
Bequó ES, Pacheco JMS, Gotlieb S. Bioestatistica. São Paulo: EPU; 1981.
Sheth JN. The multivariate revolution in rnarketing research. Journal of Marlçeting 1971; 35: 13-9.
Bollen KA. Structural equations with latent variables. New York: Wiley; 1989.