Bioestatística
Abstract
Validade e Confiabilidade de Escalas Multiitens
O desenvolvimento de escalas nos dias atuais é mais que um modismo passageiro, tornou-se uma necessidade para o melhor entendimento da realidade. Dentre os vários tipos de escala, destacam-se as escalas multiitens, cuja elaboração exige considerável experiência técnica do pesquisador, posto que elas podem incorporar tecnicas de análise qualitativa e quantitativa. Tendo em vista que o exame de diversos artigos envolvendo a validação de escalas multiitens mostrou alguns usos indevidos dos procedimentos estatísticos clássicos, o propósito deste artigo foi o de tecer algumas considerações sobre o estudo da confiabilidade e validade de escalas multiitens.Construção de Escalas MultiitensParece natural que a elaboraçao de uma escala multiitens obedeça a cinco etapas: primeiro, deve-se buscar ou elaborar uma teoria subjacente ao construto a ser medido; a seguir, devezse gerar um conjunto de itens para a escala; reduzir o conjunto a partir do julgamento de especialistas; reduzir novamente a partir do uso de tecnicas quantitativas e, por fim, deve-se purificar a escala de modo que ela seja confiável e válidal.A teoria irá apoiar a construçao da escala e ajudará a interpretar os escores resultantes. O conjunto inicial de itens para a escala pode ser construído com base na teoria, na análise de dados secundários e/ou em uma pesquisa qualitativa2 A redução, inicialmente feita no conjunto, é baseada no julgamento do pesquisador e/ou de outras pessoas conhecedoras do assunto. Pode-se acrescentar algum critério qualitativo para auxiliar o julgamento.Para a redução quantitativa da escala, os dados, para o conjunto reduzido de itens da escala, são coletados de uma grande amostra pré-teste de respondentes. Os dados são analisados com o uso de técnicas estatísticas de agrupamento e redução de conjuntos de variáveis (análise de correlação, análise fatorial, análise de cluster, análise discriminante etc.) 3.A última redução do conjunto de itens é feita com base na analise da confiabilidade e validade da escala, a qual é fundamentada em uma amostra diferente daquela que foi usada na composição inicial dos itens. Pode-se observar que o processo de elaboraçao de uma escala multiitens é iterativo com vários laços de feedback.Avaliaçao de uma Escala MultiitenUma escala de multiitens deve ser avaliada quanto á precisão, o que envolve uma avaliação da confiabilidade e da validade da escalal. A confiabilidade mostra até que ponto uma escala produz resultados consistentes, se as medidas são tomadas repetidamente, já a validade de uma escala diz respeito ã capacidade da escala medir aquilo que ela pretende medir5.As questoes que envolvem a confiabilidade têm implicações para a própria validade da escala, “não pode existir uma escala válida que não seja confiável”6. A confiabilidade é apenas um aspecto da validade. “Se um teste não for confiável, não poderá ser válido, contudo, ser confiável não é suficiente para garantir a validade”. Portanto, a confiabilidade é condição necessária, mas não suficiente para assegurar a validade de um teste.Antes de avaliar a confiabilidade e validade de um instrumento, é necessário entender o que vem a ser a precisao da medição.Precisão da Medição de uma EscalaA mediçao é um número que reflete uma característica de um objeto. Não é o verdadeiro valor da característica de interesse, mas apenas uma observação daquele valorl. Diversos fatores podem causar erros de medição, que tem como resultado o fato de a medição, ou escore observado, ser diferente do verdadeiro escore da característica que está sendo medida. O modelo de escore verdadeiro fornece um arcabouço para o entendimento da precisão da medida. De acordo com este modelo,CONFIABILIDADEXo = XT + X R= XS (1)VALIDADEonde,Xoe o escore ou medida observada; Xt é o escore verdadeiro da característica; XR é o erro aleatório; Xs, é o erro sistemático.Note-se que o erro total de medida compreende o erro aleatório, XR e o erro sistemático, XS. O erro sistemático afeta a medida em uma forma constante. Representa fatores estranhos que afetam da mesma maneira o escore observado cada vez que se faz a medição, por exemplo, fatores mecânicos.O erro aleatório, por outro lado, não é constante.Representa fatores transitórios que afetam o escore observado de maneiras diferentes cada vez que se faz a medida, tais como fatores transitórios pessoais ou situacionais. A distinçao entre erro sistemático e erro aleatório é fundamental para entendermos a confiabilidade e a validade.A equação (1) mostra que a confiabilidade é entendida como uma medida (abstração) do valor verdadeiro, acrescido de erros aleatórios, que são problemas externos a pesquisa, como ruídos ou falhas. A validade, por sua vez, é a medida do valor verdadeiro, mais o erro aleatório e 0 erro sistemático.A confiabilidade é grande quando a medida esta próxima do valor verdadeiro, pois o erro aleatório esta minimizado. A validade é grande quando a medida esta próxima do valor verdadeiro, pois os erros aleatório e sistemático estao minimizados.A necessidade de controle de erros na medida feita pelo instrumento exige que outros aspectos sejam examinadosg. O conteúdo das questões, vocabulário, situações evocadas e outros aspectos de natureza cultural e socialmente condicionados, podem estar dirigidos e beneficiar ou excluir respondentes a partir de certos atributos, como, por exemplo, o sexo, a origem geográfica, a etnia, a idade etc.Avaliação da Confiabilidade de uma EscalaA confiabilidade e ax aliada determinandozse a proporção de variação sistemática em uma escala, o que se consegue com a avaliação da associação entre escores obtidos de diferentes administrações da escala. Se a associação é alta, a escala produz resultados consistentes, sendo, portanto, confiável.A avaliação da confiabilidade de uma escala pode ser investigada através do teste‹reteste, por escalas equivalentes e pela consistência internal.Teste-retesteNessa forma de avaliação da confiabilidade, os entrevistados recebem conjuntos idênticos de itens da escala, em duas ocasioes diferentes e sob condiçoes tao próximas da equivalência quanto possivell. O intervalo entre testes ou aplicaçoes e, tipicamente, de duas a quatro semanas1. O grau de semelhança entre as duas medidas é determinado calculandofse um coeficiente de correlação. Quanto mais alto o coeficiente de correlação, maior a confiabilidade.Há varios problemas com a abordagem teste- reteste1,8: ela é sensível ao intervalo de tempo entre os dois testes; a medida inicial pode alterar a característica que está sendo avaliada; pode ser impossível fazer repetidas medições; a primeira medição pode influir na segunda e nas subseqüentes e o coeficiente de correlação pode ser inflacionado pela correlação de cada item com ele próprio. Em yista disso, a melhor maneira de usar o testezreteste é em conjugaçao com outras abordagens.Escalas EquivalentesEssa forma de avaliação, de duas formas equivalentes de escala. Os mesmos entrevistados são medidos em momentos diferentes, em geral com intervalos de duas a quatro semanas. Os escores das aplicaçoes das formas alternativas da escala sao, então, correlacionados para avaliar sua confiabilidade.Ha dois problemas com este tipo de abordagem: ele consome muito tempo, posto que a construção de uma forma equivalente de escala é dispendiosa, e é difícil construir duas formas equivalentes de uma escalal.Consistência internaServepara avaliar a confiabilidade de uma escala aditiva, em que varios itens são somados para formar um escore total. Em uma escala deste tipo, cada item mede algum aspecto do construto medido por toda a escala e os itens devem ser consistentes na sua indicaçao da característica.A medida mais simples da consistência interna é a confiabilidade meio-a-meio (split-half method). Nessa técnica, os itens da escala são divididos em duas metades e os meio-escores resultantes são correlacionados. Uma correlaçao elevada entre as metades indica alta consistência interna.Os itens da escala podem ser divididos em duas metades aleatoriamente ou por um processo baseado nos itens pares ou ímpares. O problema dessa abordagem é que os resultados dependem de como os itens da escala foram divididos8. A aplicação do coeficiente alfa é uma abordagem comum para superar este problema.O coeficiente alfa e o teste mais utilizado para aferir a consistência interna de um conjunto de itensó. O coeficiente, desenvolvido por Cronbach°, é uma generalização da fórmula K-R20, quando os itens não sao corrigidos dicotomicamente (certo e errado).E difícil determinar qual o grau mínimo de consistência para a escala, pois este depende do estagio e do objetivo de cada pesquisa. Bowling” propoe um ponto de corte de 0,50, Malhotral fala em 0,60, todavia, entendezse que se uma investigação é do tipo exploratória, a consistência interna não precisa ser muito grande; se for uma replicação de outro estudo, deve ter no mínimo o mesmo grau de consistência que a anterior14. A fórmula para o alfa de Cronbach é: ∂ = n[1-(∑ Si2)] (2) _ n-1 onde,n - número de itens; SS2i - soma das variâncias dos n itens; S2T- variância total dos escores do teste.A fórmula (2) permite demonstrar que, quanto menor for a variância especifica de cada item (e desse modo menor SS2i) e maior for a variância que tais itens produzem em conjunto (e desse modo maior o SS2i), maior tende a ser o coeficiente.Assim, a fórmula de Cronbach mostra que, se todos os itens variarem do mesmo jeito, isto é, se não houver variância entre os itens, então eles serão totalmente homogêneos, de fato idênticos, produzindo exatamente a mesma variância. Como tal evento não é provavel, o alfa dara o tanto de covariaçao que os itens têm dentro da escala.Em valor absoluto, o coeficiente alfa varia de O a 1, onde O indica a ausência de consistência e 1 indica 100% de consistência interna. A fórmula sugere que, operacionalmente, o alfa é uma medida aproximada do percentual que o instrumento consegue medir do construto que o instrumento procura medir, assim, se o alfa associado aos 34 itens de um instrumento destinado a medir, digamos, Qualidade de Vida, produz um alfa de 0.85; então se diz que cerca de 85% da Qualidade de Vida consegue ser medida pelos 34 itens.O coeficiente alfa, ou alfa de Cronbach, é a média de todos os coeficientes meiozazmeio, que resultam das diferentes maneiras de dividir ao meio os itens da escalaó. Uma propriedade importante do coeficiente alfa é que seu valor tende a aumentar com o aumento no número de itens da escala. Por isto, o coeficiente alfa pode ser artificialmente - e inadequadamente - inflacionado pela inclusão de vários itens redundantes na escala.Outro coeficiente que pode ser utilizado em conjunto com o coeficiente alfa é o coeficiente beta e, ainda, o coeficiente Kappa, que ajudam a determinar se 0 processo de média usado no cálculo do coeficiente alfa esta mascarando alguns itens inconsistentes.Avaliação da Validade de uma EscalaEspecialistas em psicometria mencionam diferentes tipos de “validade”, sendo que, para cada um deles, há uma maneira de medir ou avaliar o grau de validade de uma medida. A quantidade e os nomes que são atribuídos a esses tipos variam de autor para autor, mas há uma certa coincidência quanto a alguns deles.A American Psychologícal Association (APA) e a American Educational Research Association (AERA) elaboraram um documento, publicado em 1966, intitulado Standards for Educational and Psychological Tests, no qual consideram apenas três tipos de validade: validade de conteúdo, validade de critério e validade de construto.Validade de ConteúdoTrata-se de uma avaliacao subjetiva, porém sistemática, da exatidão com que o conteúdo de uma escala representa o trabalho de mediçao em andamento.O pesquisador (ou outra pessoa) examina se os itens da escala abrangem adequadamente todo o domínio do construto que está sendo medido. Assim, uma escala planejada para avaliar a imagem de um estabelecimento seriaiconsiderada inadequada se omitisse qualquer uma das dimensoes principais (qualidade, variedade, sortimento de mercadorias etc.).Dada sua natureza subjetiva, a validade do conteúdo, por si só, não é uma medida suficiente da validade de uma escala; não obstante, em um sentido comum, ajuda na interpretação dos escores da escala. Pode- se obter uma avaliação mais formal examinando-se a validade de critério1,4.Validade de CritérioA validade de critério reflete se uma escala funciona conforme o esperado em relaçao a outras variáveis (variáveis de critério), como critérios significativos.As variáveis de critério podem incluir características demográficas e psicográficas, medidas de atitude e de comportamento, ou escores obtidos de outras escalas. Conforme o prazo envolvido, a validade de critério pode tomar duas formas: validade concorrente e validade preditiva.Verifica-se a validade concorrente quando os dados sobre a escala que está sendo avaliada e sobre as variaveis de critério são coletados simultaneamente.Para avaliar a validade concorrente, o pesquisador pode criar formas abreviadas para o instrumento padrão. O instrumento original e as versões reduzidas seriam aplicados simultaneamente a um grupo de entrevistados, comparandozse os resultados. Para avaliar a validade preditiva, o pesquisador coleta dados sobre a escala em um determinado momento e dados sobre as variáveis de critério em um instante futuro10. Comparam-se os valores previstos e os valores efetivados na análise da validade preditiva da escala.Validade de ConstrutoEsta validade aborda a questão de qual construto a escala está realmente medindo. Ao determinar a validade de um construto, o pesquisador procura responder a questões teóricas sobre a razão pelas quais a escala funciona e que deduções podemos fazer relativamente à teoria subjacente.Assim, a validade de construto exige uma sólida teoria da natureza do construto que esta sendo medido e como ele se relaciona com outros construtos1,4.A validade de um construto é o tipo de validade mais sofisticado e dificil de estabelecer. Ela inclui a validade convergente, discriminante e nomológica. A validade convergente indica ate que ponto a escala se correlaciona positivamente com outras medidas do mesmo construto. Não e necessario que todas essas medidas sejam obtidas por tecnicas convencionais de escalonamento.A validade discriminante mostra até que ponto uma medida não se correlaciona com outros construtos dos quais supomos que dinra. Envolve a demonstraçao de falta de correlação entre os diferentes construtos.A validade nomologica mostra como a escala se correlaciona, de maneiras previstas teoricamente, com medições de eonstnitos diferentes. mas relacionados. Formula-se um modelo teórico que conduz a outras deduções, testes e mferencias. Gradativamente constrói- se uma rede n‹)molo-gíca em que vários construtos são inter-relacionados sisternacicamente.Diversos autores1,7,10,11 sugerem uma metodologia para a avaliação da confiabilidade e validade de escalas multiitens.Nos estudos realizados por estes autores (e muitos outros) observazse o uso do Coeficiente de Correlação Linear de Pearson no estudo da validade convergente e concorrente, bem como na avaliação da fidedignidade teste-reteste escala. Observa-se o uso da Analise de Regressão Linear múltipla na avaliação da validade de critério preditivo e a Analise de Variância Clássica na análise da validade discrirninante.McDowell7 menciona o uso da metanálise e da Análise Fatorial Confirmatória na avaliação da validade de construto.Um dos grandes problemas dos métodos estatísticos adotados na metodologia clássica de analise da validade de escalas multiitens e que, muitas vezes os dados violam os pressupostos das tecnicas.Por exemplo, a Analise fatorial Classica é uma técnica desenhada para atuar sobre variaveis de nivel escalar e, quase sempre, as escalas sob validação estão em nível ordinal, na medida que são baseadas em questões do tipo Likertl,2.O coeficiente alfa requer operaçoes aritméticas sobre os itens da escala, assim, tais operações têm que fazer sentido, isto é, os itens têm que estar mensurados no nível escalar, o que tornaria sem sentido a contabilização do referido coeficiente para escalas ordinais.Apesar das restrições referidas ao uso da análise fatorial clássica ou do coeficiente alfa serem óbvias, um exame superficial em artigos que propuseram a validação de instrumentos ordinais conhecidos, mostra uma sistemática e grosseira violação desses pressupostos.Na verdade, a avaliação da validade de escalas multiitens ordinais exige a adoção de métodos não paramétricos, como Correlação Ordinal, Analise de Regressão Ordinal Múltipla, Analise de Variância de Kruskall Wallis, Análise Fatorial tipo C etc.Com o avanço e sofisticaçao dos softwares estatísticos atuais, a dificuldade operacional, normalmente atribuida aos métodos não paramétricos, não funciona mais como desculpa para o uso inadequado dos métodos paramétricos no processo de validação de escalas mulnitens ordinais.Downloads
References
Malhotra N. Pesquisa de marketing: uma orientação aplicada. Trad. Nivaldo MJ, Alfredo AF. Porto Alegre: Bookinan, 2001. Refe
Bardin L. Análise de conteúdo. Lisboa: Edições 70, 1977.
Stevens Applied multivariate statistics for the social sciences. 3” ed. Newjerseyz Lawrence Erlbum Ass; 1996.
Aaker DA, Kumar Í Day GS. Pesquisa de marketing. Trad. Reynaldo CM. São Paulo: Atlas, 2001.
Polit D, Hungler BP. Fundamentos de pesquisa em enfermagem. Porto Alegre: Artes Médicas, 1995.
Carmines HG, Zeller RA. Assessing reliabilityin binary rating. London: Sage Publication, 1979.
McDowell l, Newell C. Mcasuring health e a guide to rating scales and questionnaires. Oxford: Oxford university press, 1 996.
Mitchell SK. lnterobserver agreement reliabilitability and generalizability of data collected in ubservation studies. Psychological Bullerin:1979. p. .°›76e9(l.
Cronbach lj. Coefficient alpha and the internal structure oftest. Psychometrika:1951. p 297» 334.
Bowling A. Measuring health Í a review of quality of life mensurement seals. 2““' cd. London: Buckmghail open university press: 1997.p.11-5.
Fleck MPA., Louzada S, Xavier M, Chachamovich E, Vieira G, Santos L, Pinzon V. Aplicação da versão em português du instrumento abrevidado de avaliação da qualidade de vida “Whoqol-bref”. Revista Saúde Pública 2000; 34(2): 178-83.
llague P. Questionnaire design. London: Kogan Page Ltd, 1994.