Bioestatística

José Fausto de Morais

Autores

José Fausto de Morais Matemático, Mestre em Estatística Aplicada (EST-Unb), Doutorando em Estatística (IME-USP),Prof. da Universidade Presbiteriana Mackenzie e Consultor de Bioestatística.

Resumo

O que precisamos saber antes de falar sobre casuística, métodos e resultados? Um dos assuntos abordados na primeira edição da Revista Estima leva a questionar como produzir um problema de pesquisa. Uma “receita” é: (1) escolher o objeto que se deseja estudar (pacientes, hospitais, postos de saúde, etc.); (2) selecionar as variáveis (ou constructos) que se deseja estudar nos objetos e (3) pesquisar a correlação entre essas variáveis. Os procedimentos sugeridos remetem a alguns conceitos fundamentais para a construção de uma boa casuística, seleção de métodos e apresentação de resultados.PopulaçãoEntende-se por população todo conjunto de objetos que têm em comum, pelo menos, o atributo que é alvo de investigação. Os objetos referidos podem ser pessoas, empresas, países etc., e tal conjunto, quando muito extenso, pode ser convenientemente reduzido por meio do que os profissionais da área de saúde denominam “critérios de exclusão/inclusão” ou “critérios de elegibilidade”. Tais critérios irão dar origem à população alvo de investigação.Para melhor entendimento do conceito de população-alvo, suponha que se deseje estudar as instituições beneficentes do Brasil. A população ligada a esse objetivo será constituída pelo conjunto de instituições beneficentes brasileiras. Em vista da quantidade de tais instituições (algo em torno de 220 mil), pode-se pensar em restringir o estudo ao conjunto de instituições beneficentes brasileiras cadastradas no site www.terceirosetor.org.br. Esse novo conjunto (com cerca de 600 instituições) constitui a população-alvo que foi gerada pelo critério: “pertencer ao cadastro do referido site”.Um bom protocolo de pesquisa deve definir claramente a população-alvo (na medida em que todas as inferências feitas serão dirigidas a essa população), sendo conveniente optar-se por listagens preexistente de itens (listagem de pacientes internados em um hospital, lista de enfermeiros do COREN-SP, lista de médicos registrados no CRM-SP, lista de hospitais da Secretaria de Saúde, lista de UBS de São Paulo, lista de periódicos biomédicos da base de dados MEDLINE etc.).AmostraProblemas como custo, tempo, acesso, ética, etc. podem levar o pesquisador a optar por investigar uma parcela representativa da população (amostra). Nesse momento, questões ligadas ao tamanho e à forma de seleção da amostra são, inexoravelmente, colocadas para o estatístico.Para um estatístico da linha clássica (que segue os princípios tradicionais da teoria da probabilidade), uma boa amostra não deve produzir resultados viciados, e sim ser representativa da população e estatisticamente tratável, isto é, deve permitir a avaliação do erro associado às inferências por meio das probabilidades. Como obter uma amostra com tais qualidades?Os estudos de Fisher, um dos maiores estatísticos da história, sugerem que uma tal amostra pode ser obtida se o protocolo de pesquisa obedecer àquilo que ele chamou de princípio da casualização, isto é, se a amostra foi construída usando um processo casual. Pearson, contemporâneo de Fisher e um de seus principais rivais, nos ensina que uma boa amostra deve ter no mínimo 30 observações, além de ser aleatória.A posição desses grandes especialistas no assunto, agregada à teoria dos intervalos de confiança, conduz a seguinte resposta às questões levantadas: “O tamanho da amostra depende de fatores como a confiança que você deposita nos resultados, o erro máximo que você está disposto a tolerar e a variabilidade observada em uma amostra piloto. Já a forma de seleção dos itens deve ser casual.”Um exame detido da doutrina de Fisher deixa claro que esta faz exigências que beiram o “ideal”, o que dificulta a sua rigorosa aplicação na prática. Em vista disso, se for assumida uma postura mais adequada à realidade dos estudos na área de saúde, a resposta às questões levantadas será: “O tamanho da amostra irá depender de sua disponibilidade de recursos. Tente considerar o que puder acima de 30 observações, mas adote a seleção casual, mesmo que esta seja baseada na seleção natural.”Se, por outro lado, for adotada uma postura bayesiana (a qual questiona a necessidade de controle do viés, os protocolos totalmente aleatórios e o rigor ligado ao tamanho da amostra, além de seguir os princípios da probabilidade subjetiva), a resposta às questões será: “Use a quantidade e os pacientes que estiverem disponíveis e informe o grau de precisão de seus resultados.”Não é difícil defender uma postura bayesiana em protocolos de pesquisa na área de saúde e, desse modo, a adoção da última resposta. Para questionar o controle do viés basta evocar o paradoxo central da amostragem (que mostra que a casualização não consegue eliminar completamente o viés. Assim, um pesquisador deve estar disposto a tolerar algum nível de tendenciosidade em suas inferências) e para defender as amostras quase aleatórias basta confrontar a coerência e fundamentação das inferências bayesiana e clássica. O grande problema dos métodos bayesianos reside na sua implementação.VariávelAs variáveis são aspectos observáveis de um fenômeno. Mais objetivamente, uma variável é qualquer característica mensurável ou descritível dos objetos populacionais. Em uma pesquisa do tipo quantitativa, o objetivo será mensurar a variável. Já em uma pesquisa do tipo qualitativa, o objetivo será descrevê-la. Assim, características como idade, sexo, pressão arterial, dentre outras, são exemplos de variáveis. E características como auto-estima, qualidade de vida, carisma, gravidade do estado, dentre outras, são exemplos do que denomina-se constructo. Um constructo é um conceito inventado deliberadamente para melhor manipulação do fenômeno em estudo. Nesse sentido, toda variável é uma característica, mas, nem toda característica é uma variável (já que ela pode ser um constructo). Alguns especialistas, brincando com o conceito, dizem que um constructo é uma característica que sonha em ser uma variável “top de linha”.Focando as variáveis, elas podem exprimir contagens (número de filhos, número de estomas, etc.); medidas (temperatura, pressão arterial, etc.); categorias ordenáveis (classe social, estágio da patologia, etc.) ou categorias não ordenáveis (sexo, local onde reside, etc.). Variáveis que exprimem medidas são ditas contínuas; as contagens são ditas discretas; as contagens ordenáveis são ditas ordinais e as contagens não ordenáveis, nominais. As variáveis contínuas e discretas formam o grupo de variáveis denominado quantitativas e as demais, o grupo denominado qualitativas.Uma variável também pode ser classificada segundo o seu nível de mensuração. O manual do SPSS considera três níveis: nominal, ordinal e escalar. As operações aritméticas somente podem ser realizadas para variáveis do último nível.É importante distinguir entre tipo e nível de mensuração. Por exemplo, a variável idade, quando expressa em anos e meses, é do tipo quantitativa contínua e está sendo medida no nível escalar; já a variável idade, quando expressa em faixas etárias, é do tipo quantitativa contínua, porém está sendo medida no nível ordinal. Notese que o tipo depende da “expressão” da variável (se ela é uma medida, contagem, categoria ordenável ou categoria não ordenável) e o nível depende da forma como ela é “colhida”.Uma variável pode, ainda, ser classificada segundo sua posição dentro do problema de pesquisa (quando este for unidirecional, isto é, do tipo X afeta Y?) em dependente (Y), independente (X) ou interveniente. A variável independente é uma possível causa para a variável dependente, já a interveniente é uma variável que pode modificar a estrutura correlacional do problema.O nível de mensuração, a distribuição probabilística da variável e sua posição no problema de pesquisa serão elementos fundamentais para a prescrição do tratamento estatístico mais conveniente para o problema.Parâmetro, estatística e inferênciaParâmetro é qualquer função mensurável da característica populacional em estudo, enquanto estatística é uma função mensurável da característica amostral em estudo. Tal função não depende de qualquer parâmetro populacional. Por exemplo, a média de idade de todos os indivíduos da população é um parâmetro, enquanto a média de idade de todos os indivíduos nas amostras selecionadas é uma estatística.Em geral, as estatísticas, bem como outras propriedades da amostra, são conhecidas, mas os parâmetros e as propriedades populacionais não são, e isso leva à produção de inferências, as quais são operações que se confundem com o objetivo geral da ciência: reduzir as incertezas sobre algo utilizando informações preexistentes e experiências.A Inferência em Estatística busca reduzir incertezas usando a informação obtida no exame quantitativo de amostras. Existem várias correntes para a Inferência em Estatística, a clássica e a bayesiana são as mais conhecidas. Inferir é uma operação de generalização de resultados observados em uma amostra e isso leva a questionar o que valida uma inferência. Esse é um dos maiores problemas com que a Filosofia Moderna tem que lidar. A Estatística lida com o problema usando a idéia de erro de amostragem, o que permite postular regras para se proceder às generalizações. Tais regras estão organizadas na trindade: estimação pontual, intervalos de confiança e testes de significância.Para finalizar este artigo, fique com o pensamento de Pereira: “O estatístico e o cartomante usam métodos diferentes para fazer a mesma coisa”. Assim, uma cartomante diria algo como: “Não saia de casa, pois as cartas mostram que você será assaltado”. Já o estatístico diria: “Não saia de casa, pois os dados amostrados sugerem, com 95% de confiança, que você será assaltado”.