Um pouco de estatística

Página principal

“As mais poderosas e refinadas ferramentas estatísticas são algumas vezes menos importantes que outras mais simples e menos poderosas. Mas geralmente, por falta de informação, nenhuma é utilizada.” C. M. Ryerson (traduzido e adaptado)

“Nossa ciência é como uma loja repleta com os mais refinados dispositivos intelectuais para resolver os mais complexos problemas, e ainda somos incapazes de aplicar os princípios elementares do pensamento racional. Em todos os campos, aparentemente perdemos muitos dos elementos de inteligência: idéias de limite, medida, grau, proporção, relação, comparação, contingência, interdependência, interrelação de recursos e fins.” S. Weil (traduzido)

 

1. Quando e por que procurar um estatístico

    A melhor hora para procurar um estatístico é na fase de planejamento da pesquisa, seja ela científica ou não. Muitas vezes quando o pesquisador chega com os dados coletados diante do estatístico, a forma como o experimento foi conduzido pode prejudicar ou mesmo invibializar uma análise estatística. Existem casos extremos em que simplesmente é impossível obter qualquer resposta para o pesquisador. Por isso sempre recomendamos a procura por um estatístico já na fase inicial do projeto. Além de evitar esses problemas, o estatístico normalmente estabelecerá a análise que será feita futuramente, já nessa fase, economizando tempo na hora de realizar a análise final.

    Costumamos receber continuamente a famosa pergunta "qual é o tamanho de amostra representativa?" ("qual é o n?"). Já aconteceu de me perguntarem isso quando o interesse era apenas o de fazer anotações sobre algum assunto bem geral. Não existia a formalização do que se desejasse obter respostas em específico! Por exemplo, suponha que estejamos escrevendo sobre o clima do Brasil. É muito tentador que possamos dizer que a nossa amostra é representativa. Mas para que um estatístico possa dizer o tamanho de amostra que será representativa sobre algum assunto e alguma população, primeiro precisa-se definir diversas questões:

    Acredite, essas questões parecem simples, mas são muito importantes mesmo quando o objetivo não é obter cálculos de amostra.

 

2. Entendendo os testes de hipóteses e a inferência estatística

    Suponha que estamos  trabalhando com a questão de testar se a probabilidade de estar satisfeito com o clima de SP é diferente para homens e mulheres. Nós não sabemos, pois temos apenas uma amostra de 100 mulheres e 100 homens retiradas aleatoriamente da cidade. Se tivéssemos entrevistado toda a população da cidade, então poderíamos simplesmente tirar nossas conclusões. Mesmo que tivéssemos obtido que 63.2% dos homens e 63.1% das mulheres estão satisfeitos com o clima, não há teste a ser realizado, pois conheceríamos as probabilidades da população inteira e estão isentas de erro. Definitivamente 0.1% não é zero e por isso, existe uma diferença! Se a diferença de 0.1% é grande ou pequena, isso deve ser analisado do ponto de vista da área de interesse ou do pesquisador, mas não fará mais sentido realizar uma análise inferencial. A inferência estatística só deve ser usada quando se tem um amostra e desejamos inferir os resultados dela para toda a população. Em outras palavras, queremos extrapolar os resultados da amostra para a população. É essa a grande diferença do estatístico para magos e adivinhos. Enquanto nós utilizamos modelos formais que ligam a amostra à população, eles usam de outros recursos para adivinhar as respostas. Vale ressaltar mais uma vez que se quisermos apenas tirar conclusões no que foi observado na amostra, então a inferência estatística não precisa ser utilizada.

    Essa distinção é fundamental. Os programas de estatística são recheados de técnicas, mas pressupõem que o usuário conheça esses conceitos básicos e também as suposições que são feitas em cada teste. Se o pesquisador tiver pesquisado toda a população de interesse, um programa estatístico não irá lhe perguntar se os dados são de uma amostra ou da população, ele simplesmente irá assumir que é de uma amostra e irá executar o teste, mas os resultados não farão sentido! Da mesma forma, normalmente cada teste é desenvolvido utilizando suposições, que se não forem satisfeitas para o problema, podem invibializar os resultados. Por isso a importância de se estudar o que está fazendo ou procurar um estatístico.

    Voltando ao problema do clima de SP, suponhamos que foram obtidos os resultados exibidos na tabela abaixo e desejamos testar se a probabilidade de estar satisfeito com o clima de SP é diferente para homens e mulheres na cidade de SP.


sexo

satisfação com o clima da cidade de São Paulo


total

insatisfeito

satisfeito


feminino

51

49

100

masculino

38

62

100


 

 

    Quando nós, estatísticos, fazemos testes de hipóteses, definimos de forma conveniente o que chamamos de hipótese nula (a hipótese) e hipótese alternativa. Normalmente, a hipótese nula é o que simplifica mais o problema. Neste caso, o mais simples é que a probabilidade da satisfação com o clima da cidade de SP seja a mesma para os dois sexos, pois poderíamos ignorar o fator sexo na análise. Assim, mesmo que para esse problema a hipótese do pesquisador seja de que essa probabilidade é diferente entre os sexos, o estatístico definirá essa hipótese como alternativa. Quem já estudou estatística básica alguma vez lembrará que nos livros costuma-se denotar a hipótese nula por H0 e a hipótese alternativa por H1 ou HA.

    O problema de testes de hipóteses resume-se em que gostaríamos de aceitar a hipótese nula apenas quando ela é verdadeira e desejamos rejeitá-la apenas quando for falsa. Ou seja, não gostaríamos de dizer que a probabilidade da satisfação com o clima da cidade de São Paulo é igual entre os sexos se na verdade for diferente, e também não gostaríamos de afirmar que é diferente se na verdade for igual. Note que, para ter certeza absoluta de que não cometeríamos um desses erros, teríamos que entrevistar todos os moradores de SP, isto é, conhecer a satisfação com o clima da população inteira. Como essa tarefa requer muito tempo e dinheiro, devemos procurar pesquisar o menor número de pessoas desde que nos garanta uma boa confiança nos resultados.

    Nos livros de estatística chamamos de erro tipo I quando rejeitamos H0 mas ela é verdadeira e o erro tipo II quando aceitamos H0 mas ela é falsa. A situação ideal é obtida quando minimizamos a probabilidade de ocorrência desses dois erros, ou igualmente, quando minimizamos a probabilidade do erro tipo I (nível de significância ) e maximizamos a probabilidade do evento complementar do erro tipo II, que é o poder. A probabilidade do evento complementar do erro tipo I é o nível de confiança. Podemos resumir esse parágrafo por meio da tabela a seguir.


decisão situação real (desconhecida)
H0 é verdadeira H0 é falsa

rejeitar H0 erro tipo I (nível de significância) nenhum erro (poder)
aceitar H0 nenhum erro (nível de confiança) erro tipo II

 

 

   O nível descritivo ou probabilidade de significância ou valor-p (tradução do inglês, p-value) são nomes utilizados para denotar a probabilidade de ocorrência de eventos tão ou mais extremos do que o observado considerando que H0 é verdadeiro. Assim, um nível descritivo baixo (menor que o nível de significância) indica que seria pouco provável observar determinado resultado se H0 fosse verdadeiro. Neste caso, sabemos que o erro que estamos cometendo é no máximo igual ao nível de significância estabelecido. Se o nível descritivo é maior ou igual ao nível de significância então tomamos a decisão de não rejeitar H0. Note que nessa última conclusão, utilizamos a sutil diferença de dizer apenas que não rejeitamos H0, ao invés de dizer que aceitamos H0. Isso é preferível, pois na forma como foram conduzidas as decisões, avaliamos apenas o erro cometido ao rejeitar H0 quando a hipótese é verdadeira. Em nenhum momento neste parágrafo analisamos o poder do teste ou a probabilidade de ocorrer o erro tipo II, associados ao erro de se aceitar H0 quando a hipótese é falsa. Quando isso acontece, dizemos que foi realizado um teste de significância e não um genuíno teste de hipóteses. Para poder dizer formalmente que aceitamos H0, devemos avaliar o poder do teste ou a probabilidade de ocorrência do erro tipo II.

   Os testes de significância são largamente mais utilizados que os genuínos testes de hipóteses, pois na maioria dos casos é muito complicado avaliar o poder do teste, como veremos a seguir no exemplo da satisfação com o clima da cidade de SP. Por isso, caso seja importante para um determinado estudo avaliar o poder do teste quando o resultado deste sugerir a decisão de aceitar H0, não deixe de destacar essa importância ao estatístico que o estiver assessorando.

    É muito comum utilizar o nível de significância de 5%. Ou seja, a probabilidade de rejeitarmos H0 quando é verdadeira é de 5%, ou equivalentemente o nível de confiança é de 95%. A escolha desse nível de significância é totalmente arbitrária! Cada vez mais as revistas e pesquisadores estão utilizando níveis de significância mais adequados aos seus problemas. Como demonstraremos no exemplo da satisfação com o clima da cidade de SP.

   Pela tabela do exemplo fictício criado vemos que, na amostra obtida, a proporção dos homens satisfeitos é 13% superior à das mulheres. Com o objetivo de inferir esse resultado para toda a população, realizamos um teste e obtivemos um nível descritivo de 0.062. "Utilizando um nível de 5% de significância, não há evidências de que a probabilidade de estar satisfeito com o clima da cidade de SP seja diferente entre homens e mulheres (p=0.062)." O resultado entre aspas é o que normalmente é encontrado nas conclusões de teses e revistas científicas. Note que foi realizado um teste de significância e em nenhum momento é dito que as probabilidades são iguais, apenas é afirmado de que não há evidências de que sejam diferentes.

   Como não temos a menor idéia do erro que podemos estar incorrendo ao concluir que as probabilidades de satisfação com o clima podem ser iguais para os dois sexos, iremos avaliar o poder do teste para caso na verdade a diferença entre as probabilidades sejam outras. O gráfico abaixo ilustra isso.

   No gráfico, vemos que se a diferença real entre as probabilidades for de 15%, o poder do teste para detectar essa diferença é de cerca de 60%! Ou seja, se a diferença real (desconhecida) entre essas probabilidades for de 15% estaremos cometendo um erro tipo II com probabilidade de aproximadamente 40%. Se o pesquisador achar importante que o teste detecte essa diferença então faz sentido aumentar o nível de significância para 10% e rejeitar a hipótese de que as probabilidades de satisfação com o clima são iguais para os dois sexos.

   Veja que, para avaliar o poder do teste temos que verificar a probabilidade de ocorrer todos os erros em que a hipótese alternativa abrange. Como a hipótese nula sempre abrange os resultados mais simples, as vezes fica demasiadamente complicado analisar o poder e chegar a conclusões palpáveis, mas é uma tarefa que deveria ser mais realizada do que normalmente é.

 

3. Outras leituras

    Este texto não tem a pretensão de ser mais do que um "pronto-socorro" para as pessoas entenderem o básico para serem capazes de entrar em contato com um estatístico. Quem tiver interesse em aprender mais, alguns livros de estatística introdutórios são sugeridos:

Bussab, W. O. e Morettin, P. A. (2004). Estatística Básica. 5ª ed. Saraiva, São Paulo.

Magalhães, M. N. e Lima, A. C. P. (2004). Noções de Probabilidade e Estatística. 6ª ed. EdUSP, São Paulo.

    Alguns dos problemas mencionados são antigos e recorrentes, como pode ser visto na bela exposição de

Altman, D. G., Gore, S. M., Gardner, M. J. e Pocock, S. T. (1983). Statistical guidelines for contributors to medical journals. British Medical Journal 286, 1489-1493.

destinada principalmente a médicos, mas, que na minha opinião, pode ser utilizado como guia para usuários de conclusões estatísticas de qualquer área.

 

Página principal


Página pessoal de Frederico Zanqueta Poleto <frederico@poleto.com>. Última atualização: 07 de fevereiro de 2008.