sexta-feira, 6 de junho de 2008

Lógica da Elaboração Estatística

«O comunismo russo pode fracassar e ser riscado do mapa, mas o socialismo em si não morrerá». Boa profecia de Bertrand Russell.
Pretendemos dar algumas noções sobre a lógica da elaboração estatística, sem evidentemente esgotar o assunto. As Tabelas foram omitidas.
A relação entre duas variáveis pode ser seriamente alterada quando levamos em conta uma terceira variável. A correlação parcial mostra claramente este conceito. Contudo, os coeficientes não paramétricos de correlação, baseados em tabulações cruzadas, também podem ser modificados pela introdução de um terceiro factor.
Para ilustrar este conceito, suponhamos que um cientista, durante as férias, se viciou no hábito ou rotina diária de ver telenovelas, sem no entanto perder a sua perspectiva crítica e objectiva. À medida que decorria o tempo, começou a detectar, nas telenovelas, uma postura subliminar anti-aborto. As personagens que realizavam abortos eram geralmente punidas física, emocional ou socialmente pela sua deliberação de interromper uma gravidez. Então, o cientista planeou um estudo para testar se o hábito de ver telenovelas estava associado a uma atitude contra o aborto. Entrevistou por telefone 200 pessoas, cujo número de telefone foi marcado aleatoriamente. Entre outras coisas, os entrevistados foram questionados sobre o hábito de assistir regularmente a telenovelas e se eram a favor ou contra o aborto provocado. O hábito de ver telenovelas foi considerado a variável independente e, por isso, foram usadas as percentagens de colunas para a tabulação cruzada.
Os resultados, apresentados na Tabela 1, não foram surpreendentes. A favor da sua hipótese de que ver telenovelas conduz a uma visão negativa do aborto, o cientista verificou que, proporcionalmente, mais telespectadores eram contra o aborto provocado (54%) do que os não telespectadores (48%). As duas variáveis parecem, pois, estar associadas.
Se a pesquisa terminasse aqui, o nosso cientista deveria mudar de profissão. Contudo, ele questionou se a relação observada entre o hábito de ver telenovelas e a atitude em relação ao aborto seria a mesma tanto para homens como para mulheres. Assim, separou os homens das mulheres na sua tabulação cruzada, elaborando uma tabulação cruzada a três critérios: uma tabela de frequências envolvendo simultaneamente 3 variáveis. Mais precisamente, a Tabela 2 mostra a relação entre o hábito de ver telenovelas (televício) e a atitude em relação ao aborto, mantendo-se constante o sexo. O sexo não varia dentro de cada uma das subtabelas. A subtabela da esquerda inclui somente mulheres e a da direita inclui apenas homens. Chamam-se subtabelas porque são obtidas por subdivisão da tabela completa em relação ao sexo.
Este processo, denominado elaboração, implica uma observação mais aprofundada da relação entre as variáveis independente e dependente, controlando ou mantendo constantes outras variáveis que possam desempenhar algum papel. Separando os homens das mulheres, melhoramos o resultado inicial, no qual o sexo era ignorado.
Mantendo constante o sexo, os resultados da Tabela 2 são sensivelmente diferentes dos resultados da Tabela 1:

1. Nas mulheres, não há diferença quanto à atitude em relação ao aborto entre as que assistem regularmente e as que não assistem a telenovelas: 40% de cada grupo é favorável ao aborto provocado.
2. Nos homens, também não há diferença entre os que vêem e os que não vêem telenovelas, no que diz respeito à atitude em relação ao aborto: 60% de cada grupo é favorável ao aborto provocado.
Estes resultados deveras curiosos mostram que o hábito de assistir a telenovelas e a atitude em relação ao aborto não estão associados ou correlacionados, quer entre entrevistados homens, quer entre entrevistados mulheres. No entanto, quando combinamos os dois grupos, como mostra a Tabela 1, as pessoas que assistem regularmente a telenovelas parecem ser mais contrárias ao aborto provocado do que as pessoas que não vêem telenovelas.
A relação entre o hábito de ver telenovelas e a atitude em relação ao aborto, tal como mostrada na Tabela 1, é chamada relação espúria. Ou seja, assistir a telenovelas não influencia a atitude em relação ao aborto, nem a atitude em relação ao aborto afecta os hábitos das pessoas em relação à televisão. Ambas as variáveis são influenciadas por um factor comum: o sexo do sujeito entrevistado.
Vejamos:
1. Em primeiro lugar, as mulheres são mais inclinadas do que os homens para assistir a telenovelas. Com efeito, nas margens das colunas da Tabela 2, vemos que 50 em 100 mulheres (50%) versus 20 em 100 homens (20%) são telespectadores de novelas.
2. Em segundo lugar, as mulheres são menos favoráveis ao aborto provocado do que os homens. De acordo com os totais marginais das linhas, 40% das mulheres, mas 60% dos homens, apoiam o aborto provocado.
3. Assim, pode parecer que as pessoas que vêem telenovelas tendem a opor-se mais ao aborto do que as pessoas que não vêem telenovelas, mas isso deve-se ao facto de que os entrevistados que assistem regularmente a telenovelas e os que são contra o aborto tenderem ambos a ser mulheres, e os que não assistem a telenovelas e são favoráveis ao aborto tenderem a ser homens.
Em suma: a relação entre a rotina quotidiana de ver telenovelas e a atitude em relação ao aborto é uma relação espúria, devido ao sexo do sujeito entrevistado. Isso torna-se particularmente evidente quando elaboramos a relação original entre duas variáveis (Tabela 1), introduzindo o sexo como uma variável controle (Tabela 2).
Assim, quando o sexo é controlado, a relação entre o hábito de ver telenovelas e a atitude em relação ao aborto tende a desaparecer. Se pensa que está perante uma espécie de fórmula mágica estatística ou um truque com números, está apenas meio certo. De facto, admitimos que os números apresentados nas duas Tabelas foram escolhidos de modo a ilustrar uma relação perfeitamente espúria. Apesar dos dados serem fictícios, devemos ter sempre em conta a presença de possíveis factores contaminadores, tais como o sexo, a ideologia política, a filiação partidária ou a religião, que possam alterar os nossos primeiros palpites, baseados em relações de duas variáveis. Com dados reais, essas relações podem não se anular tão completamente como sucedeu na nossa ilustração fictícia, mas podem, sem dúvida, modificar-se de maneira dramática, sobretudo quando o investigador tem uma «boa» hipótese de trabalho e experiência de pesquisa de terreno.
Apresentaremos seguidamente um estudo real realizado por Skogan & Klecka (1977). Os autores americanos recolheram dados relativos ao medo do crime (fear of crime) em duas cidades americanas — New York e San Diego. A Tabela 3 mostra uma tabulação cruzada, por idade do entrevistado, do nível de sensação de segurança ao andar sozinho pela vizinhança à noite. A idade é, evidentemente, a variável independente e, por isso, usamos as percentagens de coluna, porque a variável idade é a variável coluna.
Os resultados são precisamente os que deveríamos esperar.
1. Quanto mais idoso o sujeito entrevistado, menos seguro se sente ao andar sozinho na vizinhança à noite.
2. A percentagem dos que se sentem "muito seguros" diminui com a idade: 27,6% dos que têm 16-26 anos; 26,2% dos que têm 27-39 anos; 20,0% dos que têm 40-64 anos e apenas 11,4% dos que têm 65 anos ou mais sentem-se "muito seguros".
3. Reciprocamente, a percentagem dos que apresentam sensação de insegurança tende a aumentar com a idade.
Podemos utilizar o coeficiente gama para medir a intensidade da correlação nesta tabulação cruzada, porque ambas as variáveis são ordinais. (Ambas as variáveis são ordenadas de baixo para cima e não de cima para baixo. Contudo, qualquer uma das direcções é válida, desde que as variáveis sejam ordenadas na mesma direcção.) O valor de gama é de 0,21, o que é muito significativo.
Porém, a análise ainda não está concluída, visto podermos eliminar a possibilidade da relação ser espúria: uma mera consequência de a idade e o medo terem causas comuns. Obviamente, a idade não pode ser influenciada por outras variáveis. Assim, o efeito da idade sobre o medo não é uma ilusão. Mas há mais alguma coisa que nos permite compreender melhor essa relação.
Por isso, os autores controlaram a raça para verificar se a relação idade-medo era válida tanto para os brancos como para os negros. Esta tabulação cruzada da sensação de segurança por idade, mantendo-se constante a raça, é apresentada nas Tabelas 4 e 5.
A Tabela 4 compreende apenas os sujeitos brancos e revela o mesmo tipo de relação observada na amostra completa.
1. Entre os brancos, os entrevistados mais idosos sentem-se menos seguros que os seus colegas mais jovens: gama é 0,26 e, portanto, significativo.
2. Entre as duas categorias etárias mais jovens, por exemplo, quase 30% declararam sentir-se "muito seguros", em comparação com apenas 11,4% no grupo etário mais velho.
Entretanto, para os entrevistados negros, o quadro é muito diferente, como mostra a Tabela 5. Não parece haver nenhum aumento definido de medo com o crescimento do nível etário: gama é apenas — (menos) 0,004 e não é significativo. Aparentemente, todos os grupos etários da subamostra dos negros sentem-se "muito inseguros". Aproximadamente metade de cada grupo etário coloca-se do lado da insegurança — algo entre "inseguro" e "muito inseguro", comparável apenas aos brancos mais idosos.
Assim, embora não estejamos necessariamente errados ao concluir dos dados da amostra completa que o medo aumenta com a idade, também não estamos inteiramente certos. Uma conclusão mais precisa seria que isso é válido somente para os sujeitos brancos, e que os sujeitos negros tendem a sentir-se relativamente inseguros, independentemente da idade. Isto significa que a natureza da relação entre o medo e a idade está condicionada pela raça dos sujeitos entrevistados e, por isso, a denominamos relação condicional. O modo de encararmos a relação idade-medo depende da raça ou, pelo menos, é condicionada por ela.
Este resultado gera provavelmente mais perguntas do que respostas. Obviamente, desejaríamos determinar por que o medo entre os negros apresenta nível tão elevado, em comparação com os brancos. Uma sugestão seria a de que os sujeitos negros, devido ao seu nível de rendimentos em geral mais baixo, tendem a viver em áreas com elevada taxa de criminalidade, o que explica o seu nível elevado de medo. Para testar esta hipótese sobre como as condições de renda e vizinhança interagem com a raça e o medo do crime, seria necessário recorrer a procedimentos estatísticos multivariáveis. Mas o que nos interessa agora é dizer que, quando elaboramos a relação entre duas variáveis, controlando uma terceira variável, diversos cenários são possíveis. A relação pode:
1. Permanecer sem alteração,
2. Ser reforçada,
3. Ser enfraquecida,
4. Desaparecer, como sucedeu no caso da telenovela e do modo de encarar o aborto,
5. Enfraquecer ou desaparecer parcialmente, como sucedeu no caso da idade e medo, ou até
6. Mudar inteiramente de direcção.

(O qui quadrado tendencial e o teste de Mantel-Haenszel são procedimentos que ajudam a compreender melhor a lógica da elaboração, já para não falar de outros procedimentos paramétricos ou não paramétricos mais sofisticados.)
J Francisco Saraiva de Sousa

20 comentários:

J Francisco Saraiva de Sousa disse...

Hoje está muito calor, mas o dia trouxe uma surpresa que abalou os jornalistas reduzidos: a sua mentira intencional está a ser desmistificada. O Estado já devia ter constatado que a comunicação social portuguesa é corrupta e puro veneno. :)

J Francisco Saraiva de Sousa disse...

Desbaratar a alma é coisa que não faço. :)

J Francisco Saraiva de Sousa disse...

Papillon

Se ler este post, não fique com a suspeita de que introduzi a variável género no primeiro exemplo para provocar: o exemplo é fictício mas inspira-se na realidade. :)

J Francisco Saraiva de Sousa disse...

Pinto da Costa disse que existem dois tipos de "animais", sem ofensa para os verdadeiros animais, de resto melhores do que as pessoas: os ratos que fogem e os abutres que aguardam. Tive um professor de português que dizia algo muito idêntico. Além de excelente dirigente desportivo, Pinto da Costa tem uma costela filosófica. Quem são os ratos? E os abutres? As semelhanças ou analogias não deixam dúvidas... :)

J Francisco Saraiva de Sousa disse...

Os meus melros estão a ficar mimados: já me conhecem e adoram espreitar-me, para me seduzir e me levar a dar-lhes coisas deliciosas. Como têm crias bonitas, dou-lhes, além de cereais, fruta picadinha e eles levam-na para as crias.
Com excepção dos abutres e das águias, as aves são criaturas felizes: brincam e cantam. :)

J Francisco Saraiva de Sousa disse...

Começa a cair a noite. Os melros cantam. Aqui perto acabam de se iluminar quatro janelas. Os sinos acabam de tocar. Os morcegos acordam e esvoaçam timidamente. Sou invadido por um cheiro intenso a erva fresca. Amanhã o sol vai iluminar novamente sobre o Porto.

Denise disse...

Francisco,
Garanto-lhe que gostaria imenso de conseguir comentar os seus dois últimos posts mas, infelizmente, os meus conhecimentos sobre matemática, estatística e biociências são uma nulidade... :-(
Fico-me pela visão afectiva dos seus melros e a poesia que deixa transparecer quando fala deles :)


(e, ah!, tem de haver necessariamente um terceiro tipo de animais. Não me revejo na categoria de roedora nem muito menos como necrófoga...)

Denise disse...

Francisco,
Pode ser a minha alma humanista, poética ou simplesmente ignorante, mas arrisco a perguntar se otratamento estatístico de tudo o que tem a ver com o comportamento humano não estará viciado logo desde o início, uma vez que cada um de nós é detem uma multiplicidade de variáveis completamente diferentes da dos outros...
Compreende a minha dúvida?

Manuel Rocha disse...

Bem exposto! Podia ter resumido assim e chamado a titulo; " Correlação não é causalidade"!

Certo ?

;)

J Francisco Saraiva de Sousa disse...

Denise

Compreendo a sua dúvida. As estudos estatísticos estão mais preocupados com as "médias" e não se prestam à análise de indivíduos tomados isoladamente. Talvez um dia explique a análise estatística.

Os melros são lindos e muito fofinhos. :)

J Francisco Saraiva de Sousa disse...

Manuel

Exacto: a correlação não é causalidade. Sim, seria um bom título. :)

Manuel Rocha disse...

Denise,

Há uma aspecto em que a realidade dos humanos contribui para apoiar a sua tese. É que somos das poucas populações em que a recolha de dados,ela mesma, pode alterar a realidade que pretende inquirir.

Denise disse...

Francisco,
Bem sei que a estatística se preocupa com as "médias", e é precisamente essa a minha dúvvida. Até que ponto é viável incluir o ser humano em médias... É algo que me faz logo pensar em estereótipos e processos de validação de preconceitos.

Denise disse...

Exacto, meu Vizinho ;-)

J Francisco Saraiva de Sousa disse...

Denise

A análise estatística ajuda até a linguística e eu já editei um ou dois posts sobre análise de contéudo de material linguístico. Sem tabelas e resultados...

J Francisco Saraiva de Sousa disse...

Aliás, os posts sobre a antropologia do Antigo Testamento assentavam em análise frequencial... e facilita muito a exposição e a captação do que é fundamental. :)

Denise disse...

Sim, Francisco, mas a Línguística é o estudo científico da linguagem verbal. Em termos estatísticos ajuda-nos a compreender algumas coisas ou a orientar a nossa acção para outras tantas. Mas no terreno, no momento em que temos de reagir perante situações concretas, as estatísicas desfazem-se perante o indivíduo...

Mas olhe, isto são só dúvidas atiradas para o ar. Se eu percebesse algo sobre o assunto, talvez tivesse legitimidade para colocar estas dúvidas. ignore-as, por favor.
Lerei esses seus posts, com certeza.
Boa noite e bons sonhos, que amanhã o meu dia será muito longo.

J Francisco Saraiva de Sousa disse...

Boa viagem Denise

Ainda não compreendi a sua atitude negativa em relação à estatística, apesar de pensar que esta está mais presente nas reacções concretas do que qualquer outra coisa. :)

Denise disse...

Bom dia F.
Não é atitude negativa. Nem positiva. Apenas dúvidas, que não se devem colocar antes de um estudo prévio do assunto.
Perdoe-me.
Um beijinho antes da minha ida e com a duração de uma semana ;-)

J Francisco Saraiva de Sousa disse...

Denise

Divirta-se muito em Lisboa.

Abraço