População: Toda questão de pesquisa define um universo de objetos aos quais os resultados do estudo deverão ser aplicados. A população alvo, também, chamada população estudada, é composta de elementos distintos possuindo um certo número de características comuns (pelo menos uma). Essa característica comum deve delimitar inequivocamente quais os elementos que pertencem à população e quais os que não pertencem. Estes elementos, chamados de unidades populacionais, são as unidades de análise sobre as quais serão recolhidas informações. No nosso exemplo: todos os alunos de graduação que estão matriculados em alguma disciplina de Estatística, na Universidade Estadual de Santa Cruz, durante o ano de 1999.
N tamanho da população
Amostra: Uma amostra é um subconjunto de indivíduos da população alvo. Existem dois tipos de amostras, as probabilísticas, baseadas nas leis de probabilidades, e as amostras não probabilísticas, que tentam reproduzir o mais fielmente possível a população alvo. Entretanto, somente as amostras probabilísticas podem, por definição, originar uma generalização estatística, apoiada no cálculo de probabilidades e permitir a utilização da potente ferramenta que é a inferência estatística.
n tamanho da amostra
Variável: é uma característica da população. Toda questão de pesquisa define um número de construções teóricas que o pesquisador quer associar. O grau de operacionalização destas construções não faz parte de um consenso. Por essa razão, a seção que trata das definições das variáveis deve permitir ao leitor avaliar a adequação dos instrumentos utilizados, as variáveis escolhidas e as construções teóricas descritas no quadro conceitual.
Variável dependente (VD): Mede o fenômeno que se estuda e que se quer explicar. São aquelas cujos efeitos são esperados de acordo com as causas. Elas se situam, habitualmente, no fim do processo causal e são sempre definidas na hipótese ou na questão de pesquisa. No nosso exemplo: desempenho em estatística e atitudes em relação à Estatística.
Variável independente (VI): São aquelas variáveis candidatas a explicar a(s) variável(eis) dependente(s), cujos efeitos queremos medir. Aqui devemos ter cuidado, pois mesmo encontrando relação entre as variáveis isto, não necessariamente, significa relação causal.
Variável qualitativa (ou categórica) nominal: São aquelas cujas respostas podem ser encaixadas em categorias, sendo que cada categoria é independente, sem nenhuma relação com as outras: sexo (masculino, feminino), raça (branco, preto, outro), etc.
Variável qualitativa (ou categórica) ordinal: São aquelas cujas categorias mantém uma relação de ordem com as outras, que podem ser regulares ou não (existe uma ordem natural nas categorias): classe social (alta, média, baixa), auto-percepção de desempenho em Matemática (péssimo, ruim, regular, bom , ótimo), etc.
A rigor, no tratamento estatístico das variáveis categóricas, não existe diferença se ela for nominal ou ordinal, a única observação é que quando você está lidando com uma variável ordinal, é aconselhável manter a ordem natural das categorias, de menor para maior, na hora da apresentação, seja em tabela ou em gráficos.
Variável quantitativa discreta: São aquelas resultantes de contagens, constituem um conjunto finito de valores: número de filhos, número de reprovações em matemática, idade em anos completos, etc.
Variável quantitativa contínua: Resultados de mensurações, podem tomar infinitos valores: pontuação na escala de atitude, nota na prova de matemática, pontuação no vestibular, etc.
Descrição das variáveis: A variável constitui um primeiro nível de operacionalização de uma construção teórica e, para cada uma, se deve dar, em seguida, uma descrição operacional. Para algumas variáveis a descrição é simples, porém, em outros casos, essa definição é mais complexa. Uma variável contínua, pode ser transformada em discreta e depois em categórica ordinal, por exemplo idade (como diferença entre a data atual e data de nascimento, anos completos, faixas de idade). É recomendável tomar o valor bruto e depois categorizá-lo, isso dá mais flexibilidade ao pesquisador.
Variável aleatória: É uma variável cujo valor numérico atual é determinado por probabilidades. Por exemplo, X: pontuação na escala de atitudes em relação à Estatística, Y: número de disciplinas reprovadas em Estatística, etc. Observe que o resultado depende do aluno selecionado. A variável aleatória tem uma distribuição de probabilidades associada, o que nos permite calcular a probabilidade de ocorrência de certos valores.
Parâmetro: É uma medida usada para descrever, de forma resumida, uma característica da população, Por exemplo, a média populacional (m), a proporção populacional (p), a variância populacional (s), o coeficiente de correlação (r), etc. Os parâmetros, via de regra, são valores desconhecidos e desejamos estimar, ou testar, a partir dos dados de uma amostra.
Média populacional (m): É o valor que representa um conjunto de valores da população. Definida como a soma de todos os valores da população dividido pelo número de observações. Por exemplo: renda per capita de um país, esperança de vida, renda familiar média, pontuação média na escala de atitudes em relação à Estatística, etc.
Proporção populacional (p): É um valor resultante do cociente entre o número de casos favoráveis e o número de casos possíveis na população. Por exemplo: proporção de eleitores que votarão no candidato XYZ nas próximas eleições.
Variância populacional (s2): É um valor que mede o grau de dispersão dos valores da variável, na população, em relação à média populacional. Definida como a soma dos quadrados dos desvios dos valores da variável em relação a sua média, divido pelo número de observações: Soma[(Xi – média)2]/N
Covariância populacional C(X,Y): É um valor que mede o grau de dispersão simultânea de duas variáveis quantitativas em relação as suas médias. É a soma dos produtos dos desvios das variáveis em relação a sua média, dividido pelo número de observações: Soma[(Xi – médiaX)*(Yi – médiaY)]/N. É o numerador do coeficiente de correlação.
Correlação populacional (r): É um valor que mede o grau de relação linear entre duas variáveis quantitativas. É igual a covariância dividida pelo desvio padrão de cada uma das variáveis.
Estatística ou estimador: É uma função dos valores da amostra, ou seja uma variável aleatória, pois seu resultado depende dos elementos selecionados naquela amostra. São utilizados para estimar os parâmetros populacionais, para isto é preciso conhecer sua distribuição de probabilidades, que via de regra, pressupõe normalidade ou amostras grandes. Por exemplo: a média amostral, a proporção amostral, a variância amostral, etc.
Média amostral: (X, se lê X barra), é uma variável aleatória, função dos valores da amostra, é definida como a soma de todos os valores da amostra dividido pelo número de observações da amostra. Serve para estimar a média populacional.
Proporção amostral: ( p se lê p barra), serve para estimar a proporção populacional.
Variância amostral (s2): Serve para estimar a variância populacional.
Correlação amostral (r): Serve para estimar a correlação linear populacional.
Estimativa (ou Estimativa pontual): É o valor que a estatística ou estimador toma em uma amostra determinada.
Erro de estimação: É a diferença entre o verdadeiro valor do parâmetro e o valor calculado a partir do dados de uma amostra. Este depende diretamente do grau de dispersão (variabilidade) da variável em estudo e inversamente ao tamanho da amostra.
Intervalo de confiança: É um intervalo centrado na estimava pontual, cuja probabilidade de conter o verdadeiro valor do parâmetro é igual ao nível de confiança.a: É a probabilidade de erro na estimação por intervalo.
(1 - alfa) Nível de confiança: É a probabilidade de que o Intervalo de Confiança contenha o verdadeiro valor do parâmetro.
Hipótese: Uma hipótese é um enunciado formal das relações esperadas entre pelo menos uma variável independente e uma variável dependente. Nas pesquisas exploratórias, as hipóteses podem se tornar questões de pesquisa. Estas questões pela sua especificidade, devem dar testemunho do trabalho conceitual efetuado pelo pesquisador e, pela sua clareza, permitir uma resposta interpretável.
Hipótese alternativa (H1): As hipóteses de uma pesquisa devem enunciar-se por propostas tão claras e específicas quanto possível, via de regra, é o que você quer mostrar, por exemplo:
“as atitudes em relação a Matemática interferem diretamente na formação das atitudes em relação à Estatística”
Hipótese nula (Ho): A hipótese nula é a negação da hipótese alternativa, por isso, via de regra, você sempre torce para que ela seja rejeitada, como no caso seguinte: “as atitudes em relação a Matemática não interferem na formação das atitudes em relação à Estatística”. Está é a hipótese que esta sendo testada por qualquer teste estatístico.
A se tomar uma decisão estatística, existem duas possibilidades de erro: o Erro de tipo I: rejeitar a hipótese nula (Ho), quando ela é verdadeira e, o Erro de tipo II: aceitar a hipótese nula (Ho), quando ela é falsa. Infelizmente, quando a probabilidade de cometer um diminui, a probabilidade de cometer o outro aumenta. Assim, os testes estatísticos foram delineados para controlar o erro de tipo I, chamado de nível de significância.
Nível de significância (alfa): É definida como a probabilidade de cometer o erro de tipo I, ou seja, rejeitar a hipótese nula (Ho), quando ela é verdadeira. Por exemplo:
Ho: As atitudes em relação à Matemática não interferem na formação das atitudes em relação à Estatística (rxy = 0)
H1: As atitudes em relação à Matemática interferem na formação das atitudes em relação à Estatística. (rxy ¹ 0)
a (alfa) = É a probabilidade de Rejeitar Ho, quando ela é verdadeira. Neste caso, seria a probabilidade de afirmar que as atitudes em relação à Matemática interferem na formação das atitudes em relação à Estatística, quando na realidade não existe nenhuma relação.
Este erro é controlado pelo pesquisador, e é ele que define a margem de erro que está disposto a correr. Existem vários fatores que influenciam na escolha do nível de significância. Em pesquisas, como nas ciências exatas, biológicas, agronômicas, onde as variáveis são mais fáceis de mensurar, onde os instrumentos de medida são confiáveis, onde o controle de fatores intervenientes é razoável, o conhecimento da área é maior, a gravidade das consequências do erro menor, entre outros, permitem um maior rigor e, portanto, pode-se ser mais exigente, diminuindo o nível de significância. Contudo, em pesquisas, nas ciências humanas, que lida com pessoas, com construtos polêmicos, instrumentos ainda não testados, as consequências do erro não são tão graves, entre outros, pode-se ser mais flexível. Via de regra, usa-se o nível de 5%.
p-valor: É a probabilidade de cometer o erro de tipo I (rejeitar Ho quando ela é verdadeira), com os dados de uma amostra específica. Este valor é dado pelo pacote estatístico, assim o comparamos com o nível de significância escolhido e tomamos a decisão. Se o p-valor for menor que o nível de significância escolhido rejeitamos Ho, caso contrário, aceitamos Ho.
Normal: Uma variável quantitativa segue uma distribuição normal, se sua distribuição de frequências tem o formato similar ao de um sino, ou seja a maioria dos valores se concentram em torno da média e, a medida que se afasta do centro as observações são cada vez mais raras. Essa distribuição é simétrica. Muitas variáveis têm essa distribuição, tais como altura das pessoas adultas do sexo masculino, coeficiente de inteligência, etc. Para examinar visualmente, você pode fazer o histograma com a curva ajustada, o SPSS faz isso. O teste que checa a normalidade de uma variável é o teste de Lilliefors, que se encontra no comando EXPLORE do SPSS. A hipótese nula é que a variável segue uma distribuição normal, por isso você espera aceitar Ho, e espera que o p-valor seja maior do que o nível de significância especificado por você.
O pressuposto de normalidade é chave para toda a estatística paramétrica, por essa razão você sempre deve checar a validade do mesmo. Contudo, quando sua amostra for suficientemente grande (n > 30), dependendo do formato da distribuição, o Teorema Central do Limite garante a convergência da média amostral para a normalidade, veja a página 197 do livro de Estatística Básica de Moretin e Bussab.
O pressuposto de independência é chave para a maioria das estatísticas. Isto significa que o resultado de uma observação não interfere no resultado de outra observação. Por exemplo, a nota de um aluno não interfere na nota de um outro aluno. Já esse pressuposto é quebrado para amostras relacionadas como, por exemplo, passar uma prova antes de uma intervenção e a mesma prova (ou outra) depois da intervenção; essas duas medidas são correlacionadas, uma vez que os sujeitos são os mesmos. Neste caso, deve-se utilizar o teste para dados emparelhadas, ou ANOVA com medidas repetidas. Logo, cuidado com os estudos longitudinais, em que se acompanha os mesmos sujeitos em vários momentos.
Homocedasticidade ou igualdade de variâncias: Este pressuposto exige que o nível de dispersão da variável dentro dos grupos seja similar. O SPSS automaticamente testa esta hipótese: Ho: s1 = s2 = s3 = s4, através do teste de Levene.
Matriz de covariância: É uma matriz quadrada, simétrica, cuja diagonal contém a variância da variável e em cada interseção linha (i) coluna (j) a covariância das variáveis Xi e Xj.
Matriz de correlação: É uma matriz quadrada, simétrica, cuja diagonal é formada pela unidade, pois trata-se da correlação da variável com ela mesma, e em cada interseção linha (i) coluna (j) a correlação das variáveis Xi e Xj.
Esfericidade: O teste de esfericidade checa se a matriz de correlação é igual a matriz identidade, ou seja, na diagonal formados por uns e zero fora da diagonal.
Multicolinearidade. Este é um pressuposto importante na análise regressão múltipla, pois se uma variável independente for uma combinação linear de outras variáveis independentes, coloca em risco toda a análise. Não adianta tentar modelar uma variável em função de várias variáveis correlacionadas, essas não incrementam o poder explicativo do modelo. Neste caso, use o modelo de regressão stepwise, backward ou foreward.
Graus de liberdade é um conceito ligado ao número de dados disponíveis (livres) para o cálculo da estatística.
Coeficiente de determinação (R2): É o quadrado do coeficiente de correlação de Pearson e expresso em porcentagem. É o percentual explicado da variação da variável dependente pela reta de regressão (modelo). O restante é explicado pelo erro, que pode ser devido a ausência de outras variáveis, erros de mensuração das variáveis e ao erro aleatório.
Coeficiente angular ou inclinação (da reta de regressão: Y = a + b * X): É a variação de Y por cada variação de X.
Intercepto (da reta de regressão: Y = a + b * X): É o valor de Y, quando X = 0. A maioria das vezes não faz sentido interpretar este valor.