ESTADÍSTICA INFERENCIAL 1: 2018

¿Qué es una prueba de hipótesis?

Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar una afirmación acerca de una población dependiendo de la evidencia proporcionada por una muestra de datos.

Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que se probará. Por lo general, la hipótesis nula es un enunciado de que "no hay efecto" o "no hay diferencia". La hipótesis alternativa es el enunciado que se desea poder concluir que es verdadero de acuerdo con la evidencia proporcionada por los datos de la muestra.

Con base en los datos de muestra, la prueba determina si se puede rechazar la hipótesis nula. Usted utiliza el valor p para tomar esa decisión. Si el valor p es menor que el nivel de significancia (denotado como α o alfa), entonces puede rechazar la hipótesis nula.

Un error común de percepción es que las pruebas estadísticas de hipótesis están diseñadas para seleccionar la más probable de dos hipótesis. Sin embargo, al diseñar una prueba de hipótesis, establecemos la hipótesis nula como lo que queremos desaprobar. Puesto que establecemos el nivel de significancia para que sea pequeño antes del análisis (por lo general, un valor de 0.05 funciona adecuadamente), cuando rechazamos la hipótesis nula, tenemos prueba estadística de que la alternativa es verdadera. En cambio, si no podemos rechazar la hipótesis nula, no tenemos prueba estadística de que la hipótesis nula sea verdadera. Esto se debe a que no establecimos la probabilidad de aceptar equivocadamente la hipótesis nula para que fuera pequeña.

Entre las preguntas que se pueden contestar con una prueba de hipótesis están las siguientes:

· ¿Tienen las estudiantes de pregrado una estatura media diferente de 66 pulgadas?

· ¿Es la desviación estándar de su estatura igual a o menor que 5 pulgadas?

· ¿Es diferente la estatura de las estudiantes y los estudiantes de pregrado en promedio?

· ¿Es la proporción de los estudiantes de pregrado significativamente más alta que la proporción de las estudiantes de pregrado?

· Minitab.com

· Portal para licencias

· Tienda

PRUEBA DE HIPÓTESIS PARA LA VARIANZA

En situaciones como control estadístico de la calidad, de antemano se conocen los parámetros de referencia del proceso bajo control. La actividad para decidir si en un momento dado, el proceso está bajo de control, es la confrontación permanente de los datos obtenidos con la hipótesis sobre la centralidad del proceso (media) sobre la magnitud de su variabilidad (varianza)
La varianza como medida de dispersión es importante dado que nos ofrece una mejor visión de dispersión de datos.
Así podremos determinar una franja de confianza, con la base en la cual podríamos tomar decisiones al respecto.
Para esto entonces debemos conocer nuestro estadístico de prueba considerando que la población sigue una distribución normal:

PRUEBA DE HIPOTESIS PARA UNA VARIANZA

• Comprender los fundamentos teóricos y la lógica subyacente de la metodología de pruebas de hipótesis estadísticas.
• Aplicar los procedimientos de pruebas de hipótesis estadísticas para diferentes parámetros poblacionales.
• Conocer acerca de los errores que se pueden cometer en el proceso de decisión basado en muestras.
• Aplicar conceptos y procedimientos de la metodología en la resolución de problemas.

OBJETIVOS
PRUEBA DE HIPÓTESIS PARA LA VARIANZA
DEGREGORI SEEMAN , KATHERIN
DUEÑAS LOZANO , LESLIE
GOMEZ CORDOVA , EVELYN
PRADO ESPINOZA , JEFFREY
Hipótesis

- Prueba de hipótesis a dos colas
H0 : σ2 = k
H1 : σ2 ≠ k
- Prueba de hipótesis a una cola superior

H0 : σ2 = k ó H0 : σ2 ≤ k
H1 : σ2 > k ó H1 : σ2 > k
- Prueba de hipótesis a una cola inferior

H0 : σ2 = k ó H0 : σ2 ≥ k
H1 : σ2 < k ó H1 : σ2 < k
TIPOS DE HIPOTESIS
EJERCICIO 1
Distribución de probabilidad normal, para lo cual usamos el siguiente estadístico de prueba:
Este estadístico de prueba se le conoce como Hi cuadrada:

Es frecuente que se desee comprobar si la variación o dispersión de una variable ha tenido alguna modificación, lo cual se hace con la prueba de hipótesis para la varianza.
VARIANZA MUESTRAL SIN CORREGIR O CORREGIDA
REGLA DE DESICION
Si se ha planteado la hipótesis alternativa como:
H1:σ2≠k se tiene una prueba de hipótesis a dos colas, por lo tanto, el nivel de significancia α se divide en dos partes iguales, quedando estos valores en los extremos de la distribución como se aprecia.

Zα/2 y Z1- α/2 pertenecen a una distribucion X2 con (n-1) grado de libertad. Si el valor de la estadistica de trabajo (T) esta entre Zα/2 y Z1- α/2no se rechaza la hipotesis nula, en casoi contrario se rechaza H1 , es decir, si Zα/2<T<Z1- α/2no se rechaza H0.
- Si se ha planteado la hipotesis alternativa como:
H1 : σ2 > k , se tiene una prueba de hipótesis a una cola superior, quedando el nivel de significancia (α) en la parte superior de la distribución.

Una empresa del giro alimenticio desea determinar si el lote de una materia prima tiene o no una varianza poblacional mayor a 15 en su grado de endulzamiento. Se realiza un muestreo de 20 elementos y se obtiene una varianza muestral de 20.98; realizar la prueba de hipótesis con alfa = 0.05.

Paso 2
.Determinar el nivel de significancia. Definido por el analista,
en este caso se desea usar α = 0.05
Esta es la forma gráfica de ji cuadrada
Z1-α pertenecen a una distribucion X2con (n-1) grado de libertad. Si el valor de la estadistica de trabajo (T) es menor que Z1- α/2 no se rechaza la hipotesis nula, en caso contrario se rechaza H0lo cual implica aceptar H1, es decir
T<Z1- α/2 no se rechaza H0.
H1 : σ2 <k, se tiene una prueba de hipótesis a una cola inferior, quedando el nivel de significancia (α) en la parte inferior de la distribución.
Paso 1.
Determinar la hipótesis Nula “Ho” y Alternativa “H1”.
Ho: La varianza poblacional es igual a 15.
(Algunos autores colocarían “La varianza poblacional es igual o menor a 15”).
H1:La varianza es mayor a 15.
Es decir: Ho: σ2 ≤ 15
H1: σ2 > 15 (prueba de una cola)

El área sombreada representa alfa o la fracción de error. Nótese que es prueba de una cola por lo que alfa no se divide en dos.

Paso 3
.Calcular los intervalos o valores críticos que implican ese nivel de significancia.

Xαv2
Usamos α = 0.05 y v (grados de libertad) = 20-1= 19
X0.05 v2
Leamos en la tabla:
X0.05 192 = 30.143
Gráficamente queda de la siguiente forma:

Paso 4.
Calcular el “estadístico” de la prueba
gl = n-1
Dónde:
gl: Grados de libertad
n: Número de elementos en la muestra
S2: Varianza muestral
σ2: Varianza considerada por la hipótesis nula
X2: Ji-cuadrada (también conocido como chi-cuadrada)
Para este problema la sustitución queda:
gl = n-1 = 20-1 = 19

Paso 5.
Determinar si el estadístico cae dentro de la región que hace la hipótesis nula verdadera.
Paso 6
. Aceptar o rechazar la hipotesis nula.
Se acepta que la varianza poblacional es igual a 15 como hipotesis nula

EJEMPLO 2:
Se supone que los diámetros de cierta marca de válvulas están distribuidos normalmente con una varianza poblacional de 0,2 pulgadas 2 , pero se cree que últimamente ha aumentado. Se toma una muestra aleatoria de válvulas a las que se les mide su diámetro, obteniéndose los siguientes resultados en pulgadas: 5,5 5,4 5,4 5,6 5,8 5,4 5,5 5,4 5,6 5,7
Con ésta información pruebe si lo que se cree es cierto.
Solucion:
Se cree que la varianza poblacional ha aumentado, es decir es superior a 0,2; por lo tanto:
H0 : = 0,2
H1 : > 0,2
Para realizar esta prueba de hipótesis utilizamos la siguiente formula:

CONCLUSION:
Asumiendo un nivel de confianza del 95 por ciento, en la tabla de la distribución chi-cuadrado con 9 grados de libertad, se obtiene un valor para Z de 16,919. Como puede observarse en la figura 3.11, el valor de la estadística de trabajo se ubica en la zona de no rechazo de la hipótesis nula, por consiguiente con una confiabilidad del 95 por ciento se puede afirmar que la varianza poblacional no ha aumentado.

Las pruebas de proporciones son adecuadas cuando los datos que se están analizando constan de cuentas o frecuencias de elementos de dos o más clases. El objetivo de estas pruebas es evaluar las afirmaciones con respecto a una proporción (o Porcentaje) de población. Las pruebas se basan en la premisa de que una proporción muestral (es decir, x ocurrencias en n observaciones, o x/n) será igual a la proporción verdadera de la población si se toman márgenes o tolerancias para la variabilidad muestral. Las pruebas suelen enfocarse en la diferencia entre un número esperado de ocurrencias, suponiendo que una afirmación es verdadera, y el número observado realmente. La diferencia se compara con la variabilidad prescrita mediante una distribución de muestreo que tiene como base el supuesto de que

es realmente verdadera.

En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de medias, excepto que, en el caso de las primeras, los datos muestrales se consideran como cuentas en lugar de como mediciones. Por ejemplo, las pruebas para medias y proporciones se pueden utilizar para evaluar afirmaciones con respecto a:

1) Un parámetro de población único (prueba de una muestra)

2) La igualdad de parámetros de dos poblaciones (prueba de dos muestras), y

3) La igualdad de parámetros de más de dos poblaciones (prueba de k muestras). Además, para tamaños grandes de muestras, la distribución de muestreo adecuada para pruebas de proporciones de una y dos muestras es aproximadamente normal, justo como sucede en el caso de pruebas de medias de una y dos muestras.

Prueba de proporciones de una muestra

Cuando el objetivo del muestreo es evaluar la validez de una afirmación con respecto a la proporción de una población, es adecuado utilizar una prueba de una muestra. La metodología de prueba depende de si el número de observaciones de la muestra es grande o pequeño.

Como se habrá observado anteriormente, las pruebas de grandes muestras de medias y proporciones son bastante semejantes. De este modo, los valoresestadísticos de prueba miden la desviación de un valor estadístico de muestra a partir de un valor propuesto. Y ambas pruebas se basan en la distribución normal estándar para valores críticos. Quizá la única diferencia real entre las ambas radica en la forma corno se obtiene la desviación estándar de la distribución de muestreo.

Esta prueba comprende el cálculo del valor estadístico de prueba Z

Posteriormente este valor es comparado con el valor de Z, obtenido a partir de una tabla normal a un nivel de significación seleccionado.

Como ocurrió con la prueba de medias de una muestra, las pruebas de proporciones pueden ser de una o dos colas.

La primera alternativa establece una prueba de cola derecha, la segunda, izquierda y la tercera, una prueba de dos colas.

Ejemplo ilustrativo

En un estudio se afirma que 3 de 10 estudiantes universitarios trabajan. Pruebe esta aseveración, a un nivel de significación de 0,025, respecto a la alternativa de que la proporción real de los estudiantes universitarios trabajan es mayor de lo que se afirma, si una muestra aleatoria de 600 estudiantes universitarios revela que 200 de ellos trabajan. La muestra fue tomada de 10000 estudiantes.

Los datos son:

Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño de la nuestra es mayor que el 5%. Se remplaza valores en la siguiente fórmula:

Los cálculos en Excel se muestran en la siguiente figura:

El gráfico elaborado en Winstats y Paint se muestra a continuación:

Decisión:

Prueba de proporciones de dos muestras

El objetivo de una prueba de dos muestras es determinar si las dos muestras independientes fueron tomadas de dos poblaciones, las cuales presentan la misma proporción de elementos con determinada característica. La prueba se concentra en la diferencia relativa (diferencia dividida entre la desviación estándar de la distribución de muestreo) entre las dos proporciones muestrales. Diferencias pequeñas denotan únicamente la variación casual productodel muestreo (se acepta H0), en tanto que grandes diferencias significan lo contrario (se rechaza H0). El valor estadístico de prueba (diferencia relativa) es comparado con un valor tabular de la distribución normal, a fin de decidir si H0 es aceptada o rechazada. Una vez más, esta prueba se asemeja considerablemente a la prueba de medias de dos muestras.

La hipótesis nula en una prueba de dos muestras es

TEOREMA DE LIMITE CENTRAL

¿Cuál es la importancia del teorema del límite central?

La importancia del teorema del límite central es que nos permite usar estadísticos de muestra para hacer inferencias con respecto a los parámetros de población sin saber nada sobre la forma de la distribución de frecuencias de esa población más que lo que podamos obtener de esa muestra.

El teorema del límite central es un teorema fundamental de probabilidad y estadística. El teorema describe la distribución de la media de una muestra aleatoria proveniente de una población con varianza finita. Cuando el tamaño de la muestra es lo suficientemente grande, la distribución de las medias sigue aproximadamente una distribución normal. El teorema se aplica independientemente de la forma de la distribución de la población. Muchos procedimientos estadísticos comunes requieren que los datos sean aproximadamente normales. El teorema de límite central le permite aplicar estos procedimientos útiles a poblaciones que son considerablemente no normales. El tamaño que debe tener la muestra depende de la forma de la distribución original. Si la distribución de la población es simétrica, un tamaño de muestra de 5 podría producir una aproximación adecuada. Si la distribución de la población es considerablemente asimétrica, es necesario un tamaño de muestra más grande. Por ejemplo, la distribución de la media puede ser aproximadamente normal si el tamaño de la muestra es mayor que 50. Las siguientes gráficas muestran ejemplos de cómo la distribución afecta el tamaño de la muestra que se necesita.

Distribución uniforme

Medias de las muestras

Muestras de una población uniforme

Una población que sigue una distribución uniforme es simétrica, pero marcadamente no normal, como lo demuestra el primer histograma. Sin embargo, la distribución de las medias de 1000 muestras de tamaño 5 de esta población es aproximadamente normal debido al teorema del límite central, como lo demuestra el segundo histograma. Este histograma de las medias de las muestras incluye una curva normal superpuesta para ilustrar esta normalidad.

Distribución exponencial

Medias de las muestras

Muestras de una población exponencial

Una población que sigue una distribución exponencial es asimétrica y no normal, como lo demuestra el primer histograma. Sin embargo, la distribución de las medias de 1000 muestras de tamaño 50 de esta población es aproximadamente normal debido al teorema del límite central, como lo demuestra el segundo histograma. Este histograma de las medias de las muestras incluye una curva normal superpuesta para ilustrar esta normalidad. Resultado de imagen para teorema de limite central