Distribución t de Student
La distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño.
Si el tamaño de la muestra es n entonces decimos que la distribución t tiene n-1 grados de libertad. Hay una distribución t diferente para cada tamaño de la muestra. Estas distribuciones son una familia de distribuciones de probabilidad continuas. Las curvas de densidad son simétricas y con forma de campana como la distribución normal estándar. Sus medias son 0 y sus varianzas son mayores que 1 (tienen colas más pesadas). Las colas de las distribuciones t disminuyen más lentamente que las colas de la distribución normal. Si los grados de libertad son mayores más próxima a 1 es la varianza y la función de densidad es más parecida a la densidad normal.
Cuando n es mayor que 30, la diferencia entre la normal y la distribución t de Student no suele ser muy importante.
A la teoría de pequeñas muestras también se le llama teoría del muestreo, ya que también la podemos utilizar con muestras aleatorias de tamaño grande.
Antes de continuar con la distribución, debemos definir un nuevo concepto aplicable a distribuciones muestrales. Este concepto es “grados de libertad“.
Grados de libertad
Recordemos de nuestro curso de estadística que teníamos parámetros pobacionales
μ σ y σ2
y parámetros muestrales
$$\bar{x}\quad s\quad y\quad s^2$$
¿Recuerdan la varianza muestral?
$$s^2=\frac{\sum_{i=1}^\infty{(x_i-\bar{x})^2}}{n-1}$$
El coeficiente (n-1) es una corrección que se utiliza en muestras. La varianza poblacional es entre n. A esta corrección se denomina grados de libertad.
Supongamos que tomamos una muestra de una población que se distribuye normalmente, con media μ y varianza poblacional σ2. Si
$$\bar{x}$$
es el promedio de las n observaciones que contiene la muestra, entonces podemos normalizar la muestra mediante
$$z= \frac{\bar{x}-\mu}{\frac{\sigma}{\sqrt{n}}}$$
ahora, supongamos que σ2 es desconocida. ¿qué sucede con la distribución si reemplazamos σ con s (desviación muestral)?
ocurre que nuestra distribución muestral se denomina Distribución t de student:
$$t= \frac{\bar{x}-\mu}{\frac{s}{\sqrt{n}}}$$
con n-1 grados de libertad (ν).
Propiedades de la distribución t
-
-
- Cada curva t tiene forma de campana con centro en 0
- Cada curva t está más dispersa que la curva normal estándar z
- A medida que los grados de libertad (v) aumentan, la dispersión de la curva t correspondiente disminuye
- A medida que $$\nu \longrightarrow \infty $$ la secuencia de curvas t se aproxima a la curva normal estándar, por lo que una curva z es una curva t con $$\nu = \infty $$
-
Ejemplo
Una línea de producción en lotes produce frascos de producto de 500 gramos. Se pretende verificar la eficiencia de la línea de producción y para ello se toma una muestra de 25 frascos. El promedio de esta muestra es de de 518 gramos y una desviación estándar de 40 gramos. Suponiendo que la distribución es aproximadamente normal, ¿cual es la probabilidad de obtener frascos con más de 518 gramos?
Los datos que disponemos son:
-
-
- μ=500
- Media=518
- s=40
- n=25
- grados de libertad: 25-1=24
-
$$t= \frac{518-500}{\frac{40}{\sqrt{25}}}$$ = 2.25
Busquemos en la tabla de la distribución t (sección 3.4) el valor correspondiente a x=2.25 y 24 grados de libertad.
No tenemos en la tabla 24 grados de libertad, por lo que buscamos el más cercano (25). El valor para 2.25 y 25 grados de libertad es 0.983
Al igual que lo hicimos con la distribución normal estándar, es importante ver que estamos calculando y que es lo que queremos obtener. Esto se aprecia mejor de forma gráfica. Lo que buscamos es el valor mayor a 518, teniendo como referencia la media. Esto es el área sombreada de la gráfica
y la probabilidad que nos da la tabla es
Por lo que, conociendo que el área total de la curva es 1, obtenemos la parte que buscamos restando 1-0.983=0.017 o 1.7% de probabilidad de que se obtenga un frasco con más de 518 gramos.
Si suponemos que en la línea de producción una diferencia de 5% hacia arriba o hacia abajo es permisible, ¿cuál es la probabilidad de que de una muestra de 25 se obtenga un promedio dentro de ese rango?
Primero, veamos gráficamente el área que estamos buscando
Estamos buscando la probabilidad de que la muestra esté entre el intervalo x1 a x2, mayor de 475 y menor de 525.
-
-
- μ=500
- Media 1=475
- Media 2=525
- s=40
- n=25
- grados de libertad: 25-1=24
-
Calculamos el valor de t para cada uno de los datos:
$$t= \frac{475-500}{\frac{40}{\sqrt{25}}}$$ = – 3.125 y $$t= \frac{525-500}{\frac{40}{\sqrt{25}}}$$ = 3.125
El valor en tablas para 3.125 (-3.125) es 0.997 o 0.998 por no existir el valor exacto que estamos buscando. Tomaremos el más bajo, 0.997. Recordemos que la curva es simétrica, por lo que el signo en el resultado no es importante, solo nos indica en que lugar de la curva estamos.
Ahora, recordemos también el área que nos da la tabla. Gráficamente se observa que podemos obtener el área sombreada (al menos la mitad) si restamos ese valor a 0.5 (la mitad de la curva) Por lo que la probabilidad de 0 a 3.125 es 0.997 – 0.5= 0.497 Esta es la mitad de la probabilidad. Sumando 0.497+0.497=0.994 obtenemos la probabilidad buscada: 99.4% Esta es la probabilidad de que una una muestra de 25 tenga en promedio entre 475 y 525 gramos.
****
Hasta ahora vimos a la distribución t de student como una función de densidad de probabilidad. Sin embargo, como afirmamos anteriormente, esta distribución tiende a la normal conforme aumentan los grados de libertad. En la siguiente tabla he puesto varios valores de x y el valor obtenido en la tabla de la distribución t para 10, 20 y 30 grados de libertad. También he puesto el valor obtenido de la tabla I de la distribución normal. Es fácil observar que con n=30 se podría usar la tabla de distribución normal o la tabla t indistintamente.
Valores de la distribución t y normal
10 | 20 | 30 | Normal | |
0.00 | 0.500 | 0.500 | 0.500 | 0.500 |
1.00 | 0.750 | 0.835 | 0.837 | 0.841 |
2.00 | 0.852 | 0.970 | 0.973 | 0.977 |
3.00 | 0.989 | 0.996 | 0.997 | 0.998 |
Para valores menores a 30, la distribución t es un buen estimador de la distribución normal. Así que, para estimar parámetros poblaciones la distribución t es muy útil.
En el siguiente apartado veremos más del tema.