Estimación y predicción

La meta del análisis de regresión es desarrollar un modelo estadístico que se pueda usar para predecir los valores de una variable dependiente o de respuesta basados en los valores de al menos una variable independiente o explicativa.

Limitamos la estimación y predicción a un modelo de regresión lineal simple, que usa una variable numérica independiente para predecir la variable numérica dependiente. Para establecer una relación cuantitativa entre X y Y es necesario disponer de cierta información muestral. Esta información consiste de un conjunto de pares de observaciones de X y Y, donde cada uno de estos pares pertenece a una unidad elemental particular de la muestra.

Por ejemplo, supongamos que el rendimiento de un proceso químico está relacionado con la temperatura de operación, o la experiencia profesional de los trabajadores a sus respectivos sueldos, las estaturas y pesos de personas, la producción agraria y la cantidad de fertilizantes utilizados, etc. Si mediante un modelo matemático es posible describir tal relación, entonces este modelo puede ser usado para propósitos de predicción, optimización o control.

El término variable se puede definir cómo toda aquella característica o cualidad que identifica a una realidad y que se puede medir, controlar y estudiar mediante un proceso de investigación.

La variable independiente es aquella propiedad, cualidad o característica de una realidad, evento o fenómeno, que tiene la capacidad para influir, incidir o afectar a otras variables. Se llama independiente, porque esta variable no depende de otros factores para estar presente en esa realidad en estudio. Algunos ejemplos de variables independientes son; el sexo, la raza, la edad, entre otros. Veamos un ejemplo de hipótesis donde está presente la variable independiente: “Los niños que hacen tres años de educación preescolar, aprenden a leer mas rápido en primer grado.” En este caso la variable independiente es “hacen tres años de educación preescolar.” Porque para que los niños de primer grado aprendan a leer más rápido, depende de que hagan tres años de educación preescolar.

La variable dependiente; es aquella característica, propiedad o cualidad de una realidad o evento que estamos investigando. Es el objeto de estudio, sobre la cual se centra la investigación en general. También la variable independiente es manipulada por el investigador, porque el investigador el puede variar los factores para determinar el comportamiento de la variable. Por ejemplo: “Los niños que hacen tres años de educación preescolar, aprenden a leer más rápido en primer grado.” En este caso la variable dependiente sería “aprenden a leer mas rápido”, pero aprenden a leer más rápido como consecuencia de que “hacen tres año de educación preescolar”.

Ejemplo

En un análisis de control de calidad de papel se cree que la resistencia del mismo está en función del porcentaje de fibra que posee la pulpa con la que se elabora.

- Encontrar el modelo que describa esta relación y
- Determinar el porcentaje de fibra que tendrá una hoja de papel con resistencia 200

Porcentaje de fibra X	Resistencia Y
4	134
6	145
8	142
10	149
12	144
14	160
16	156
18	157
20	168
22	166
24	167
26	171
28	174
30	183

Como primer paso, graficaremos los datos para ver a ojo que tipo de relación guardan.

Observamos que puede existir una relación entre las variables. Al menos vemos que cuando aumenta el porcentaje de fibra, aumenta la resistencia.

Ya conocemos el modelo lineal simple y sus hipótesis:

Modelo de Regresión Lineal Simple

Es el modelo más sencillo. Estudia la relación lineal entre la variable de respuesta (Y) y una variable regresora (X), a partir de una muestra (X₁, Y₁, … , X_n, Y_n) que sigue el siguiente modelo lineal:

$$Y_i=\alpha X_i + \beta + \epsilon_i \quad \quad i=1…n$$

donde se verifican las hipótesis del modelo:

- - - Los errores tienen media cero: $$E[\epsilon_i]=0$$ Consecuentemente, $$E[Y_i]=\alpha X_i + \beta$$
    - La varianza del error es constante: $$V(\epsilon_i)=\sigma^2$$ Esta propiedad se conoce como homocedasticidad. Consecuentemente $$V(Y_i)=\sigma^2$$
    - La distribución del error es normal N(0, σ). Consecuentemente $$Y_i=N(\alpha X_i+\beta ,\sigma)$$
    - Los errores son independientes: $$cov(\epsilon_i, \epsilon_j)=0$$. Consecuentemente las observaciones Y_i también lo son.

En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los coeficientes de la recta de regresión α y β y la varianza de la distribución normal σ². Estos parámetros los determinaremos con el método de mínimos cuadrados, que ya vimos, y que en este caso los calcularemos mediante una hoja de cálculo.

Podemos calcular cualquier modelo con hojas de cálculo o con paquetes estadístico. En esta época de tecnología sería tonto hacerlo siempre a mano, pero para fines educativos te recomiendo que entiendas los cálculo y entonces los hagas con algún paquete.

Error de la estimación

Hemos definido, mediante el método de mínimos cuadrados, la metodología para obtener la recta que mejor se ajuste a los datos observados. Y a partir de esta metodología, se obtiene también una estimación de los parámetros que definen la recta (la pendiente b y la ordenada al origen a).

$$\hat y = (b ± S_b) x +(a ± S_a)$$

Una vez obtenida la recta, podemos predecir los datos y estimar qué tan buenos son los datos en comparación con los observados. Definamos entonces los datos observados como (y) y los datos esperados obtenidos del ajuste, como ($$\hat y$$).

Podemos medir entonces la diferencia que existe entre y y $$\hat y$$. Esto se conoce como error en la estimación y se designa como S_xy. El error estándar de la estimación mide la disparidad promedio entre los valores observados y los valores estimados. El cálculo es el siguiente

$$S_{xy} = \sqrt {\frac{\sum (y – \hat y)^2}{n-2}}$$

Debemos entonces calcular los valores de $$\hat y$$ para cada porcentaje de fibra sustituyendo en la ecuación obtenida por mínimos cuadrados.

Utlizaré ahora una hoja de cálculo para obtener la estimación de la recta por mínimos cuadrados, graficaremos los puntos observados y el ajuste de recta y con ello, calcularemos los datos esperados con la recta de mínimos cuadrados

La ecuación de esta recta es

$$\hat y = 1.62 (x) + 130.67 $$

Y el error estándar de la estimación:

$$S_{xy}=\sqrt{\frac{180.93}{13}} = 3.72$$ unidades de resistencia

S_xy es una medida que resume la diferencia entre lo observado y lo estimado, es decir mide la diferencia promedio entre lo observado y lo esperado de acuerdo al modelo. Este valor puede considerarse como un indicador del grado de precisión con la que la ecuación de regresión describe la relación entre las dos variables. El error estándar se ve afectado por las unidades y sus cambios ya que es una medida absoluta pues tiene las mismas unidades de la variable y.

Este valor S_xy resulta útil para ver la variabilidad de los datos estimados. Utilizaremos este dato para sumar y restar a los datos estimados y así ver esta variabilidad gráficamente:

Sin embargo S_xy solo explica una parte de la variabilidad. Trataremos de encontrar un parámetro que explica la mayor parte de la variabilidad.

Login with your site account

Login with your site account

Probabilidad y estadística para economistas

Estimación y predicción

Ejemplo

Error de la estimación

Modal title