Modelo probabilístico lineal simple
Representa una tendencia en una serie de datos obtenidos a través de un largo período. Este tipo de líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PIB, el precio del petróleo o el valor de las acciones) han aumentado o decrementado en un determinado período.
Se puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera más precisa utilizando técnicas estadísticas como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la línea.
Modelos de Regresión
Estudian la relación estocástica (cuantitativa) entre una variable de interés Y (respuesta o dependiente), y un conjunto de variables explicativas (X1, …, Xn) (regresoras o independientes)
Posibles situaciones:
-
- Existe una relación funcional entre ellas: el conocimiento de las variables regresoras determina completamente el valor que toma la variable respuesta.
- No existe ninguna relación entre la variable respuesta y las variables regresoras: el conocimiento de éstas no proporciona ninguna información sobre el comportamiento de la otra, son independientes.
- Caso intermedio: existe una relación “estadística” entre la variable respuesta y las variables regresoras: el conocimiento de estas permiten predecir con mayor o menor exactitud el valor de la variable respuesta. Es el caso más habitual. Su estudio corresponde a los Modelos de Regresión.
Modelo
$$Y=g(X_1, … , X_n)+\epsilon$$
donde la función g es desconocida, y ε es el error de observación, una variable aleatoria de media cero.
Entonces, estimaremos la función de regresión, g, y el modelo probabilístico que sigue el error aleatorio (f , F, P…) a partir del conocimiento de una muestra aleatoria de las variables en estudio.
Una vez estimadas se puede
-
-
- tener una idea general del comportamiento de la variable respuesta en función de las regresoras,
- estimar y predecir el valor de la variable respuesta de un individuo del que se conocen los valores de las variables regresoras,
- calcular un intervalo de predicción del mismo…
-
Modelo de Regresión Lineal Simple
Es el modelo más sencillo. Estudia la relación lineal entre la variable de respuesta (Y) y una variable regresora (X), a partir de una muestra (X1, Y1, … , Xn, Yn) que sigue el siguiente modelo lineal:
$$Y_i=\alpha X_i + \beta + \epsilon_i$$ i=1…n
donde se verifican las hipótesis del modelo:
-
-
- Los errores tienen media cero: $$E[\epsilon_i]=0$$ Consecuentemente, $$E[Y_i]=\alpha X_i + \beta$$
- La varianza del error es constante: $$V(\epsilon_i)=\sigma^2$$ Esta propiedad se conoce como homocedasticidad. Consecuentemente $$V(Y_i)=\sigma^2$$
- La distribución del error es normal N(0, σ). Consecuentemente $$Y_i=N(\alpha X_i+\beta ,\sigma)$$
- Los errores son independientes: $$cov(\epsilon_i, \epsilon_j)=0$$ Consecuentemente las observaciones Yi también lo son.
-
En el modelo de regresión lineal simple hay tres parámetros que se deben estimar: los coeficientes de la recta de regresión α y β y la varianza de la distribución normal σ2. Existen dos métodos para estimarlos: El método de máxima verosimilitud (que no veremos en el curso) y el método de mínimos cuadrados.