¿Cómo funciona la regresión lineal?

Jose Miguel Arrieta
Data Science
Published in
5 min readJun 7, 2017

--

Translated from Brandon Rohrer’s Blog by Jose Miguel Arrieta R.

Regresión lineal es el término técnico para dibujar una línea recta a través de puntos de datos. Te mostraré cómo funciona a través de la compra de diamantes.

Tengo un anillo que pertenecía a mi abuela. Tiene un lugar para un diamante de 1.35 quilates, pero tristemente, no hay diamante en él. Me gustaría restaurarlo, así que voy a la joyería para averiguar cuánto me costaría un diamante de 1,35 quilates. Tendré que ahorrar antes de poder comprarlo.

En la joyería, descubro que no hay diamantes de 1,35 quilates para cotizar el precio. Sin dudarlo, saco un lápiz y un papel y escribo los precios y pesos de cada diamante en la caja.

Observo que los pesos no van mucho más arriba de 2 quilates y dibujo una línea horizontal con los números que se acomodan a ellos.

También dibujo una línea numérica vertical que va de cero hasta más arriba del precio más alto en la caja.

Estos son mis ejes de coordenadas. En una ciudad con calles en forma de grillas como Manhattan, se puede identificar cualquier intersección con sólo dar su calle este-oeste y la avenida norte-sur. De la misma manera, los ejes de coordenadas te permiten nombrar cualquier punto por donde cruce el eje horizontal y vertical. Esto me permite dibujar mi primer punto de datos encontrando su peso, dibujando una línea vertical hacia arriba y encontrando su precio, dibujando una línea horizontal finalmente colocando un punto donde se cruzan.

Puedo repetir esto con los pesos y los precios de todos los otros diamantes.

Esto convierte mi lista de precios y pesos en una imagen. Hasta ahora no he añadido ninguna información nueva ni descartado nada. Solo he cambiado la forma de la información. Los datos ahora son una imagen. La imagen tiene una forma obvia. Parece una amplia línea borrosa que sube a la derecha. Mi siguiente paso es dibujar una línea recta a través de la mitad de ella. Hay aproximadamente el mismo número de puntos de datos en cada lado de la línea, y abraza el centro de la franja de datos.

Dibujar una línea a través de los datos es un paso muy significativo. Aunque la línea puede parecer obvia para nosotros, eso es sólo porque tenemos cantidades cercanas a supercomputadores de cálculo neural dedicadas a ver patrones. Al trazar una línea, he destilado una colección de puntos hasta una versión simplificada de sí mismo, de la misma manera que una caricatura es una versión simplificada de una imagen realista. En este paso, de hecho, descarto algo de la información en los datos, pero a cambio tengo una historia simplificada que puedo usar para responder preguntas. Encontrar la curva que mejor se adapte a los datos se llama regresión, y cuando esa curva es una línea recta, se llama regresión lineal.

Con un modelo lineal establecido, finalmente puedo responder a mi pregunta, “¿Cuánto me costará un diamante de 1,35 quilates?” Para hacer esto, trazo con la mirada una línea vertical desde el punto de 1,35 quilates en el eje de los pesos. Desde donde cruza mi modelo lineal, trazo con la mirada una línea horizontal sobre el eje de precios. Esta llega a alrededor de la marca de $8000. Pregunta contestada!

Para hacer la respuesta aún más útil, observo que la mayoría de los diamantes no caen justo en la línea. Eso significa que mi diamante de 1,35 quilates probablemente no costará exactamente $8000. La siguiente pregunta sería “¿Qué tan cerca de $8000 será?” Para estimar esto, dibujo una amplia zona de cobertura alrededor de mi línea que abarca la mayoría (aproximadamente 95%) de mis puntos de datos.

Estoy bastante seguro (alrededor del 95%) de que cualquier diamante futuro que encuentre caerá en algún lugar de esta zona de cobertura. Para averiguar lo que esto significa para mi diamante, trazo otras dos líneas horizontales donde la línea de 1,35 quilates cruza mi zona de confianza en el lado alto y bajo.

Ahora veo que puedo estar bastante seguro de que mi diamante costará más de $5800, pero menos de $10.200. Armado con esta información, puedo hacer un plan sobre cuánto ahorrar de cada cheque de pago y por cuánto tiempo antes de que pueda restaurar el anillo de mi abuela.

Mi objetivo con este ejemplo es mostrar que la regresión lineal es simple, al menos conceptualmente. Se puede hacer con un lápiz, una servilleta y un ojo cuidadoso, sin computadoras o matemáticas necesarias. Sin embargo, en la práctica las matemáticas son muy útiles.

Digamos que consigo más información sobre los diamantes, como el color, la claridad, el corte y el número de inclusiones. Entonces habría 6 columnas en lugar de 2, que es mucho más difícil de visualizar. La matemática resulta útil cuando se ajusta una línea (o el equivalente en 6 dimensiones de una línea) a este conjunto de datos más rico.

Y decir que en lugar de 17 diamantes, había 17 mil o 17 millones. El problema rápidamente se vuelve poco práctico para incluso el artista más dedicado, sin embargo los computadores pueden hacer el trabajo de una forma muy rápida.

Brandon

Diciembre 20, 2016

--

--