¿Qué polinomio debemos escoger para ajustar datos?
Muchos profesionales y estudiantes de ingeniería, cuando quieren representar matemáticamente sus datos experimentales, después de graficarlos en Excel, optan por agregar una línea de tendencia de ajuste de un polinomio de cuarto orden o superior, pensando que mientras más términos tenga la ecuación (mayor grado del polinomio), mayor será su precisión con la que represente a los datos. Este criterio puede llevarnos a cometer errores en procesos y operaciones en las que la precisión de los datos juega un papel fundamental, o también, hacernos perder el tiempo con ecuaciones larguísimas que no justifican su robustez.
Para tener la certeza de que la ecuación seleccionada es la correcta debemos hacer uso de herramientas gráficas y estadísticas. A continuación detallamos un ejemplo de correlación de datos para explicar sobre dichas herramientas y ver cómo se emplean para seleccionar el mejor modelo.
Ajuste Polinomial de los datos de la Presión de Vapor del Benceno
Tenemos los siguientes datos:
TABLA 1
Mediante el ajuste polinomial se obtendrá la ecuación que permita calcular la presión de vapor del benceno (P) en función de la temperatura (T). Esta ecuación será de la siguiente forma:
donde “n” es el grado del polinomio y las “a” son sus coeficientes.
Con el programa de regresión polinomial del software POLYMATH obtenemos los coeficientes de las ecuaciones de primer orden hasta el quinto, vistos en la siguiente tabla:
Con el programa de regresión polinomial del software POLYMATH obtenemos los coeficientes de las ecuaciones de primer orden hasta el quinto, vistos en la siguiente tabla:
TABLA 2: Ecuaciones de ajuste obtenidas con POLYMATH
Ahora nos toca analizar y escoger la ecuación que mejor represente a los datos de la presión de vapor del benceno.
Análisis Estadístico
a) Coeficiente de correlación (R^2)
El Coeficiente de Correlación es usado para juzgar si el modelo representa correctamente a los datos. Si su valor se aproxima a 1 entonces el modelo es correcto. Observamos en la tabla 2 que casi todos los R^2 de los polinomios se aproximan dramáticamente a 1, a excepción del de primer orden (el cual da la gráfica de una recta), por lo tanto, podemos desecharlo de nuestro proceso de selección.
El Coeficiente de Correlación es usado para juzgar si el modelo representa correctamente a los datos. Si su valor se aproxima a 1 entonces el modelo es correcto. Observamos en la tabla 2 que casi todos los R^2 de los polinomios se aproximan dramáticamente a 1, a excepción del de primer orden (el cual da la gráfica de una recta), por lo tanto, podemos desecharlo de nuestro proceso de selección.
b) Varianza
La varianza está definida por la siguiente ecuación:
Donde:
* V = N - (n+1), siendo “N” el número de datos y “n” el grado del polinomio.
* P(obs) son las presiones experimentales, y P(calc) son las que dan las ecuaciones.
A menor varianza, mayor será la precisión de ajuste de la ecuación. En la tabla 2 se observa que el polinomio de tercer orden es el que tiene la varianza más pequeña (0,0371448), aunque el polinomio de cuarto orden tiene un valor cercano (0,0375345). El polinomio de segundo orden por tener una varianza grande es desechado de nuestro proceso de selección.
c) Intervalos de Confianza
Cuando se analizan ecuaciones con muchos parámetros (a partir de cuarto orden), es importante considerar los intervalos de confianza de los valores de los parámetros porque representan la incertidumbre asociada a dichos valores. Por ejemplo, un parámetro de valor 4 con un intervalo de 0,3 debería ser representado como 4±0,3, es decir, su “verdadero” valor estaría en el rango de 3,7 a 4,3. Un mal ajuste entre el modelo y los datos es a menudo indicado por un intervalo de confianza que incluye al cero dentro del rango.
En la siguiente tabla tenemos los intervalos de confianza para los polinomios de grado 3 y 5:
TABLA 3: Intervalos de confianza obtenidos con POLYMATH
Se observa en la tabla que el intervalo de confianza de los coeficientes a4 (2,30E-08±1,66E-07 da un rango de -1.43E-07 a 1.89E-7) y a5 del polinomio de 5to orden incluyen al cero. Aunque por razones de espacio no está incluida en la tabla, el intervalo de confianza del coeficiente a4 del polinomio de 4to orden también incluye al cero. Sólo el polinomio de 3er orden no presenta ningún intervalo que incluya al cero, por lo tanto es el que mejor se ajusta a los datos.
CONCLUSIONES
· En este ejemplo los polinomios de 3er y 4to orden son los que más se ajustan a los datos, siendo el mejor el de grado 3 por dos características que no tiene el otro: una menor varianza, e intervalos de confianza que no incluyen el valor de cero.
· El polinomio de 5to orden a pesar de tener un índice de correlación cercano a 1 y una buena curva de ajuste, no valdría la pena gastar tiempo y esfuerzo en su utilización.
HENRY FLORES
PD: si desea recibir el artículo completo que incluye el análisis de residuales y las curvas de ajuste, pídala escribiendo al correo : henryabraham@yahoo.com