Análisis EDA
ToggleAnálisis EDA contaminantes del aire
Análisis Eda del AQI de California
Sushant Harischandra Vema || Diciembre 2021
1. Introducción
Entre 2020 y 2021, California ha experimentado más de 17,000 incendios y se han quemado casi 7 millones de acres (https://www.fire.ca.gov/stats-events/). A medida que el cambio climático se acelera, el riesgo de incendios forestales empeora. Además de los daños estructurales y la pérdida de vidas, los incendios forestales crean eventos peligrosos para la calidad del aire, que causan graves problemas de salud para los grupos vulnerables. Este informe explora la relación entre el AQI, los incendios forestales y los datos de tráfico para comprender el impacto que tienen los incendios en la calidad del aire en California.
2. EDA de composición abierta
Visualización 1: Niveles de AQI por mes
Arriba se muestra un gráfico de líneas utilizando el paquete seaborn que muestra la temporalidad de los niveles de AQI (eje y) a lo largo de los meses (eje x). Los picos más grandes ocurren durante la temporada alta de incendios forestales entre los meses de agosto y octubre. Pude aprovechar esta información sobre la temporalidad de los datos incorporando la fecha como una característica en la parte de modelado del proyecto.
Visualización 2: Correlación del AQI con las entidades seleccionadas
Esta visualización es un diagrama de pares que muestra la correlación entre varias entidades del conjunto de datos y el AQI. Las características de particular interés fueron la velocidad del viento, los niveles de dióxido de nitrógeno, el ozono, la temperatura y los niveles de dióxido de azufre. Este gráfico me ayudó a elegir mejor las características para mis modelos al determinar qué características comparten la correlación más fuerte con los niveles de AQI.
EDA realizó:
La primera parte de EDA que realicé fue la creación de una nueva división temporal de los datos. Exploré si los días de semana o los fines de semana se asocian con niveles más altos de AQI. Los hallazgos demostraron que (como se esperaba) los días de la semana mostraron niveles más altos de AQI que los fines de semana.
Otro modo de exploración fue repetir el análisis EDA sobre los nuevos datos en la segunda parte de mi proyecto. Si bien esperaba que esto arrojara resultados significativamente diferentes a los de la EDA en la primera parte, de hecho encontré tendencias similares a las de la primera parte.
Preguntas abiertas para la EDA adicional:
La EDA indicó qué características pueden dar los mejores resultados en el modelado predictivo, hay más espacio para la EDA y la investigación futuras. Algunas preguntas adicionales incluyen:
¿Qué partículas son más dañinas para la calidad del aire? En otras palabras, ¿qué partículas se asocian con los peores niveles de AQI?
Por el contrario, ¿cuáles son algunas de las características que pueden estar asociadas con los niveles óptimos de AQI? Por ejemplo, la proximidad a los bosques, la frecuencia de las viviendas que funcionan con energía solar y el bajo nivel de tráfico. Al encontrar características que se correlacionan con una mejor calidad del aire, tal vez pueda mejorar el AQI subsidiando estas actividades/soluciones naturales.
En lugar de la correlación, ¿podemos investigar la causalidad de un ICA deficiente?
¿Cómo se asocia la producción agrícola y alimentaria con el AQI? La fusión de conjuntos de datos agrícolas y agrícolas podría proporcionar información útil a esta pregunta.
3. Problema
Hipótesis y su viabilidad:
_ _
Mi hipótesis es que los incendios forestales están fuertemente correlacionados positivamente con niveles más altos de AQI. Más precisamente, creo que el uso de características del conjunto de datos de incendios forestales fusionados, como acres quemados, número de incendios dentro de un condado y duración de un incendio; Puedo predecir las categorías de AQI con más del 70% de precisión en mi modelo. Si la sección de modelado abierta produce al menos un 70% de precisión utilizando las características de incendios forestales, mi hipótesis es aceptable. Si no, rechazaré la hipótesis. No solo existe este conjunto de datos, sino que pude fusionar este conjunto de datos externo y llegar a una conclusión con respecto a mi hipótesis planteada; Por lo tanto, mi hipótesis es realmente factible. En este caso, mi variable objetivo/respuesta (Y) es el nivel AQI y mi matriz/características de diseño (X) son las múltiples características de mi conjunto de datos de incendios forestales combinado.
4. Respuesta e interpretación
Resultados:
Debido a que mi modelo forestal aleatorio en las secciones de modelado obtuvo una precisión inferior al 70%, rechazo mi hipótesis de que los incendios forestales se pueden usar para predecir el AQI. Sin embargo, mis datos de incendios forestales junto con los datos de la EPA son indicativos del aqi mensual promedio en un sitio determinado en un sitio determinado. En otras palabras, la correlación observada en mi modelo lineal demostró que, efectivamente, existe una correlación positiva entre el AQI y las características seleccionadas de los incendios forestales.
5. Modelado
Modelado preliminar:
En mi modelo preliminar primero combiné el conjunto de datos de tráfico (AADT) con mis datos de AQI. A continuación, ejecuté algo de ingeniería de características y utilicé log AADT, Temperatura, NO2, Configuración y Elevación como características para mi matriz de diseño (X/entradas). A continuación, empleé un modelo de regresor de bosque aleatorio para predecir el AQI (Y/salida). Mi tarea, sin embargo, era categorizar mis predicciones de AQI como buenas, moderadas, insalubres para grupos sensibles, insalubres, muy insalubres o peligrosas. Por lo tanto, después de predecir el AQI, clasifiqué la salida en estas categorías y verifiqué el rendimiento del modelo utilizando el conjunto de datos de validación/prueba para calcular el error del modelo.
Modelado adicional:
La parte de modelado abierto del proyecto implicó la introducción de un conjunto de datos externo que contenía muchas características de incendios forestales que se fusionó con el código de condado del conjunto de datos AQI. Las características utilizadas en este modelo son median_dailyacres (mediana de acres diarios quemados en todos los incendios de un condado en particular hasta el momento); mean_FireDurationDays (duración promedio en días de todos los incendios de un condado en particular hasta el momento); y count_ExtremeOrActiveBehavior (el número de incendios entre todos los incendios de un condado en particular hasta el momento que se han registrado como de comportamiento extremo o muy activo), una característica binaria. Las características se seleccionaron para probar la hipótesis de que los incendios más severos conducirían a una calidad del aire sustancialmente peor en las regiones circundantes. La variable de salida/respuesta para el modelo fue el AQI, que se puede clasificar en diferentes niveles. Con un resultado tan sobresaliente del modelado guiado utilizando un regresor de bosque aleatorio, decidí volver a usar el mismo tipo de modelo para esta sección. La razón por la que elegí retroceder es porque la hipótesis afirmaba que creía que las características de los incendios forestales estaban significativamente (positivamente) correlacionadas con los niveles de AQI.
6. Modelado, evaluación y análisis
Evaluación guiada del modelado:
Las métricas de error utilizadas fueron el error de clasificación binaria (si se predijo la clase correcta) y el error CV (validación cruzada de K Fold). Las características que seleccioné para este modelo son log AADT, Temperatura, NO2, Configuración y Elevación. La variable NO2 demostró ser la característica más fuerte del modelo debido a su alta correlación con el AQI. Esto es de esperar, ya que el AQI se calcula utilizando material particulado como el N02. Inicialmente, se utilizó un modelo lineal para predecir el AQI, pero la precisión fue baja incluso después de probar diferentes características y ajustar los hiperparámetros del modelo. El modelo arrojó una puntuación de clasificación binaria del 83 %, que es mucho más alta que la línea de base del 50 %. Es decir, el modelo fue un fuerte predictor de AQI.
Evaluación de modelos abiertos:
Parte 1
El primer modelo que utilicé fue un modelo RandomForestClassifier. Su variable objetivo fue el aqi anual del condado. Calculamos la precisión del modelo y lo mostramos a continuación.
El segundo modelo que utilicé fue un modelo de regresión lineal que tenía una variable objetivo como el aqi anual del condado. Las métricas que se utilizaron para evaluar el desempeño del modelo fueron el Error Medio Absoluto (MAE), el Error Cuadrático Medio (MSE) y la puntuación R2.
El tercer modelo que utilicé fue el modelo RandomForestRegressor, que tenía la misma variable objetivo y las mismas métricas utilizadas para evaluarlo que el segundo modelo que utilicé.
Modelo de línea de base: El modelo de línea de base solo incluye el conjunto de datos de incendios forestales y está ausente de datos granulares como datos temporales mes a mes y ubicaciones de sitios específicos dentro de un condado. La razón por la que utilicé esto como modelo de referencia fue para poder obtener una comprensión básica de las tendencias generales entre el condado y el AQI. El modelo no funcionó bien debido a la falta de un gran número de puntos de datos, lo que se vio limitado en gran medida por la forma en que se presentaron los datos: granularidad: cada fila representaba un incendio individual en un estado particular.
A continuación se muestran las métricas y los gráficos para el modelo de referencia mencionado anteriormente:
El siguiente gráfico es para el modelo de regresión lineal que implementé. El MSE y el MAE son definitivamente bajos debido al hecho de que el rango de los puntos también es muy bajo. Sin embargo, no está claro que una tendencia lineal sea correcta para los valores reales y predichos.
Parte 2
Modelo mejorado: Teniendo en cuenta los problemas a los que me enfrenté al utilizar el modelo de referencia y el hecho de que no funcionaba bien con el conjunto de datos menos granular, decidí utilizar un conjunto de datos con más granularidad. Logramos esto fusionando el conjunto de datos que obtuve de la parte 10 del cuaderno de ipython con el conjunto de datos de incendios que utilicé en el modelo de línea base. La forma en que se aumentó la granularidad se debió a que el conjunto de datos en el que fusioné se agrupó por código de condado, número de sitio y mes. Esto significa que para cada sitio en un condado determinado, cada mes tenía un valor medio de AQI asociado. Esto dio lugar a un aumento en el número de puntos de datos. Esto también mejoró el modelo, ya que el número de características de las que dependían los valores de AQI aumentó de 1 a 3. Utilicé los mismos 3 modelos que mencioné anteriormente.
A continuación se muestran las métricas y los gráficos para el modelo de referencia mencionado anteriormente:
El siguiente gráfico es para el modelo de regresión lineal que implementé. Como se puede observar, el aumento del número de puntos mejoró definitivamente la línea de regresión que se ajustaba al modelo. El MSE y el MAE definitivamente aumentaron debido al hecho de que el rango de los puntos aumentó. Sin embargo, ahora está mucho más claro que antes que una tendencia lineal es correcta para los valores reales y predichos.
7. Mejora del modelo
Problemas del modelo:
Originalmente, implementé un modelo de regresión lineal para predecir el AQI a partir del conjunto de datos combinado y las características elegidas. Incluso después de probar muchas variaciones de las características elegidas, todavía carecía de una puntuación de precisión razonable.
Otro problema con el que me encontré durante mi modelaje fue el ajuste insuficiente. Me preocupaba que si agregaba demasiadas características, el modelo tendría una excelente puntuación de entrenamiento, pero produciría puntuaciones de prueba sustancialmente más bajas.
Finalmente, me di cuenta de que, a pesar de que el modelo había mejorado después de cambiar el tipo de modelo y agregar características, todavía tenía margen de mejora. Específicamente, noté que la función de tráfico diario tenía valores extremadamente altos y puede sofocar el rendimiento del modelo.
Soluciones de modelos:
Para resolver el primer problema, cambié el modelo a un regresor de bosque aleatorio en lugar de un modelo de regresión lineal. La razón para hacerlo es que este modelo es más adecuado para datos no lineales y las características carecían de la relación lineal clara necesaria para un modelo lineal exitoso. Después de simplemente reconstruir un nuevo modelo (el regresor de bosque aleatorio), observé una mejora de aproximadamente el 23 % en la precisión de nuestra clasificación AQI.
Si bien el sobreajuste ciertamente representa una amenaza para la precisión de un modelo que no es de entrenamiento, agregar características también puede producir resultados mucho mejores cuando tiene una matriz de diseño más grande de la que «aprender». En el caso del modelo, la adición de más funciones mejoró la precisión tanto del entrenamiento como de las pruebas.
Para corregir este problema, llevé a cabo una ingeniería de características simple en la variable de tráfico diario mediante una transformación logarítmica. Esto demostró ser más fácil de digerir para el modelo y, de nuevo, aumentó tanto el entrenamiento como la precisión del conjunto de pruebas.
8. Trabajo futuro
Investigaciones adicionales:
Mi exploración proporcionó información valiosa sobre la relación entre los incendios forestales y el AQI. Pero los incendios forestales y las tasas de tráfico son solo una pequeña pieza del rompecabezas en términos de lo que afecta la calidad del aire. Hay una gran cantidad de otros factores/características para explorar con respecto a la calidad del aire. Una de esas direcciones en las que podría profundizar es cómo la agricultura y la producción de alimentos afectan la calidad del aire en su región. Los ingresos actuales en la industria alimentaria se acercan a los 9 billones de dólares (https://www.statista.com/outlook/cmo/food/worldwide) y se espera que crezcan alrededor de un 4,5% en los próximos años. La producción de alimentos a gran escala tiene un costo; Este costo viene en forma de los desechos de los animales y la comida que necesitan comer, el empaque de la comida y el transporte necesario para la entrega. Es probable que la amalgama de estas amenazas de la industria alimentaria dañe la calidad del aire. Esta dirección particular para futuras investigaciones es interesante porque los efectos nocivos de la industria alimentaria sobre el medio ambiente se discuten ampliamente, pero su relación directa con la calidad del aire carece del análisis de datos necesario.
Ayudamos a las empresas a elevar su valor con el aporte de especialistas en Analítica,
Diseño y Desarrollo de Soluciones, Control de Calidad y Consultoría Tecnologica.
Ayudamos a las empresas a elevar su valor con el aporte de especialistas en Analítica,
Diseño y Desarrollo de Soluciones, Control de Calidad y Consultoría Tecnologica.