El aprendizaje automático no es nuevo, pero con el crecimiento de las bases de datos y los recursos computacionales mejorados, ha estado revolucionando las industrias de big data a un ritmo creciente en la última década. Las redes sociales, la atención médica, los seguros y los bienes de consumo son solo algunos de los sectores que aprovechan el auge de la inteligencia artificial.
El sector minero es otra industria muy adecuada para cosechar los beneficios de este poderoso conjunto de herramientas. En 2020, el Gobierno de Australia del Sur organizó un concurso de aprendizaje automático, «ExploreSA: The Gawler Challenge», donde los concursantes desarrollaron una serie de modelos para la exploración de minerales.
El concepto realmente me atrapó, así que decidí profundizar en el potencial para localizar depósitos de oro económicamente viables en los Estados Unidos. Lo que encontré fue realmente interesante.
Los datos
El Servicio Geológico de los Estados Unidos (USGS) alberga gigabytes de datos geológicos disponibles públicamente. Esto incluye:
- Minas actuales e históricas en los Estados Unidos: ubicaciones, años extraídos y minerales económicamente viables para casi 140 mil minas.
- Mapas de anomalías gravitacionales que muestran la diferencia entre la aceleración esperada y observada debido a la gravedad. La anomalía gravitacional de Bouguer tiene correcciones para la atracción gravitacional de la roca sobre el nivel del mar, así como la variabilidad del terreno. La anomalía gravitacional isostática tiene una corrección para el material subsuperficial de menor densidad.
- Los mapas de anomalías magnéticas muestran la diferencia entre el campo magnético medido y esperado debido a las propiedades magnéticas o geoquímicas locales.
- Mapas geológicos estatales que muestran las ubicaciones de las fallas que indican discontinuidades en la roca que indican una separación o movimiento.
- Mapas de radiación superficial que indican la distribución estimada de los elementos radiactivos en la corteza. Los mapas están disponibles para potasio, uranio, torio y dosis absorbida.
- Datos geoquímicos que muestran concentraciones elementales inorgánicas de muestras de rocas, sedimentos y suelos por ubicación.
- Mapas de dominio de sótano que indican las 77 subregiones únicas del continente norteamericano.
- Mapas de unidades K-B que indican las 164 subregiones únicas del continente norteamericano publicados por King y Beikman (1974a).
Ahora que tenemos los datos y una comprensión general de lo que significa, el objetivo es construir un modelo que pueda clasificar un nuevo par de latitud / longitud como que tiene o no tiene depósitos de oro económicamente viables.
El primer paso para preprocesar los datos es asignar una clase a cada observación en la base de datos del sitio minero. Las dos clases son «Gold» y «NoGold», y se asignan según si el oro figura o no en los minerales primarios o secundarios de la mina. Las ocurrencias de oro terciario fueron excluidas de la clase «Oro» porque no tuvieron un impacto significativo en la viabilidad económica de la mina.
A continuación, el estudio se limitó a la parte occidental de los Estados Unidos debido al número relativamente bajo de minas en la parte oriental del país. Washington, Idaho, Montana, Oregón, California, Nevada, Arizona y Colorado fueron los únicos estados incluidos en el estudio.
A continuación, se obtuvieron la anomalía gravitacional, la anomalía magnética, la distancia a la falla más cercana y los datos radiométricos para cada sitio de mina. Tenga en cuenta que se debe prestar especial atención a las proyecciones de mapas y las coordenadas delimitadoras para garantizar que se asignen las mediciones correctas a cada sitio de mina. Los datos geoquímicos se omitieron porque no habrían estado disponibles antes del descubrimiento. El dominio del sótano y los datos de la unidad K-B también se omitieron porque un gran número de variables categóricas (77 y 164, respectivamente) pueden ser un desafío para la mayoría de los modelos.
Model Building
Before going any further, 10% of the data was set aside as a test set. The test set contains a stratified sample of each class because there is a smaller fraction of gold mines in the dataset, and we want proportional representation of each class in both the training and test sets. A quick look at the training data shows the two classes are not linearly separable, and there are some very nonlinear patterns:
A random forest model was initially selected. While this is rarely the highest performing model, it is a good place to start and get an idea of what is possible with the dataset. It is robust to outliers, feature scaling is not necessary, it is slow to over-train, and it is easy to obtain feature importance for the trained model.
The hyperparameters considered were the number of features allowed in each tree of the forest as well as the total number of trees in the forest. The number of features allowed in each tree was set to sqrt(p) where p is the number of features available. The number of trees in the forest was tuned through a grid search using 10-fold cross validation and precision as the scoring metric. Precision was selected because it minimizes false positives — this ensures a miner is not wasting resources prospecting a site without gold.
The cross validation results show little benefit for a model with over 100 trees, and cross validated precision reaches 80%.
Model Interpretation
Después de volver a entrenar el modelo en el conjunto de entrenamiento completo con 100 árboles, podemos ver la importancia relativa de la característica:
La distancia a la falla más cercana y la anomalía magnética muestran la mayor importancia, mientras que los datos radiométricos muestran la menor importancia. El modelo de bosque aleatorio es un modelo de caja negra, por lo que, aunque no podemos decir lo que está sucediendo en el modelo, podemos hacer gráficos de dependencia parcial para cada característica para comprender mejor cómo afectan a la salida del modelo. Cada gráfico de dependencia parcial muestra la dependencia de la probabilidad de que un sitio tenga oro en la característica seleccionada mientras se margina sobre los valores de todas las demás características de entrada.
Estas gráficas confirman el comportamiento no lineal del modelo y muestran dónde cada característica tiene un mayor peso en la votación por la clase positiva (Oro).
Rendimiento del modelo
Evaluar el rendimiento del modelo en el conjunto de pruebas es la mejor manera de estimar su rendimiento en datos futuros. Dejamos de lado estos datos antes del entrenamiento, por lo que estos son datos que nuestro modelo nunca ha visto. La matriz de confusión a continuación muestra el rendimiento del modelo en el conjunto de pruebas con un límite de decisión donde la probabilidad de tener oro (GoldProb) es de 0,5. La precisión del modelo en el conjunto de pruebas es del 79%, lo que indica un rendimiento consistente con los resultados de la validación cruzada.
The precision and recall can be tuned by shifting the decision boundary up or down. A higher decision boundary means higher precision and a lower chance of prospecting in an area without gold. A lower decision boundary means higher recall and a lower chance of passing up an economically viable gold mine. The precision-recall curve and area-under-the-curve (AUC) metric can be used to understand this tradeoff and the overall model performance:
El AUC es la precisión integrada. Un AUC perfecto es 1.0, lo que significa que hay cero falsos positivos y cero falsos negativos. Nuestro modelo tiene una métrica AUC de 0.749.
A continuación se muestra una tabla de las diez minas de oro de producción más largas en el conjunto de pruebas que fueron predichas por el modelo. En la parte superior de la lista está la mina Vulture, que es una de las minas de oro más productivas en la historia de Arizona con una producción total de 340 mil onzas de oro. Tenga en cuenta que el parámetro «GoldProb» es la probabilidad prevista de que el sitio contenga depósitos de oro económicamente viables.
Mirando hacia el futuro
El estudio demuestra el potencial de las técnicas de aprendizaje automático en la exploración de minerales. Algunas áreas para seguir mejorando:
- Pruebe un modelo más sofisticado: hay muchos datos, por lo que podemos ver un mejor rendimiento en una clase de función más flexible, como máquinas de vectores de soporte o modelos de aprendizaje profundo.
- Pruebe nuevas funciones: el rendimiento del modelo podría mejorar con nuevas funciones. Uno de los concursantes en el concurso ExploreSA utilizó la profundidad del sótano / roca madre como una característica en el modelo. Los datos de alteración hidrotermal también están disponibles y se asocian comúnmente con depósitos de oro y cobre.
- Pruebe la ingeniería de características: los datos geoquímicos se dejaron fuera de este análisis, pero potencialmente podrían usarse para crear nuevas entidades mapeadas con otras técnicas de aprendizaje automático como la regresión de la cresta del núcleo o la regresión del proceso gaussiano. Los datos del dominio del sótano y de la unidad K-B también pueden tener potencial para transformarse en nuevas características de ingeniería.
Referencias
[2] U.S. Geological Survey, 2005, Mineral Resources Data System: U.S. Geological Survey, Reston, Virginia.
[3] Kucks, Robert P., 1999, Bouguer gravity anomaly data grid for the conterminous US.
[4] Kucks, Robert P., 1999, Isostatic residual gravity anomaly data grid for the conterminous US.
[5] Bankey, Viki, Cuevas, Alejandro, Daniels, David, Finn, Carol A., Hernández, Israel, Hill, Patricia, Kucks, Robert, Miles, Warner, Pilkington, Mark, Roberts, Carter, Roest, Walter, Rystrom, Victoria, Shearer, Sarah, Snyder, Stephen, Sweeney, Ronald, Vélez, Julio, Phillips, J.D. y Ravat, D., 2002, Cuadrículas de datos digitales para el mapa de anomalías magnéticas de América del Norte: Informe de archivo abierto del Servicio Geológico de los Estados Unidos 02–414, Servicio Geológico de los Estados Unidos, Denver, Colorado, Estados Unidos.
[6] Horton, John D., 20170818, The State Geologic Map Compilation (SGMC) Geodatabase of the Conterminous United States: U.S. Geological Survey data release DOI: 10.5066/F7WH2N65, U.S. Geological Survey, Denver, CO.
[7] Kucks, Robert P., 2005, Terrestrial Radioactivity and Gamma-ray Exposure in the United States and Canada: Gridded geographic images.
[8] Mars, John C., 2013, Hydrothermal Alteration Maps of the Central and Southern Basin and Range Province of the United States Compiled From Advanced Spaceborne Thermal Emission and Reflection Radiometer (ASTER) Data: Open-File Report 2013–1139, U.S. Geological Survey, Reston, VA.
[9] U.S. Geological Survey, 2008, Geoquímica de muestras de roca de la National Geochemical Database: U.S. Geological Survey, Reston, VA.
[10] U.S. Geological Survey, 2016, National Geochemical Database: Sediment: U.S. Geological Survey, Reston, VA.
[11] Servicio Geológico de los Estados Unidos, 2016, Base de datos geoquímica nacional: Suelo: Servicio Geológico de los Estados Unidos.
[12] Lund, K., Box, S.E., Holm-Denoma, C.S., San Juan, C.A., Blakely, R.J., Saltus, R.W., Anderson, E.D., y DeWitt, E.H., 2014, Basement domain map of the conterminous U.S.A. and Alaska: Data Series DS-898, U.S. Geological Survey, Denver, CO.
[13] Schruben, Paul G., Arndt, Raymond E., Bawiec, Walter J., King, Philip B. y Beikman, Helen M., 1994, Geology of the Conterminous United States at 1:2,500,000 Scale — A Digital Representation of the 1974 P.B. King and H.M. Beikman Map: U.S. Geological Survey Digital Data Series DDS-11, U.S. Geological Survey, Reston, VA.
[14] Jon E. Spencer y otros, 1989, «Geology of the Vulture gold mine», Arizona Geology, v.19 n.4.