Incremental decision tree models in data stream applied to predictive maintenance
Modelos de árboles de decisión incrementales en flujos de datos aplicados al mantenimiento predictivo

View/ Open
Author
Esteban Toscano, Aurora
Director/es
Ventura Soto, S.Zafra Gómez, Amelia
Publisher
Universidad de Córdoba, UCOPressDate
2024Subject
Predictive modelsData mining
Machine learning
Industry 4.0
Decision tree
Random forest
Learning algorithms
Multi-instance learning
Time series data
Classification
METS:
Mostrar el registro METSPREMIS:
Mostrar el registro PREMISMetadata
Show full item recordAbstract
The proliferation of sensors and connected devices in modern cyber-physical environments has led to an unprecedented surge in sequential data generation. This data, whether in the formof time series or continuous streams, carries crucial information about system behavior, performance, and health. This is of particular importance in the field of predictive maintenance, an application that has become very relevant in the industrial environment due to its objective of minimizing maintenance times and operations by using data analytics and machine learning to predict when equipment failures might occur. However, the inherent temporal dependencies, high dimensionality, and often unbounded nature of these data types pose significant challenges to traditional analytical approaches. There is a pressing need for efficient, scalable, and interpretable machine learning models capable of extracting actionable insights from this complex sequential data, particularly in the context of predictive maintenance for Industry 4.0 and emerging Industry 5.0 paradigms.
This thesis addresses these challenges by developing novel machine learning methods for sequential data analysis, focusing on flexibility, scalability, and interpretability. The research tackles key issues in time series classification, online multi-label learning, and predictive maintenance applications, with incremental decision trees as the cornerstone where the different contributions of this thesis intersect.
Incremental decision trees emerge as a promising foundation for addressing these challenges. These models offer a unique combination of adaptability, interpretability, and efficiency, making them well-suited for handling dynamic, high-dimensional data streams. Unlike traditional batch learning methods, incremental decision trees can continuously update their model structure as new data arrives, adapting to evolving patterns and concept drift. Their hierarchical structure provides clear decision paths, offering interpretable insights crucial for decision-support in several applications. This thesis leverages and extends the capabilities of incremental decision trees to develop novel approaches for complex sequential data analysis.
In the realm of big data analytics, traditional supervised learning approaches often struggle with the sheer volume and complexity of data, particularly in industrial settings where labeling large datasets can be expensive or impractical. Non-standard data representations, such as multi-instance learning and multi-label learning, offer valuable solutions to these challenges. Multi-instance learning allows for the representation of complex objects as bags of instances, where only the bag is labeled, reducing the granularity of required annotations. Multi-label learning, on the other hand, enables the handling of multiple, potentially interdependent labels per instance, capturing the complexity of real-world scenarios where multiple conditions or states can coexist. By integrating these flexible representations with incremental decision trees, this thesis develops novel approaches that can effectively learn from weakly labeled or partially labeled data, significantly enhancing the applicability of machine learning in industrial big data contexts.
In summary, the main contributions of this thesis are:
▶Development of novel models based on incremental decision trees that efficiently process data streams and utilize non-standard information representations:
• A pioneering approach for time series classification that integrates multi-instance learning with incremental trees, enabling effective learning from flexible data in weakly-labeled environments (MIHT: Multi-Instance Hoeffding Tree).
• An innovative proposal for online learning in multi-label data streams, leveraging incremental trees to dynamically capture label correlations (MLHAT: Multi-Label Hoeffding Adaptive Tree).
These models are rigorously evaluated using diverse benchmarks from multiple real-world applications, validating their accuracy, performance, and adaptability to data streams and large-scale datasets in comparison to state-of-the-art methods.
▶ A comprehensive review of the predictive maintenance field from a machine learning perspective, providing valuable insights into key techniques, current trends, and gaps in predictive maintenance applications.
▶ Development of specialized models for predictive maintenance, building upon the theoretical foundations established for time series classification and online learning with non-standard representations. These models leverage incremental learning to continuously update predictions as new information is received, crucial for detecting emerging patterns and anticipating potential system failures:
• A time-series classification model combining multi-instance representation and incremental trees to diagnose system degradation status in predictive maintenance scenarios (MIHATT: Multi-Instance Hoeffding Anytime Tree for Predictive Maintenance).
• Multiple classification models based on online ensembles of incremental trees for multi-label learning, designed to identify multiple faults in dynamic industrial systems (OEMLHAT: Online Ensemble of Multi-Label Hoeffding Adaptive Trees for Predictive Maintenance).
These models are evaluated on real-world industrial problems, demonstrating superior performance compared to previous approaches and providing valuable insights into failure causes, derived from the interpretability of the proposed models.
This document introduces all global concepts necessary to understand the proposed contributions: provides a theoretical vision of the underlying fundamentals, presents complete specifications of the proposals, and details the experimental studies conducted. Furthermore, it offers access to published articles derived from this thesis and online repositories containing implementations and additional materials associated with the proposals. Finally, the main conclusions drawn from this thesis are presented, as well as possible research directions to continue the advancements of this thesis. La proliferación de sensores y dispositivos conectados en los entornos ciberfísicos modernos ha provocado un aumento sin precedentes en la generación de datos secuenciales. Estos datos, ya sea en forma de series temporales o de flujos continuos, contienen información crucial sobre el comportamiento, el rendimiento y la salud de los sistemas. Esto reviste especial importancia en el campo del mantenimiento predictivo, una aplicación que ha adquirido gran relevancia en el entorno industrial debido a su objetivo de minimizar los tiempos y las operaciones de mantenimiento mediante el análisis de datos y el aprendizaje automático para predecir cuándo pueden producirse fallos en los equipos. Sin embargo, las dependencias temporales inherentes, la alta dimensionalidad y la naturaleza a menudo ilimitada de estos tipos de datos plantean retos significativos a los enfoques analíticos tradicionales. Existe una necesidad de modelos de aprendizaje automático eficientes, escalables e interpretables capaces de extraer conocimientos procesables de estos datos secuenciales complejos, particularmente en el contexto del mantenimiento predictivo para la Industria 4.0 y los paradigmas emergentes de la Industria 5.0.
Esta tesis aborda estos desafíos mediante el desarrollo de nuevos métodos de aprendizaje automático para el análisis de datos secuenciales, centrándose en la flexibilidad, la escalabilidad y la interpretabilidad. La investigación aborda cuestiones clave en la clasificación de series temporales o las representaciones flexibles y las aplicaciones de mantenimiento predictivo, con árboles de decisión incrementales como el punto de intersección donde se cruzan las diferentes contribuciones de esta tesis.
Los árboles de decisión incrementales emergen como un paradigma prometedora para abordar estos retos. Estos modelos ofrecen una combinación única de adaptabilidad, interpretabilidad y eficiencia, lo que los hace muy adecuados para manejar flujos de datos dinámicos y de alta dimensionalidad. A diferencia de los métodos tradicionales de aprendizaje por lotes, los árboles de decisión incrementales pueden actualizar continuamente la estructura de su modelo a medida que llegan nuevos datos, adaptándose a la evolución de los patrones y a la deriva de concepto. Su estructura jerárquica proporciona rutas de decisión claras, ofreciendo perspectivas interpretables cruciales para el apoyo a la toma de decisiones en diversas aplicaciones. Esta tesis aprovecha y amplía las capacidades de los árboles de decisión incrementales para desarrollar nuevos enfoques de análisis de datos secuenciales complejos.
En el ámbito del análisis de grandes volúmenes de datos, los métodos tradicionales de aprendizaje supervisado suelen tener dificultades con el enorme volumen y complejidad de los datos, sobre todo en entornos industriales en los que etiquetar grandes conjuntos de datos puede resultar caro o poco práctico. Las representaciones de datos no estándar, como el aprendizaje multiinstancia y el aprendizaje multi-etiqueta, ofrecen valiosas soluciones a estos retos. El aprendizaje multi-instancia permite representar objetos complejos como bolsas de instancias, en las que sólo se etiqueta la bolsa, lo que reduce la granularidad de las anotaciones necesarias. El aprendizaje multi-etiqueta, por su parte, permite manejar múltiples etiquetas por instancia, capturando la complejidad de los escenarios del mundo real en los que pueden coexistir múltiples condiciones o estados. Mediante la integración de estas representaciones flexibles con árboles de decisión incrementales, esta tesis desarrolla nuevos enfoques que pueden aprender eficazmente a partir de datos poco etiquetados o parcialmente etiquetados, mejorando significativamente la aplicabilidad del aprendizaje automático en contextos industriales de big data.
En resumen, las principales aportaciones de esta tesis son:
▶ Desarrollo de modelos novedosos basados en árboles de decisión incrementales que procesan eficientemente flujos de datos y utilizan representaciones de información no estándar:
• Un enfoque pionero para la clasificación de series temporales que integra el aprendizaje multi-instancia con árboles incrementales, permitiendo un aprendizaje efectivo a partir de datos flexibles en entornos débilmente etiquetados (MIHT: Multi-Instance Hoeffding Tree).
• Una propuesta innovadora para el aprendizaje en línea en flujos de datos multietiqueta, aprovechando los árboles incrementales para capturar dinámicamente las correlaciones de etiquetas (MLHAT: Multi-Label Hoeffding Adaptive Tree).
Estos modelos se evalúan rigurosamente utilizando diversos puntos de referencia de múltiples aplicaciones del mundo real, validando su precisión, rendimiento y adaptabilidad a los flujos de datos y conjuntos de datos a gran escala en comparación con los métodos del estado del arte.
▶ Una revisión exhaustiva del campo del mantenimiento predictivo desde la perspectiva del aprendizaje automático, que proporciona información valiosa sobre técnicas clave, tendencias actuales y lagunas en las aplicaciones de mantenimiento predictivo.
▶ Desarrollo de modelos especializados para el mantenimiento predictivo, partiendo de los fundamentos teóricos establecidos para la clasificación de series temporales y el aprendizaje en línea con representaciones no estándar. Estos modelos aprovechan el aprendizaje incremental para actualizar continuamente las predicciones a medida que se recibe nueva información, lo que resulta crucial para detectar patrones emergentes y anticipar posibles fallos del sistema:
• Un modelo de clasificación de series temporales que combina la representación multiinstancia y los árboles incrementales para diagnosticar el estado de degradación del sistema en escenarios de mantenimiento predictivo (MIHATT: Multi-Instance Hoeffding Anytime Tree for Predictive Maintenance).
• Modelos de clasificación múltiple basados en conjuntos en línea de árboles incrementales para el aprendizaje multietiqueta, diseñados para identificar múltiples fallos en sistemas industriales dinámicos (OEMLHAT: Online Ensemble of Multi-Label Hoeffding Adaptive Trees for Predictive Maintenance).
Estos modelos se evalúan en problemas industriales del mundo, demostrando un rendimiento superior en comparación con enfoques anteriores y proporcionando valiosos conocimientos sobre las causas de los fallos, derivados de la interpretabilidad de los modelos propuestos.
Este documento introduce todos los conceptos globales necesarios para entender las contribuciones propuestas: proporciona una visión teórica de los fundamentos subyacentes, presenta especificaciones completas de las propuestas y detalla los estudios experimentales realizados.
Además, se ofrece acceso a artículos publicados derivados de esta tesis y a repositorios online que contienen implementaciones y materiales adicionales asociados a las propuestas. Finalmente, se presentan las principales conclusiones extraídas de esta tesis, así como posibles líneas deinvestigación para continuar con los avances de la misma.