Mostrar el registro sencillo del ítem

dc.contributor.advisorCano Rojas, Alberto
dc.contributor.advisorVentura Soto, S.
dc.contributor.authorGonzález López, Jorge
dc.date.accessioned2019-06-12T11:41:00Z
dc.date.available2019-06-12T11:41:00Z
dc.date.issued2019
dc.identifier.urihttp://hdl.handle.net/10396/18716
dc.description.abstractThis thesis proposes a series of multi-label learning algorithms for classication and feature selection implemented on the Apache Spark distributed computing model. Five approaches for determining the optimal architecture to speed up the multi-label learning methods are presented. These approaches range from local parallelization using threads to distributed computing using independent or shared memory spaces. It is shown that the optimal approach performs hundreds of times faster than the baseline method. Three distributed multi-label k nearest neighbors methods built on top of the Spark architecture are proposed: an exact iterative method that computes pair-wise distances, an approximate tree-based method that indexes the instances across multiple nodes, and an approximate local sensitive hashing method that builds multiple hash tables to index the data. The results indicated that the predictions of the tree-based method are on par with those of an exact method while reducing the execution times in all the scenarios. The aforementioned method is then used to evaluate the quality of a selected feature subset. The optimal adaptation for a multi-label feature selection criterion is discussed and two distributed feature selection methods for multi-label problems are proposed: a method that selects the feature subset that maximizes the Euclidean norm of the individual information measures, and a method selects the subset of features that maximize the geometrical mean. The results indicate that each method excels in di_erent scenarios depending on type of features and the number of labels. Rigorous experimental studies and statistical analyses over many multi-label metrics and datasets con_rm that the proposals achieve better performances and provide better scalability to bigger data than the methods compared in the state of the art.es_ES
dc.description.abstractEsta Tesis Doctoral propone unos algoritmos de clasificación y selección de atributos para aprendizaje multi-etiqueta distribuidos implementados en Apache Spark. Cinco estrategias para determinar la arquitectura óptima para acelerar el aprendizaje multi-etiqueta son presentadas. Estas estrategias varían desde la paralelización local utilizando hilos hasta la distribución de la computación utilizando espacios de memoria compartidos o independientes. Ha sido demostrado que la estrategia óptima permite ejecutar cientos de veces más rápido que el método de referencia. Se proponen tres métodos distribuidos de \k nearest neighbors" multi-etiqueta sobre la arquitectura de Spark seleccionada: un método exacto que computa iterativamente las distancias, un método aproximado que usa un árbol para indexar las instancias, y un método aproximado que utiliza tablas hash para indexar las instancias. Los resultados indican que las predicciones del método basado en árboles son equivalente a aquellas producidas por un método exacto a la vez que reduce los tiempos de ejecución en todos los escenarios. Dicho método es utilizado para evaluar la calidad de un subconjunto de atributos. Se discute el criterio para seleccionar atributos en problemas multi-etiqueta, proponiendo: un método que selecciona el subconjunto de atributos cuyas medidas de información individuales poseen la mayor norma Euclídea, y un método que selecciona el subconjunto de atributos con la mayor media geométrica. Los resultados indican que cada método destaca en escenarios diferentes dependiendo del tipo de atributos y el número de etiquetas. Los estudios experimentales y análisis estadísticos utilizando múltiples métricas y datos multi-etiqueta confirman que nuestras propuestas alcanzan un mejor rendimiento y proporcionan una mejor escalabilidad para datos de gran tamaño respecto a los métodos de referencia.es_ES
dc.format.mimetypeapplication/pdfes_ES
dc.language.isoenges_ES
dc.publisherUniversidad de Córdoba, UCOPresses_ES
dc.rightshttps://creativecommons.org/licenses/by-nc-nd/4.0/es_ES
dc.subjectMulti-label learninges_ES
dc.subjectMulti-label dataes_ES
dc.subjectMulti-label k nearest neighborses_ES
dc.subjectAlgorithmses_ES
dc.subjectDistributed systemses_ES
dc.subjectApache Spark architecturees_ES
dc.subjectData processinges_ES
dc.titleDistributed multi-label learning on Apache Sparkes_ES
dc.title.alternativeAprendizaje multi-etiqueta distribuido en Apache Sparkes_ES
dc.typeinfo:eu-repo/semantics/doctoralThesises_ES
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES


Ficheros en el ítem

Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem