New Methods for Optimizing Large-Scale Semi-Supervised Sentiment Analysis and Text Classification
Métodos innovadores para optimizar el análisis de sentimientos y la clasificación semisupervisada de textos a gran escala

View/ Open
Author
Youb, Ibtissam
Director/es
Ventura Soto, S.Hamlich, Mohamed
Publisher
Universidad de Córdoba, UCOPressDate
2025Subject
Sentiment analysisText classification
Big data
Distributed computing
Graph neural networks
Semi-supervised learning
Contrastive learning
Contextual embeddings
Análisis de sentimiento
Clasificación de texto
Computación distribuida
Redes neuronales de grafos
Aprendizaje semi-supervisado
Aprendizaje contrastivo
Representaciones contextuales
METS:
Mostrar el registro METSPREMIS:
Mostrar el registro PREMISMetadata
Show full item recordAbstract
In today’s data driven economy organizations face torrents of user generated text that increase by millions of documents each day. Converting this stream into actionable knowledge, whether by assigning sentiment polarity, topical category or other labels, is strategically indispensable, yet it raises two intertwined methodological challenges. The first concerns scale and asks how pipelines can ingest, cleanse and model such corpora without sacrificing predictive accuracy. The second concerns annotation cost and seeks ways to reduce the prohibitive expense of manual labeling by designing models that exploit the vast reserves of unlabeled text. This thesis addresses both problems through a two-part research program. In Part I the preprocessing and learning stages required for large scale sentiment analysis are examined. A fully factorial study spanning four neural architectures, four embedding strategies and two cleaning regimes quantifies how each design choice affects accuracy and runtime. Building on these findings, an Apache Spark workflow is implemented that distributes the entire training loop from raw ingestion to model fitting across a compute cluster; the resulting system achieves substantial throughput gains while maintaining accuracy. The evidence-based guidelines that emerge reconcile performance with resource constraints and provide a reproducible blueprint for scalable sentiment pipelines. Part II tackles the annotation bottleneck by introducing two semi supervised graph models. The first, CTextGCN, extends TextGCN with semantic edges derived from contextual representations produced by BERT, thereby enabling lightweight yet contextual message passing. The second, MDCGA, couples Multiview graphs with a novel contrastive loss that diffuses sparse labels efficiently across large corpora. On standard benchmarks both models consistently outperform strong baselines under severe label scarcity, demonstrating that contrastive learning on graph structures can narrow the gap between fully supervised and semi supervised regimes. Together these contributions advance text classification practice in two respects. They provide the first comprehensive large-scale comparison of preprocessing, embedding and architectural choices within a distributed environment, and they show how graph neural networks enriched with contextual signals and contrastive objectives can exploit unlabeled data to offset annotation scarcity. The results expand the methodological toolkit for sentiment analysis and extend to any high-volume classification task in which scalability and label economy are paramount. En la economía actual impulsada por datos, las organizaciones se enfrentan a torrentes de texto generado por los usuarios que crecen en millones de documentos cada día. Convertir este flujo en conocimiento accionable, ya sea asignando polaridad de sentimiento, categoría temática u otras etiquetas, es estratégicamente indispensable y plantea dos desafíos metodológicos entrelazados. El primero atañe a la escala y pregunta cómo pueden las canalizaciones de procesamiento ingerir, depurar y modelar tales corpus sin sacrificar la precisión predictiva. El segundo se centra en el coste de la anotación y busca formas de mitigar el gasto prohibitivo del etiquetado manual mediante modelos que aprovechen las enormes reservas de texto no etiquetado. Esta tesis aborda ambos problemas a través de un programa de investigación en dos partes. En la Parte I se examinan las fases de preprocesamiento y aprendizaje necesarias para el análisis de sentimientos a gran escala. Un estudio factorial completo que abarca cuatro arquitecturas neuronales, cuatro estrategias de incrustación y dos regímenes de limpieza cuantifica cómo afecta cada elección de diseño a la precisión y al tiempo de ejecución. Sobre la base de estos hallazgos se implementa un flujo de trabajo con Apache Spark que distribuye todo el ciclo de entrenamiento, desde la ingestión en bruto hasta el ajuste del modelo, en un clúster de cómputo; el sistema resultante logra importantes incrementos de rendimiento manteniendo la precisión. Las directrices basadas en la evidencia que se derivan concilian el rendimiento con las restricciones de recursos y proporcionan un plano reproducible para canalizaciones de sentimientos escalables. La Parte II afronta el cuello de botella de la anotación mediante dos modelos de grafos semisupervisados. El primero, CTextGCN, amplía TextGCN con aristas semánticas derivadas de representaciones contextuales obtenidas con BERT, lo que permite un paso de mensajes ligero pero contextual. El segundo, MDCGA, combina grafos multivista con una nueva función de pérdida contrastiva que difunde etiquetas escasas de manera eficiente a lo largo de grandes corpus. En bancos de pruebas estándar ambos modelos superan de forma consistente a sólidos referentes bajo una severa escasez de etiquetas, lo que demuestra que el aprendizaje contrastivo sobre estructuras de grafo puede acortar la distancia entre los regímenes totalmente supervisado y semisupervisado. Conjuntamente estas contribuciones mejoran la práctica de la clasificación de texto en dos sentidos. Por un lado ofrecen la primera comparación exhaustiva a gran escala de opciones de preprocesamiento, incrustación y arquitectura dentro de un entorno distribuido. Por otro, muestran cómo las redes neuronales de grafos enriquecidas con señales contextuales y objetivos contrastivos pueden explotar datos no etiquetados para compensar la escasez de anotaciones. Los resultados amplían el conjunto metodológico para el análisis de sentimientos y se extienden a cualquier tarea de clasificación de alto volumen en la que la escalabilidad y la economía de etiquetas sean cruciales.
Description
Embargo hasta 22/10/2026.
