Modelo de evaluación entre pares con el enfoque de análisis de sentimiento
Peer assessment model with the sentiment análisis approach
View/ Open
Author
Pinagorte Ortega, Maricela
Director/es
Ventura Soto, S.Meza, J.
Publisher
Universidad de Córdoba, UCOPressDate
2023Subject
DocenciaEvaluación
Aprendizaje
METS:
Mostrar el registro METSPREMIS:
Mostrar el registro PREMISMetadata
Show full item recordAbstract
La evaluación de los trabajos de respuesta abierta es una tarea que debe ser realizada por un experto; sin embargo, suponen una importante carga de trabajo de corrección para el docente. En este contexto, la evaluación entre pares se ha considerado como un enfoque alternativo para abordar el problema. Este tipo de evaluación no solo proporciona la reducción en la carga de trabajo de corrección, sino que también aporta beneficios adicionales, como la posibilidad de que el estudiante verifique diferentes soluciones para un mismo problema y la provisión de retroalimentaciones útiles.
Los cambios en los paradigmas educativos han promovido la integración de métodos de evaluación que pretenden ir más allá de la evaluación de conocimientos (sumativa), que estén más integrados en el proceso de formación y aprendizaje (formativa). La evaluación formativa contribuye significativamente en la calidad de aprendizaje que los estudiantes obtienen al dar y recibir retroalimentación, y en el acceso inmediato que los docentes pueden tener sobre el progreso de la clase. Las instituciones educativas actualmente buscan obtener el conocimiento inmerso de estos textos no estructurado. Por lo tanto, el objetivo general de esta tesis ha sido diseñar un modelo de evaluación entre pares, que coadyuve a los docentes a mejorar sus procesos de enseñanza-aprendizaje mediante métodos de análisis de sentimiento.
Se aplicó la metodología de diseño investigación-acción, en primer lugar, se realizó el estado del arte sobre evaluación entre pares, minería de texto y técnicas de computación blanda. Subsecuentemente, se diseñó un modelo que combina la evaluación entre pares con el aprendizaje colaborativo y el método calibrado en varias fases: a) se formó grupos de estudiantes que participan en realizar el trabajo de manera colaborativa, con la finalidad de tener grupos similares, pero tener diferencias individuales en el proceso de evaluación entre pares para beneficiarse de la colaboración entre estudiantes; b) se diseñó una rúbrica para la recolección de datos, donde los evaluadores evaluaron aspectos específicos del trabajo, proporcionando por cada criterio una puntuación numérica y retroalimentación textual; c) los evaluados evaluaron la calidad de evaluación de la tarea (evaluación inversa) para obtener el rating de confianza del evaluador; d) los grupos corrigieron el trabajo basándose en las retroalimentaciones dadas por los evaluadores en la primera ronda (evaluación en dos rondas); e) la puntuación de evaluación de tarea se calibró en función del rendimiento e índice (rating) de confianza del evaluador.
Durante el desarrollo del modelo se obtuvo dos conjuntos de datos en español, uno de evaluación de tarea y otro de evaluación de calidad de la evaluación. Se aplicó el enfoque de aprendizaje automático supervisado para obtener una puntuación de sentimiento correspondiente a una retroalimentación textual específica. Se analizó distintas técnicas de minería de texto y procesamiento de lenguaje natural sobre la tarea de clasificación de sentimiento como Bag of Words, combinaciones de (N-Grams + Term Frequency-Inverse Document Frequency + Stop- Words), y Word2Vec/Glove pre-entrenados para formar los distintos vocabularios. Se evaluó algoritmos de aprendizaje automático clásico (Naïve Bayes, Multinomial Naive Bayes, Support Vector Machine, Logistic Regression, Random Forest, Decision Trees), de aprendizaje automático moderno (Vote Ensemble), y de aprendizaje profundo (Long Short-Term Memory (LSTM), Bidirectional Long Short-Term Memory (Bi-LSTM)). Se obtuvo dos modelos predictivos con mejor rendimiento. Un modelo con Bi-LSTM utilizando representación de Glove, para predecir la puntuación de sentimiento de la retroalimentación textual de evaluación de tarea; y un modelo con LSTM utilizando representación de Glove, para predecir la puntuación de sentimiento de la retroalimentación textual de evaluación de calidad de la evaluación.
Seguidamente, se obtuvo un modelo de cálculo que contribuyó a mejorar la confiabilidad del proceso de evaluación entre pares. La puntuación de cada criterio de evaluación de tarea y evaluación de calidad de evaluación se generó con la técnica computacional de lógica difusa correlacionando puntuación numérica y sentimiento, determinando que los métodos de defuzzificación (máximo más chico, media de máximo y máximo más grande) fueron los más apropiados para este estudio. La puntuación individual de cada evaluador se obtuvo con cálculos de media de todos los criterios. La puntuación del colectivo de evaluación de tarea y rating de confianza del evaluador se obtuvo con cálculos de media/mediana del conjunto de puntuaciones individuales, determinando que la mediana tiene el mejor ajuste para generar una puntuación del colectivo confiable. Se probó la validez del modelo propuesto en 3 escenarios de educación superior: virtual asincrónico, virtual sincrónico y presencial. Se correlacionó mediante Pearson la puntación que recibe el estudiante del colectivo con la puntuación que proporciona el docente, obteniendo similaridad fuerte en el 8% de las actividades en virtual asincrónico (r=0.718-0.790), en el 25% de las actividades en virtual sincrónico (r=0.741 a 0.971) y en el 40% de las actividades en presencial (r=0.780 a 0.951), determinando que el modelo se puede aplicar en todos los escenarios de educación evaluados, y con mayor efectividad en el presencial.
Finalmente, se obtuvo un modelo de calibración que contribuyó a mejorar la fiabilidad en el proceso de evaluación entre pares, ya que, mediante el ajuste de la puntuación individual de cada tarea en función del rendimiento y índice (rating) de confianza del evaluador, se logró que la relación entre la puntación del colectivo y puntuación que proporciona el docente tendiera a subir el 46% de las actividades en escenario virtual asincrónico, 69% en virtual sincrónico y 60% en presencial.
Además, se evaluó si existe mejora del rendimiento estudiantil en la segunda ronda aplicando el modelo en el proceso de evaluación entre pares, mediante la prueba t de Student, se determinó que el 100% de las actividades evaluadas obtuvieron la puntuación media en la segunda ronda mayor que la primera ronda con un valor de significancia menor a 0.05, el incremento en la segunda ronda del rendimiento del estudiante en virtual asincrónico fue de 3%- 12%, en virtual sincrónico de 7%-22%, y en presencial de 15%-34%. En tal sentido, el modelo de evaluación entre pares basado en análisis de sentimiento podría implementarse como una herramienta pedagógica para apoyar al docente en enriquecer el proceso de enseñanza aprendizaje, ya que los estudiantes dieron y recibieron retroalimentaciones detalladas sobre lo correcto o incorrecto de un trabajo específico, y pudieron refutar sobre las retroalimentaciones dadas; lo que a su vez indujo que mejoraran el trabajo y el rendimiento en la segunda ronda The assessment of open response work is a task that must be carried out by an expert; however, they represent a significant correction workload for the teacher. In this context, peer assessment has been considered as an alternative approach to address the problem. This type of assessment not only reduces the correction workload but also brings additional benefits, such as the possibility for the student to verify different solutions for the same problem and the provision of useful feedback. Changes in educational paradigms have promoted the integration of assessment methods that aim to go beyond (summative) knowledge assessment, which is more integrated into the training and learning process (formative). Formative assessment contributes significantly to the quality of learning students gain from giving and receiving feedback, and the immediate Access teachers can have to class progress. Educational institutions currently seek to gain immersed knowledge from these unstructured texts. Therefore, the general objective of this thesis has been to design a peer assessment model that helped teachers improve their teaching-learning processes through sentiment analysis methods.
The research-action design methodology was applied, firstly, the state of the art on peer assessment, text mining, and computational techniques was carried out. Subsequently, a model was designed that combines peer assessment with collaborative learning and the calibrated method in several phases: a) groups of students were formed to participate in carrying out the work collaboratively, to have similar groups, but have individual differences in the peer assessment process to benefit from collaboration among students; b) a rubric was designed for data collection, where the evaluators evaluated specific aspects of the work, providing a numerical score and textual feedback for each criterion; c) the evaluators evaluated the quality of the task assessment (inverse assessment) to obtain the evaluator's confidence rating; d) the groups corrected the work based on the feedback given by the evaluators in the first round (evaluation in two rounds); e) the task assessment score was calibrated based on the performance and
confidence rating of the evaluator.
During the development of the model, two sets of data were obtained in Spanish, one for task assessment and the other for assessment of the quality of the assessment. The supervised machine learning approach was applied to obtain a sentiment score corresponding to specific textual feedback. Different text mining and natural language processing techniques were analyzed on the sentiment classification task, such as Bag of Words, combinations of (N-Grams+Term Frequency-Inverse Document Frequency+Stop-Words), and Word2Vec/Glove pre-trained to form the different vocabularies. Algorithms were evaluated of classic machine learning (Naïve Bayes, Multinomial Naïve Bayes, Support Vector Machine, Logistic Regression, Random Forest, Decision Trees), modern machine learning (Vote Ensemble), and deep learning (Long Short-Term Memory (LSTM), Bidirectional Long Short-Term Memory (Bi-LSTM)). Two predictive models with better performance were obtained. A model with Bi-LSTM using Glove's representation, to predict the sentiment score of task assessment textual feedback; and a model with LSTM using Glove's representation, to predict the sentiment score of the assessment quality assessment textual feedback.
Thereafter, a calculation model was obtained that contributed to improving the reliability of the peer assessment process. The score for each task assessment criterion and quality assessment was generated with the fuzzy logic computational technique correlating numerical score and sentiment, determining that the (Smallest of Maximum, Middle of Maximum, and Largest of Maximum) defuzzification methods were the most appropriate for this study. The individual score of each evaluator was obtained with mean calculations of all the criteria. The task assessment collective score and the evaluator confidence rating were obtained with mean/median calculations of the set of individual scores, determining that the median has the best fit to generate a reliable collective score.
The validity of the proposed model was tested in 3 higher education scenarios: virtual asynchronous, virtual synchronous, and face-to-face. Using Pearson, the score received by the student from the group was correlated with the score provided by the teacher, obtaining strong similarity in 8% of the activities in virtual asynchronous (r=0.718-0.790), 25% of the activities in virtual synchronous (r=0.741 to 0.971) and 40% of the activities in face-to-face (r=0.780 to 0.951), determining that the model can be applied in all the education scenarios evaluated, and with greater effectiveness in face-to-face.
Finally, a calibration model was obtained that contributed to improving the reliability of the peer assessment process, since, by adjusting the individual score of each task based on the performance and confidence rating of the evaluator, it was achieved that the relationship between the score of the group and the score provided by the teacher would tend to increase in 46% of the activities in asynchronous virtual settings, 69% in synchronous virtual settings and 60% in faceto- face settings.
In addition, it was evaluated if there is an improvement in student performance in the second round by applying the model in the peer assessment process, using the student's t-test, it was determined that 100% of the activities evaluated obtained the average score in the second round greater than the first round with a significance value of less than 0.05, the increase in the second round of student performance in asynchronous virtual was 3%-12%, in synchronous virtual 7%-22%, and in face-to-face 15 %-3. 4%. In this sense, the peer assessment model based on sentiment analysis could be implemented as a pedagogical tool to support the teacher in enriching the teaching-learning process, since the students gave and received detailed feedback on the correct or incorrect of a specific work, and they were able to refute the feedback given; which in turn induced improved work and performance in the second round.