La contribución de los métodos de aprendizaje automático no supervisado al diseño de métodos para la clasificación textual según el grado de especialización
View/ Open
Author
Rodríguez Tapia, Sergio
Camacho-Cañamón, Julio
Publisher
Universitat de LleidaDate
2018Subject
Unsupervised machine learningK-means
Method
Terminology
Classification
METS:
Mostrar el registro METSPREMIS:
Mostrar el registro PREMISMetadata
Show full item recordAbstract
Modern terminology theories are based on the hypothesis of the existence of a text specialization degree that depends on different elements, both linguistic and extralinguistic. This article aims to test how useful unsupervised machine learning algorithms (specifically simple k-means algorithm) are to classify texts according to its specialization degree. To that end, a database with intra and extra textual information is used as a source tool. Results are compared with the class tags previously assigned by means of a numerical classification method. The obtained results suggest the existence of the degree and prove the presence of particular texts that are placed in limits between classes. This fact reveals the existence of vague limits and problems in the proposed method. Les teories terminològiques modernes es basen en la hipòtesi que existeix un grau d’especialització textual, que depèn de factors diversos, tant lingüístics com extralingüístics. Aquest article té per objectiu mesurar la utilitat dels algoritmes d’aprenentatge automàtic no supervisat (en concret, l’algorisme simple k-mitjans) per classificar textos segons el grau d’especialització. Per això, s’usa com a font una base de dades amb informació intra i extratextual i es comparen els resultats amb les etiquetes de classe assignades prèviament mitjançant un mètode numèric de classificació. Els resultats obtinguts suggereixen l’existència del grau i demostren la presència de patrons particulars que se situen en els límits entre classes, la qual cosa revela l’existència de límits difusos i problemes en el mètode plantejat.