Big data y corpus lingüísticos para el estudio de la densidad léxica
Big data and linguistic corpora as a tool for the study of lexical density
View/ Open
Author
González Fernández, Adela
Publisher
UCOPressDate
2018Subject
Lingüística de corpusDensidad léxica
Diversidad léxica
Big Data
Corpus linguistics
Lexical density
Lexical diversity
METS:
Mostrar el registro METSPREMIS:
Mostrar el registro PREMISMetadata
Show full item recordAbstract
La unión entre la Informática y de la Lingüística es cada vez más frecuente en las investigaciones en el campo del lenguaje y de las lenguas. La Lingüística de corpus, en especial, se está viendo beneficiada por este emparejamiento, gracias a los avances a la hora de gestionar y procesar los corpora. En este trabajo damos un paso más y proponemos el trabajo en Lingüística de corpus a través de big data, en general, y de Twitter, en particular. Gracias a la creación de una herramienta informática diseñada específicamente para el trabajo lingüístico en big data, obtendremos una inmensa cantidad de información textual que nos servirá para la compilación de corpora mediante los que estudiaremos la diversidad léxica en el lenguaje de cuatro escritores españoles. Para ello, extraeremos los tuits publicados por ellos en sus cuentas de Twitter y los procesaremos a través de nuestra herramienta para obtener la información deseada. Intentaremos demostrar, también, la mejora que esta nueva metodología supone en este tipo de estudios. The merger of Computer Sciences and Linguistics is increasingly common in researches in the field of languages. Corpus linguistics, specially, is benefiting from this matching, due to the improvements in management and processing of corpora. In this work we go one step further and suggest working in Corpus linguistics with big data, in general, and Twitter, in particular. Thanks to the development of a software specifically designed for linguistic work with big data, we will obtain a vast amount of information which will be used to compile linguistic corpora through which we will study the lexical density in four Spanish writers. In order to do that, we will obtain the tweets published by them in their Twitter accounts and we will process them with our software tool. We also aim to prove the benefits that this methodology implies in this kind of research.