Big data para el análisis de las necesidades traductológicas en cinco capitales de Europa

González Fernández, Adela

Big data for the analysis of translation demand in five European capitals

Ver/

skopos_07_07.pdf (3.903Mb)

Autor

González Fernández, Adela

Editor

UCOPress

Fecha

2016

Materia

Big Data
Análisis lingüístico
Twitter
Necesidades traductológicas
Europa
Linguistic analysis
Translation demand
Europe

Resumen

La cantidad de información digital disponible está aumentando de forma masiva. Las grandes empresas como Google, Facebook, Microsoft…, así como los correos electrónicos, las descargas de música o cualquier operación realizada a través de internet genera cantidades gigantescas de información no estructurada. El término big data se refiere a estos enormes conjuntos de información que no pueden ser gestionados ni analizados mediante herramientas tradicionales en una cantidad de tiempo aceptable. Esta investigación pretende demostrar la utilidad de big data como fuente de información para el estudio en el campo de la lingüística, lo que nos permitirá llevar a cabo estudios que no podrían realizarse con los métodos tradicionales. En este trabajo, utilizamos la información disponible en el servicio de microblogging Twitter para analizar los idiomas más hablados en cinco capitales europeas y conocer así las necesidades traductológicas que presentan. De esta forma, intentamos demostrar la utilidad de big data como herramienta para la investigación lingüística. Hemos analizado los tuits generados en las ciudades de Berlín, Bruselas, París, Madrid y Londres en el período de tiempo comprendido entre el 21 de agosto y el 21 de septiembre de 2015. Para ello, hemos desarrollado una herramienta de autor que nos permite obtener la información, almacenarla, gestionarla y analizarla. Pretendemos así obtener resultados basados en millones de datos y analizados en tiempo real, lo que nos ahorra costes y tiempo a la hora de llevar a cabo la investigación y nos permite conocer de manera inmediata los idiomas que se utilizan en cualquier momento y en cualquier lugar.

The amount of digital global information available is exploding. Huge quantities of unstructured information is being generated by big companies, such as Google, Facebook, Microsoft… The term big data refers to these huge datasets that cannot be managed and analysed by traditional tools and software in a tolerable time. This research aims to show the utility of big data as a source of information for linguistic research, which enables us to carry out investigations that could not be done in a traditional way. In this paper, we use the information available in the microblogging service Twitter to analyse the most spoken languages in five European capitals, in order to know the demands for translation jobs. Thus, we prove the utility of big data as a tool for linguistic research. We have studied the total number of tweets generated in Berlin, Brussels, Paris, Madrid and London, during 21 August 2015 and 21 September 2015. For this purpose, we have developed an authoring tool through which we obtain, stored, processed and analysed the information. Our objective is to obtain results based on millions of data in real time, which saves not only time, but also costs in the research process and allows us to know the languages used anywhere and anytime.

URI

http://hdl.handle.net/10396/16209

Fuente

Skopos 7, 99-128 (2016)

Versión del Editor

https://www.uco.es/ucopress/ojs/index.php/skopos/index