El grado de especialización textual: caracterización a partir de la percepción sociocognitiva de la terminología y las relaciones discursivas
The text specialization degree: features based on the sociocognitive perception of terminology and discourse relations

View/ Open
Author
Rodríguez Tapia, Sergio
Director/es
Zamorano Aguilar, AlfonsoPublisher
Universidad de Córdoba, UCOPressDate
2019Subject
Textos especializadosTextos semiespecializados
Terminología
Léxico especializado
Relación emisor-destinatario
Comunicación especializada
Discurso especializado
Lingüística de corpus
METS:
Mostrar el registro METSPREMIS:
Mostrar el registro PREMISMetadata
Show full item recordAbstract
Este trabajo es un estudio empírico descriptivo correlacional que tiene por objetivo
principal caracterizar el grado de especialización textual, particularmente su léxico y
relación emisor-destinatario, a partir de un corpus de textos analizados por cuatro grupos
de informantes, usando como base la teoría sociocognitiva de la percepción y el aprendizaje
automático.
Esta tesis doctoral viene motivada por la escasez de estudios que pretenden estudiar
el grado de especialización textual, en concreto, sus condicionantes y límites y,
especialmente, el grado intermedio: el texto semiespecializado. Las hipótesis esbozadas
están relacionadas con: (1) la posibilidad de encontrar pruebas lingüísticas que se ajusten a
cada uno de los grados de especialización; (2) la relación de similitud entre texto
semiespecializado y texto no especializado; (3) la relevancia del tema o el tipo textual en
la discriminación del grado de especialización; (4) la similitud perceptiva de los usuarios a
la hora de distinguir el grado; y (5) la relevancia de la relación emisor-destinatario y la
terminología como factores de distinción del grado de especialización.
En este trabajo tomamos como marco de estudio la teoría de la comunicación para
estudiar elementos diversos como son el texto, la tipología textual, el campo de la
terminología, el término como objeto de estudio, la noción de valor especializado, el
conocimiento especializado, los procedimientos de reformulación y las características
vinculadas hasta ahora al discurso especializado, así como las propuestas de clasificación
binaria y continuum.
Nuestro material de trabajo está compuesto por un corpus que cuenta con 315 textos
y medio millón de palabras. Su representatividad cualitativa para estudiar el grado de
especialización textual reside en que parte de tres temas diferentes (reconocidos
socialmente, como son el derecho, la informática y la medicina). Posteriormente, hemos
seleccionado siete tipos textuales posibles en los tres temas (el artículo en revista científica,
la entrada de blog, la revista o web de divulgación especializada, la noticia, la entrevista,
la participación en foro y la tesis doctoral). De esta combinación de tipo textual y tema se
han recopilado 15 textos.
En dicho corpus se estudian diversas variables, tanto cuantitativas como
cualitativas. Entre las variables cualitativas encontramos las variables nominales (el tipo de
texto y el tema del texto). Entre las variables cualitativas ordinales encontramos el emisor,
el destinatario, y la clase de texto. Entre las variables cuantitativas, se analizan el número de formas léxicas, la ratio estandarizada entre tipos de formas léxicas y el total de formas
léxicas, el índice de densidad terminológica, el número de procedimientos de reformulación
y el índice de reformulación.
Parte de estas variables son proporcionadas por el investigador, mientras que otra
parte es proporcionada por cuatro grupos de informantes (estudiante, usuario medio,
traductor e investigador), lo que arroja una base de datos con 1260 patrones que es analizada
mediante la correlación manual de dos o más variables y mediante aprendizaje automático.
El análisis mediante técnicas de aprendizaje automático emplea los algoritmos de red
bayesiana, de regresión logística, el árbol de decisión J48 y el algoritmo de agrupamiento
no supervisado k-means mediante el software WEKA.
Las principales conclusiones sugieren la relevancia de las formas léxicas
semicrípticas y crípticas en la discriminación de los polos opuestos del grado de
especialización, así como el destinatario como factor regulador de la configuración
discursiva de los textos cuando se atiende al grado. También se han identificado las
similitudes del texto semiespecializado con los otros dos grados, principalmente con el
texto divulgativo (desde un punto de vista formal) y con el texto especializado (desde un
punto de vista semántico). This work is an empirical descriptive correlational study whose main objective is to
depict the text specialization degree, especially its lexical forms and speaker-recipient
relationship, based on a corpus of texts analyzed by four groups of informants, using as a
basis the sociocognitive theory of perception and machine learning.
This doctoral thesis is motivated by the scarcity of studies that intend to analyze the
text specialization degree, in particular, its determining factors and limits and, especially,
the intermediate degree: the semi-specialized text. The outlined hypotheses are related to:
(1) the possibility of finding linguistic evidences that may correspond to each of the
specialization degrees; (2) the relationship of similarity between semi-specialized text and
non-specialized text; (3) the relevance of the topic or the type of text in the discrimination
of specialization degree; (4) the perceptive similarity of the users when it comes to
distinguishing the specialization degree; and (5) the relevance of the speaker-recipient
relationship and the terminology as factors of distinction of the specialization degree.
In this work, the theory of communication is taken as a frame of reference to study
diverse elements such as text, textual typology, the field of terminology, the term as an
object of study, the notion of specialized value, specialized knowledge, reformulation
methods and the characteristics linked up to now for the specialized discourse, as well as
binary and continuum classification proposals.
Our material of study is composed of a corpus of 315 texts and half a million words.
Its qualitative representativeness to study the text specialization degree lies in that it is
based on three different subjects (socially recognized, such as law, computer science and
medicine). Subsequently, seven possible types of texts in these three subjects have been
selected (article in scientific journal, blog post, scientific-divulgation magazine or web,
news, interview, participation in a forum and doctoral thesis). From this combination of
type of text and subject, 15 texts have been collected.
In this corpus several variables are studied, both quantitative and qualitative.
Among the qualitative variables the nominal variables are found: the type of text and the
subject of the text. Among ordinal qualitative variables the speaker, the recipient, and the
text class are studied. Among the quantitative variables, the number of lexical forms, the
standardized ratio between types of lexical forms and the total of lexical forms, the
terminological density index, the number of reformulation means and the reformulation
index are analyzed. Part of these variables are provided by the researcher, while another part is provided
by four groups of informants (student, average user, translator and researcher), which yields
a database with 1260 patterns that is analyzed through the manual correlation of two or
more variables and through machine learning. The analysis using machine learning
techniques employs Bayesian network, logistic regression algorithms, the J48 decision tree
and the unsupervised k-means clustering algorithm using the WEKA software.
The main conclusions suggest the relevance of semi-cryptic and cryptic lexical
forms in the discrimination of the opposite poles of the specialization degree, as well as the
recipient as a regulating factor of the discursive configuration of the texts when attending
the degree. The similarities of the semi-specialized text with the other two degrees have
also been identified, mainly with the non-specialized text (from a formal point of view) and
with the specialized text (from a semantic point of view).