el corpus del español

el corpus del español


Nota: haga clic en cualquier enlace de esta página para ver los datos del corpus, después haga clic en la imagen de “ATRÁS” (como la que hay a la izquierda de este mensaje) en la parte superior de la página para volver aquí.

Recientemente, la Real Academia Española publicó el corpus CORPES (Corpus del Español del Siglo XXI), similar en ciertos aspectos al corpus Web/Dialects [Web/Dialectos] de nuestro Corpus del Español. A continuación mostramos una comparación de ambos corpus. 

Característica

Corpus del Español: Web / dialects

CORPES (Real Academia)

 

 

 

Corpus textuales

 

 

Tamaño

1 985 000 000

175 000 000

 

 

Este número se refiere a las palabras (sin incluir puntuación). Según la información del CORPES, este incluye unas 225 millones de “formas”; sin embargo, si se compara la frecuencia de palabras comunes como de, en, etc. en los dos corpus, se observa que el número total de palabras del CORPES es de aproximadamente 175 millones. Dado que el CdE es más de diez veces mayor, una consulta que devuelva 100 resultados en el CdE podría devolver solo 9-10 en el CORPES.

Número de países

21

21 (+2)

 

Veintiún países hispanohablantes, que incluyen España y 20 países de América, desde los Estados Unidos y México hasta Argentina. El tamaño de cada país varía, desde los 440 millones de palabras de España o los 249 millones de México hasta los 30 millones de Paraguay o los 24 millones de Panamá, dos de los países más pequeños del corpus.

Los mismos 21 países del CdE, incluyendo España (60 millones de palabras) y México (19 millones), Honduras (1,9 millones) o Panamá (1,5 millones). También incluye Guinea Ecuatorial y Filipinas, pero solo hay 640 000 y 100 000 palabras para estos países, respectivamente, una muestra probablemente demasiado limitada para realizar análisis significativos.

Equilibrio Hispanoamérica / España

78%  Hispanoamérica / 22% España

65% Hispanoamérica / 35% España

 

Representa el equilibrio de población real de ambas áreas más fielmente (solo el 10% de los hispanohablantes procede de España).

Se centra principalmente en España, probablemente por provenir de la Real Academia Española.

Periodo

2013-2014 ( + 2010-2018 -> )

2001-2015

 

Todos los textos de este corpus fueron recogidos de la web en 2013-2014. En este sentido, el corpus no es diacrónico. Sin embargo, en 2018, publicaremos un corpus de español muy similar al NOW Corpus de inglés. Este nuevo corpus actualizará continuamente el Corpus del Español (Web/Dialects), con textos extraídos de webs de los mismos 21 países. En 2018 contendrá unos 6000 millones de palabras de entre 2010 y 2018, y (como el NOW) continuará creciendo a un ritmo de unas 150-200 millones de palabras al mes (aproximadamente el tamaño del CORPES completo).

La mayoría de los textos son de 2001-2010, y, un menor número (alrededor de un 17% del total), de 2011-2015. 

Textos agrupados por género/tema

Personalizable por el usuario

Parcialmente

 

Los usuarios pueden crear “corpus virtuales” instantáneamente (por ejemplo sobre fútbol o biología), a partir de los sitios web, el título de las páginas web y las palabras de las mismas (haga clic en Texts/Virtual [Textos/Virtuales] en el formulario de búsqueda).

Textos parcialmente categorizados por género. Tal y como explica su sitio web, "la tipología textual se ha incorporado solo a una pequeña parte de los documentos".

Corpus virtuales

 

Puede crear corpus para determinados temas de forma instantánea y fácil, además puede guardarlos para usarlos en otro momento. Por ejemplo, es posible crear en unos segundos un corpus de biología o fútbol, o un corpus a partir de un conjunto dado de sitios webs en un determinado país acerca de un tema específico. (Para más información, haga clic en Texts/Virtual [Textos/Virtuales] en el formulario de búsqueda)

(Ver captura de pantalla) Buen sistema para seleccionar por país, tema, género, etc. No queda claro, sin embargo, que estos corpus puedan guardarse y volverse a usar en otro momento, o que se puedan comparar frecuencias entre diferentes corpus virtuales (como en el CdE).

 

 

 

Interfaz / Búsqedas

 

 

Sintaxis básica

 

Ambos corpus permiten realizar búsquedas de una palabra (misterioso), un sintagma (amor propio), comodines (*idad, *tom*), lemas (todas las formas de crear), clases de palabras (nombre, verbo, etc.) y el operador excluyente NOT (bastante -NOUN).

 

Permite buscar por sinónimos y listas de palabras personalizadas, por ejemplo:  LUGAR =HERMOSO o @ropa @colores. Todos los términos pueden introducirse juntos en una simple cadena de búsqueda, por ejemplo: me|le HACER VERB = me hizo recordar, le hace pensar.

No se permite buscar por sinónimos o listas personalizadas. Un poco menos práctico a la hora de introducir varias palabras. Los usuarios deben introducir un término, después “Proximidad”, después otro término, después “Proximidad”, etc.

Concordancias

 

Líneas de concordancia reordenables, como en rumbo, rompióRELUCIR. Se puede reducir el número de resultados seleccionando entre 100 y 1000 líneas aleatorias, lo cual es necesario para observar los patrones generales en los que aparece una palabra o sintagma. Además, el código de color de las palabras colindantes permite observar patrones de coligación. Es posible ordenar los resultados según varias posiciones de palabras a la izquierda y a la derecha.

Uso básico de las concordancias. No permite reducir resultados para observar patrones generales. No permite examinar patrones de coligación. Solo puede ordenar los resultados por una palabra a la derecha o a la izquierda.

Listas de frecuencia simples

 

Ejemplos: menos * queOJO ADJPONER [l*] NOUN.

No está claro si es posible ni de qué manera. Se pueden generar líneas de concordancia (ver más abajo), pero no queda claro cómo se pueden extraer datos de frecuencia de las mismas. Las colocaciones también son posibles, pero no parece ser posible extraer la frecuencia de ellas (ver más abajo).

Colocaciones

 

Se puede ajustar el “alcance” (número de palabras a la izquierda y a la derecha de la palabra “nodo”), limitar las colocaciones a determinadas clases de palabras y limitar los resultados por su puntuación de Información Mutua (MI) y por frecuencia conjunta. Por ejemplo: los nombres antes de grueso, o los adjetivos después de ojo.

Cierta funcionalidad mediante “coapariciones”, pero no es posible especificar el valor de “alcance”. Además, no parece posible realizar búsquedas simples como por ejemplo encontrar los nombres más comunes una o dos palabras antes de grueso. Los resultados se pueden ordenar por frecuencia conjunta (por ejemplo, el, de, y) o por puntuación MI, pero ninguna de estas opciones parece muy útil.

Comparar palabras

 

 

Se pueden comparar colocados para “desgranar” el significado de palabras similares (como potente y poderoso o iluminar y alumbrar) o examinar diferencias culturales (como colocados de España y México).

-- Sin soporte --

Comparar dialectos

 

Es posible observar lo que ocurre en un dialecto (o conjunto de dialectos) pero no en otro. Por ejemplo: *ismo in VE vs CO, MX, ES, AR;  NOUN DULCE in ES vs MXcoger + NOUN: ES vs AR;  manejar + NOUN: MX vs ES.

-- Sin soporte --