el corpus del español

el corpus del español


Nota: haga clic en cualquier enlace de esta página para ver los datos del corpus, después haga clic en la imagen de “ATRÁS” (como la que hay a la izquierda de este mensaje) en la parte superior de la página para volver aquí.

El Corpus del Español que fue lanzado en 2016 (Web-Dialects; CdE:Nuevo) [Web-Dialectos; CdE:Nuevo] contiene unos 2000 millones de palabras, lo que equivale a unas 100 veces más datos que la sección del sigo XX del anterior Corpus del Español (History-Genres; CdE:Orig) [Historia-Géneros; CdE:Antiguo]. Por esta razón, ofrece un conjunto de datos mucho más rico para un amplio abanico de fenómenos. A continuación mostramos solo algunos ejemplos.

Léxico

Hay 422 verbos con una frecuencia lemática de entre 300 y 500 en CdE:Nuevo. La siguiente tabla muestra cuántas veces aparecen esos mismos verbos en CdE:Orig. De los 422 verbos de CdE:Nuevo, casi uno de cada tres verbos (74%) tiene diez o menos resultados en CdE:Orig, lo cual no es suficiente para examinar los verbos. Y solo 7 de los 422 (un 2% aprox.) muestra 50 o más resultados.

Frecuencia CdE:Orig

# verbos

% verbos

Ejemplos

50+ resultados

7

2%

mascullar, petrificar, rezongar

11-49 resultados

101

24%

guarnecer, crepitar, ahuecar

1-10 resultados

177

42%

fardar, precintar, trasuntar

0 resultados

136

32%

vandalizar, aperturar, erupcionar

Semántica

Si no se cuenta con suficientes resultados para una palabra, no es posible observar sus colocados (“palabras cercanas”) o decir mucho sobre su significado y su uso. Por ejemplo, hemos seleccionado (casi aleatoriamente) un verbo, un nombre, un adjetivo y un adverbio del CdE:Nuevo para mostrar cuántos colocados diferentes ocurren con esta palabra (al menos tres veces como lema, entre cuatro palabras a la izquierda y cuatro palabras a la derecha de la palabra nodo) en CdE.New y CdE:Orig. (Es posible que tenga que resetear manualmente el valor SEC 1 solo para el siglo XX para que el CdE:Orig obtenga la cuenta correcta). Como puede observarse, el CdE:Nuevo proporciona datos mucho mejores para examinar el significado y el uso de las palabras.

lema (nodo CdP:colocado)

CdE:Nuevo

CdE:Orig

taladrar (VERB : NOUN)

169

1

bufanda (NOUN : NOUN)

323

3

puñetero (ADJ : NOUN)

296

1

intencionalmente (ADV : VERB)

419

1

Sintaxis

Al ser unas cien veces más grande que la sección del siglo XX del CdE:Orig, el CdE:Nuevo ofrece muchos más resultados para construcciones sintácticas de menor frecuencia. A continuación se muestra el número de resultados en los dos corpus para una serie de construcciones diferentes. (Es posible que tenga que resetear manualmente el valor SEC 1 solo para el siglo XX para que el CdE:Orig obtenga la cuenta correcta).

CdE:Nuevo CdE:Orig cadena de búsqueda descripción ejemplo(s)
591 12 la|las [hacer] [v*] el|la|los|las Acusativo para agente (FEM) en construcción causativa (ver #68, #69 y #71) la hizo ver el verdadero sentido
852 5 parecen que [v*3p*] "Elevación del sujeto a distancia" (ver #64 and #65) parecen que tienen un diseño moderno
242 4 [anhelar] *r.[v*] se El clítico se no sube con anhelar (ver #61 and #70) anhelaba sentirse menos exigida
826 5 para ella|ellas [vr*] Sujeto léxico de infinitivo (ver #52) es fácil para ella hacer esta danza
42,887 207 [estar] siendo [vps*] Progresivo + pasivo las ciudades están siendo fragmentadas