el corpus del español

El Corpus del Español (Web / Dialects) [Web / Dialectos] contiene unos 2000 millones de palabras, pero hay corpus basados en la web que son mucho mayores. Por ejemplo, Sketch Engine tiene un corpus de español de 9600 millones de palabras y Corpora from the Web (COW) tiene un corpus de español que es casi el doble de grande que el nuestro. Así que, ¿por qué no usar mejor esos corpus directamente?

La principal razón es que el tamaño no lo es todo. Una vez creado el corpus, ha de anotarse según clases de palabras y lemas (p. ej.: dice, dijo y diremos son formas del lema decir). Aunque hoy en día es sencillo crear grandes corpus a partir de la web para cualquier lengua, es mucho más difícil anotarlo de forma correcta y precisa, y sin una buena anotación el corpus es prácticamente inservible, al menos para ciertos propósitos.

Para ver el tipo de problemas que ha provocado esta lematización y etiquetado incorrectos, se puede consultar la siguiente hoja de cálculo

Lemas en español

En esta hoja de cálculo se muestran las palabras que comienzan con s- en el corpus de Sketch Engine (dado que COW utiliza el mismo etiquetador y que tampoco ha sido corregido, los resultados serían básicamente los mismos. Puede buscar alguno de los “lemas” de estas listas en COW y comprobará que contiene los mismos errores). La hoja agrupa las palabras por lema y clase de palabra (nombre, verbo, adjetivo, adverbio) y muestra todos los lemas que ocurren 20 o más veces en el corpus. Las palabras potencialmente “problemáticas” están marcadas en amarillo.

Las listas comienzan de forma correcta. Por ejemplo, los diez primeros verbos a la cabeza son ser, saber, seguir, salir, señalar, sentir, servir, solicitar, suponer y sacar, todos verbos. Hasta aquí todo bien. Pero hacia la palabra número 1000, encontramos los siguientes lemas, uno tras otro: satifacer, siempore, sako, simone, sómos, seguió, sperar, substituído, supply, safó, sardinada, subiamos, subway, sobrescribe, soñabamos, secion, subredondear, santalucía, scripta, scuba, selecionada, sostenian, surfea, sarpado, satisfacion, sorpendido, suguiere, semibatir, september, seva. Básicamente, ninguno de estos “verbos” son realmente lemas. O bien son formas (o quasiformas) de lemas pero no los auténticos lemas (somos, soñabamos, sugiere, substituído, subiamos, sostenian) o bien provienen de otros idiomas (supply, subway, scuba, september) o bien son simplemente “extraños” (simone, santalucía, seva).

Y esto ocurre cerca del principio de la lista, donde alguien podría probablemente haber corregido los primeros 1000 verbos, por ejemplo, si supieran español. Pero conforme descendemos por la lista, las cosas se vuelven mucho más confusas. Por ejemplo, hacia el verbo número 3200 tenemos: salienron, salomé, sangree, scarce, scrooge, sdfr, sebita, seeeeeeeeeee, separació, serásn, sexan, shay, shúper, silicone, simos, siome, ske, sommer, sorcerer, spaña, swear, self-care. Ninguno de estos elementos es un lema verbal y no se han corregido en absoluto.

Si se quieren crear bases de datos de frecuencias de palabras o herramientas de aprendizaje de lenguas, es imperativo revisar cuidadosamente miles y miles de palabras: mirar su contexto, corregir los lemas y clases de palabras, etc. Ninguna de estas cosas se llevó a cabo en estos grandes corpus y, por lo tanto, como hemos mencionado, son prácticamente inservibles para muchos propósitos.

En nuestro corpus, hemos revisado cada uno de los lemas (de los primeros 40 000 lemas del corpus), para asegurarnos de que el lema y la clase de palabra fueran correctos. Es mucho trabajo y nos llevó varios meses, pero ahora que está hecho, creemos que contamos con el único gran corpus (más de 1000 millones de palabras) fiable del español.