Durante la recopilación de los dos millones de páginas web, hicimos uso del sistema de identificación de países de Google. Este proceso es más difícil cuando, por ejemplo, se trata de un sitio .COM (p. ej.: www.felicidad.com). Hay que preguntarse cómo sabe Google de qué país procede.

Para poner a prueba el sistema de Google, buscamos una serie de palabras y construcciones de Latin American Spanish, de John Lipski, así como de otros suplementos de Internet, de las que se espera que sean más comunes en un país o región determinados. El hecho de que las siguientes palabras y sintagmas aparezcan mucho más frecuentemente en ese país parece indicar que la categorización de Google es bastante buena.

Lexical

Caribeño
Puerto Rico ay bendito, chavos, chiringa, mahones, habichuela (+DR), zafacón (+DR) Cuba guajiro, jimaguas, babalao, bitongo, pedir botella Rep Dom mangú, fucú, tutumpote, mangulina, mofongo (+PR)

México y Centroamérica
México ándale, híjole, órale, güero, (muy) padre, chamaco (CAm/Car), pinche (NOUN), popote, charola Guatemala huipil, canche, muchá, patojo, chafa (+HN), chirmol, canche El Salvador cipote, chero, pupusa, cuilio, bayunco, piscucha Honduras catracho, papada Nicaragua chavalo, maje (+CAm), pinol, pinolillo, chigüín, vigorón, gallo pinto (+CR), idiay (+CR) Pánama fulo, chombo, guandul Costa Rica chinear, guila, chunche

Sudamérica
Colombia cachaco, cachifo, verraquera, estar mamado, guandoca, biche Venezuela bojote, coroto, catire, gafo, macundales, arepa, cachapa, cambur, caraotas, jojoto Ecuador chumar, chulla, montuvio, omoto Perú anticucho, jebe, chupe, pisco, jora, chompa (+CL/EC), choclo (+CL/EC) Bolivia opa, colla, chuño, lagua Chile pololo*, pololear, achuntar, bencina, bacán, fome, huaso Paraguay ñembo, ñanduti, karai, yopará, mitai Uruguay tropero, hacer * sota, con fritas Argentina pibe, fiaca, morfar, falopa, sobre el pucho, falluto, cafishio

España ordenador, aparcar, enfadar, gafas, zumo, chulo, guay, coger, bolígrafo, patata, melocotón, echar de menos, vale

Tenga en cuenta que muchas veces, el corpus enseña que una palabra o una frase es más común en toda una región, en lugar de sólo un país específico. Por ejemplo, las siguientes palabras son más frecuentes en la América Central: chele, guaro, estar bolo, chimar, chingo, chompipe, tiste, molote, chichipate, barrilete, pisto (+HN/SV) y las siguientes son más frecuentes en Argentina y Uruguay: che !, laburo, lunfardo.

Sintáctico y morfológico

Por supuesto, el corpus se puede utilizar para investigar las diferencias sintácticas y morfológicas entre los dialectos también. Los siguientes son sólo algunos ejemplos. (Con un ejemplo breve, y el país o la zona en el que es más común)

qué tú VERB (¿qué tú quieres?): Carib
PREP SUBJ VERB (para ella entender): Carib
más nada .|, : Carib
ART POSS NOUN (una mi amiga): GT
mero VERB: GT
te [v*2s*] tu NOUN (te rompiste tu pierna): MX
vos sos (voseo): Cono Sur, CAm
teneís (vosotros): ES
la|las GUSTAR (laísmo; la gusta el chocolate): ES
qué tan ADJ (¿qué tan importante es eso?): not ES
cuanto más VERB (ES) / por más que VERB / entre más VERB / mientras más VERB