Durante la recopilación de los dos millones de páginas web, hicimos uso del sistema de identificación de países de Google. Este proceso es más difícil cuando, por ejemplo, se trata de un sitio .COM (p. ej.: www.felicidad.com). Hay que preguntarse cómo sabe Google de qué país procede. Para poner a prueba el sistema de Google, buscamos una serie de palabras y construcciones de Latin American Spanish, de John Lipski, así como de otros suplementos de Internet, de las que se espera que sean más comunes en un país o región determinados. El hecho de que las siguientes palabras y sintagmas aparezcan mucho más frecuentemente en ese país parece indicar que la categorización de Google es bastante buena. LexicalCaribeño Puerto Rico ay bendito, chavos, chiringa, mahones, habichuela (+DR), zafacón (+DR) Cuba guajiro, jimaguas, babalao, bitongo, pedir botella Rep Dom mangú, fucú, tutumpote, mangulina, mofongo (+PR) México y Centroamérica México ándale, híjole, órale, güero, (muy) padre, chamaco (CAm/Car), pinche (NOUN), popote, charola Guatemala huipil, canche, muchá, patojo, chafa (+HN), chirmol, canche El Salvador cipote, chero, pupusa, cuilio, bayunco, piscucha Honduras catracho, papada Nicaragua chavalo, maje (+CAm), pinol, pinolillo, chigüín, vigorón, gallo pinto (+CR), idiay (+CR) Panamá fulo, chombo, guandul Costa Rica chinear, guila, chunche Sudamérica Colombia cachaco, cachifo, verraquera, estar mamado, guandoca, biche Venezuela bojote, coroto, catire, gafo, macundales, arepa, cachapa, cambur, caraotas, jojoto Ecuador chumar, chulla, montuvio, omoto Perú anticucho, jebe, chupe, pisco, jora, chompa (+CL/EC), choclo (+CL/EC) Bolivia opa, colla, chuño, lagua Chile pololo*, pololear, achuntar, bencina, bacán, fome, huaso Paraguay ñembo, ñanduti, karai, yopará, mitai Uruguay tropero, hacer * sota, con fritas Argentina pibe, fiaca, morfar, falopa, sobre el pucho, falluto, cafishio España ordenador, aparcar, enfadar, gafas, zumo, chulo, guay, coger, bolígrafo, patata, melocotón, echar de menos, vale Tenga en cuenta que muchas veces, el corpus enseña que una palabra o una frase es más común en toda una región, en lugar de sólo un país específico. Por ejemplo, las siguientes palabras son más frecuentes en la América Central: chele, guaro, estar bolo, chimar, chingo, chompipe, tiste, molote, chichipate, barrilete, pisto (+HN/SV) y las siguientes son más frecuentes en Argentina y Uruguay: che !, laburo, lunfardo. Sintáctico y morfológico Por supuesto, el corpus se puede utilizar para investigar las diferencias sintácticas y morfológicas entre los dialectos también. Los siguientes son sólo algunos ejemplos. (Con un ejemplo breve, y el país o la zona en el que es más común)
qué tú VERB (¿qué tú quieres?):
Carib |