Optional Sidebar Info

Any information can be placed in the sidebar to help your website visitors navigate your site.

To make a boxed heading like the one above, simply apply the H3 tag.

To make a box like this, assign the "sidebarlt" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

To make a box like this, assign the "sidebardk" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

This page in English

Corpora y diccionarios de frecuencias

Creo profundamente que la mejor manera de entender el lenguaje es a través del estudio de su uso real. La introspección es de gran valor cuando se trata de formular hipótesis, pero no hay nada tan confiable como los datos de alta calidad cuando se trata de confirmar o refutarlas.

Cuando empecé a investigar la variedad de español que me ha ocupado hasta ahora --el chileno--, me di cuenta rápidamente de que no había un solo corpus ni diccionario de frecuencias disponible. Por eso, creé el Corpus Dinámico del Castellano de Chile (Codicach), que hasta el día de hoy es el corpus más grande de cualquier variedad del castellano.

Algunos años después, surgió la Lista de Frecuencias de Palabras del Castellano de Chile (Lifcach), el cual es también la más grande de su especie.

Finalmente, durante los últimos dos años, me he enfocado en el desarrollo del Corpus Sociolingüístico del Castellano Oral de Chile (Coscach), dentro del marco de la investigación que he estado realizando para mi tesis doctoral.

 

Corpus Dinámico del Castellano de Chile (Codicach)

El Corpus Dinámico del Castellano de Chile (Codicach) es un corpus sincrónico del español escrito de Chile, compuesto de cerca de 800 millones de palabras en unos 1,3 millones de archivos y 102 subcorpora. Ha sido chunkeado, lematizado, y etiquetado con información sobre categorías gramaticales y relaciones sintácticas con el software Machinese Syntax de Connexor. Las facilidades de búsqueda y recuperación de información las proporciona el IMS Open Corpus Workbench.

Sigue leyendo...

 

Corpus Sociolingüístico del Castellano Oral de Chile (Coscach)

El Corpus Sociolingüístico del Castellano Oral de Chile (Coscach) es una base de datos electrónica de la producción oral de niños y jóvenes adultos chilenos, la cual se creó con tecnología de punta y metodologías sociolingüísticas. Actualmente, contempla 131 hablantes, grabados en audio de 24 bits y en video de alta calidad.

Sigue leyendo...

 

Lista de Frecuencias del Castellano de Chile (Lifcach)

La Lista de Frecuencias de Palabras del Castellano de Chile (Lifcach) es un conjunto de 102 listas de frecuencias léxicas derivadas de los distintos subcorpora del Corpus Dinámico del Castellano de Chile (Codicach), un corpus del español escrito contemporáneo de Chile desarrollado por Sadowsky entre 1997 y 2002; este corpus contenía aproximadamente 450 millones de palabras a la hora de elaborar la Lifcach (actualmente contiene alrededor de 800 millones de palabras).

Sigue leyendo...