Optional Sidebar Info

Any information can be placed in the sidebar to help your website visitors navigate your site.

To make a boxed heading like the one above, simply apply the H3 tag.

To make a box like this, assign the "sidebarlt" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

To make a box like this, assign the "sidebardk" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

This page in English

Corpus Sociolingüístico del Castellano de Chile
(COSCACH)

El Corpus Sociolingüístico del Castellano de Chile (COSCACH) es una masiva base de datos electrónica que recoge la producción lingüística de chilenos mediante tecnología de punta y metodologías sociolingüísticas modernas. Actualmente, contempla 887 hablantes, quienes realizan una amplia gama de actividades de elicitación, desde la recitación de pares mínimos hasta una larga conversación sin estructura y máximamente informal.

El propósito del COSCACH es posibilitar la investigación empírica de gran escala de una amplia gama de fenómenos lingüísticos y, a la vez, permitir que dichos fenómenos se analicen en términos de las variables sociales más relevantes: localidad, estrato socioeconómico, sexo, edad, etnia (mapuche / hispano-chileno), lenguas habladas nativamente (sólo castellano, o castellano y mapudungun) y proveniencia urbana/rural. Con el fin de promover y facilitar estos objetivos, he desarrollado una serie de herramientas como MaSCoT y Perkins, los cuales permiten trabajar con corpora orales masivos como el COSCACH.

 

El corpus COSCACH en cifras

Al 18 de diciembre de 2017, el COSCACH constaba de:

  • Grabaciones de audio y video de 887 hablantes (aproximadamente mitad mujeres y mitad hombres).
  • Transcripciones ortográficas y fonémicas de 575 de los hablantes. Las transcripciones se realizan con Praat y están segmentadas y alineadas temporalmente a nivel de enunciado.
  • Aproximadamente 3,7 millones de palabras transcritas provenientes de entrevistas (el conteo de palabras sólo contempla lo dicho por el informante).
  • Alrededor de 1,7 millones de palabras transcritas que corresponden a actividades de lectura.
  • Alrededor de 700 GB de grabaciones de audio de 24 bit / 48 kHz (formato broadcast WAV).
  • Aproximadamente 11 TB de videos (formato MTS).

La muestra de hablantes del COSCACH tiene la siguiente estructura:

  • 6 niveles socioeconómicos.
  • 2 sexos.
  • 1 a 3 grupos etarios, según la localidad .
  • Hablantes hispano-chilenos provenientes de Arica, Antofagasta, La Serena, Santiago, Curicó, Concepción, Temuco, Melipeuco, Tirúa y Chiloé. Pronto se agregarán más localidades.
  • Hablantes mapuches monolingües en castellano provenientes de Santiago, Temuco, Melipeuco y Tirúa, con más localidades en camino.
  • Hablantes bilingües en mapudungun y castellano de toda la zona del Wallmapu (el territorio tradicionalmente habitado por los mapuches en Chile).

Cuando el COSCACH esté terminado, contemplará aproximadamente 6,5 millones de palabras de entrevistas y 2,9 millones de palabras de actividades de lectura.

Grabación

El COSCACH se diseñó desde un comienzo para permitir las investigaciones fonéticas más exigentes, por lo cual se tomaron estrictas medidas para asegurar que las grabaciones fueran "a prueba del futuro" y de máxima calidad.

Para las grabaciones de audio, utilizamos grabadoras digitales Fostex FR-2LE y micrófonos Audix HT5. La Fostex, que es conocida por sus preamplificadores de alta calidad, ha permitido trabajar con mayor facilidad y movilidad, mientras que el micrófono Audix, el cual se coloca en la cabeza del hablante, ha demostrado una y otra vez que produce grabaciones de una calidad realmente impresionante. Además de su respuesta de frecuencias casi totalmente plana, el HT5 tiene una relación señal-ruido espectacular gracias a que se coloca a meros centímetros de la boca del hablante.

Extracción y análisis

Con el fin de posibilitar la recuperación y análisis eficiente y de gran escala de los contenidos del COSCACH, todas las grabaciones de audio están segmentadas y transcritas ortográficamente con Praat. Luego, las transcripciones ortográficas son silabificadas y transcritas fonémicamente con Perkins, un programa que creé para esta finalidad. La recuperación de las transcripciones y/o de las grabaciones correspondientes (a nivel de enunciado) se lleva a cabo con MaSCoT.

Además, para las investigaciones que no se relacionan con la fonética ni con la fonología, las transcripciones de las entrevistas...

  • se extraen...
  • se etiquetan con la versión chilena de FreeLing, que lematiza, parsea, asigna categorías gramaticales (partes de la oración), etc...
  • se compilan con IMS Open Corpus Workbench, para así crear un corpus que permita realizar búsquedas y recuperar resultados...
  • se importan en CQP Web, el cual brinda una inferfaz potente y amigable para trabajar con los textos del COSCACH.

Por otra parte, estamos trabajando en conjunto con los desarrolladores de PHON para ver la posibilidad de adaptar este software a la investigación sociofonética.

 

El COSCACH está en pleno desarrollo, y por ende todavía no está en condiciones de ser utilizado por otros investigadores. Se prevé que su elaboración se completará a comienzos de 2019.