Optional Sidebar Info

Any information can be placed in the sidebar to help your website visitors navigate your site.

To make a boxed heading like the one above, simply apply the H3 tag.

To make a box like this, assign the "sidebarlt" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

To make a box like this, assign the "sidebardk" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

This page in English

Corpus Sociolingüístico del Castellano de Chile
(Coscach)

El Corpus Sociolingüístico del Castellano de Chile (Coscach) es una masiva base de datos electrónica que recoge la producción lingüística de chilenos, y que se creó con tecnología de punta y metodologías sociolingüísticas modernas. Actualmente, contempla 612 hablantes, quienes realizan una amplia gama de actividades de elicitación, desde la recitación de pares mínimos hasta una larga conversación sin estructura y máximamente informal.

El propósito del Coscach es posibilitar la investigación empírica de gran escala sobre una amplia gama de fenómenos lingüísticos y, a la vez, permitir que dichos estos fenómenos se analicen en términos de las variables sociales más relevantes: localidad, estrato socioeconómico, sexo, edad, etnia (mapuche / hispano-chileno), lenguas habladas nativamente (sólo castellano, o castellano y mapudungun) y proveniencia urbana/rural. Con el fin de promover y facilitar estos objetivos, he desarrollado una serie de herramientas que permiten trabajar con corpora orales masivos, entre ellos MaSCoT y Perkins.

El Coscach está en pleno desarrollo, y por ende todavía no está en condiciones de ser utilizado por otros investigadores. Se prevé que su elaboración se completará a comienzos de 2019.

 

El Coscach en cifras

Al 18 de julio de 2017, el Coscach constaba de:

  • 612 hablantes (aproximadamente la mitad de cada sexo).
  • Muestras de hablantes estratificadas, compuestas de seis niveles socioeconómicos.
  • Hablantes hispano-chilenos provenientes de Arica, Antofagasta, La Serena, Santiago, Curicó, Concepción, Temuco, Melipeuco, Tirúa y Chiloé. Pronto se agregarán más localidades.
  • Hablantes mapuches monolingües en castellano provenientes de Santiago, Temuco, Melipeuco y Tirúa, con más localidades en camino.
  • Hablantes bilingües en mapudungun y castellano de toda la zona del Wallmapu (el territorio tradicionalmente habitado por los mapuches en Chile).
  • Entre cinco y sieteactividades de elicitación por hablante.
  • Alrededor de 3 millones de palabras ortográficamente transcritas correspondientes a actividades de lectura.
  • Aproximadamente 2,5 millones de palabras ortográficamente transcritas que corresponden a entrevistas (el conteo de palabras sólo contempla lo dicho por el informante).
  • Alrededor de 500 GB de grabaciones de audio a 24 bit / 48 kHz (formato broadcast WAV).
  • Aproximadamente 11 TB de videos en formato MTS.

Tecnología y grabación

El Coscach se diseñó desde un comienzo para permitir las investigaciones fonéticas más exigentes, por lo cual se tomaron estrictas medidas para asegurar que las grabaciones fueran "a prueba del futuro" y de máxima calidad.

Para las grabaciones de audio, utilizamos grabadoras digitales Fostex FR-2LE y micrófonos Audix HT5. La grabadora Fostex, que es conocida por sus preamplificadores de alta calidad, ha permitido trabajar con mayor facilidad y movilidad, mientras que el micrófono Audix, que se coloca en la cabeza del hablante, ha demostrado una y otra vez que produce grabaciones de una calidad realmente impresionante. Además de su respuesta de frecuencias casi totalmente plana, el HT5 tiene una relación señal-ruido espectacular gracias a que se coloca a meros centímetros de la boca del hablante.

Para posibilitar la recuperación y análisis eficientes y de gran escala, todas las grabaciones de audio están segmentadas y transcritas ortográficamente en Praat; luego, las transcripciones ortográficas se transcriben fonémicamente con Perkins, un programa que escribí para esta finalidad. Finalmente, la información se busca y recupera con MaSCoT.

Actualmente, estamos trabajando en conjunto con los desarrolladores de PHON para ver la posibilidad de adaptar este software a la investigación sociofonética.

Estratificación socioeconómica

El Coscach es un corpus sociolingüísticamente estratificado. Utilizando la metodología EMIS, que es una versión del sistema ESOMAR adaptada a la investigación sociolingüística, se estratifican a los hablantes en seis grupos.