Optional Sidebar Info

Any information can be placed in the sidebar to help your website visitors navigate your site.

To make a boxed heading like the one above, simply apply the H3 tag.

To make a box like this, assign the "sidebarlt" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

To make a box like this, assign the "sidebardk" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

This page in English

Corpus Sociolingüístico del Castellano
Oral de Chile
(Coscach)

El Corpus Sociolingüístico del Castellano Oral de Chile (Coscach) es una base de datos electrónica de la producción oral de jóvenes adultos chilenos, el cual se creó con tecnología de punta y metodologías sociolingüísticas. Actualmente, contempla 220 hablantes, grabados en audio de 24 bits y en video de alta calidad.

Aunque el Coscach surgió de mi disertación doctoral sobre la estratificación socioeconómica de los alófonos vocálicos del castellano de Chile, su propósito máximo es posibilitar --tanta para mí como para los demás-- la investigación empírica de gran escala sobre una amplia gama de fenómenos. Con esta misma finalidad, he desarrollado una serie de herramientas que permiten trabajar con corpora orales masivos, entre ellos MaSCoT y Perkins.

El Coscach está en pleno desarrollo. Todavía no está en condiciones de ser utilizado por otros investigadores.

¡NUEVO! Un demo del Coscach ya está disponible. Para más detalles, ver abajo...

 

El Coscach en cifras

Actualmente, el Coscach consiste en:

  • Unos 300 informantes (aproximadamente la mitad de cada sexo).
  • Hablantes provenientes de Santiago, Concepción, Temuco y regiones rurales de la Región de la Araucanía.
  • Entre tres y seis actividades de elicitación por hablante.
  • Alrededor de 600,000 palabras ortográficamente transcritas correspondientes a actividades de lectura.
  • Aproximadamente 800,000 palabras ortográficamente transcritas correspondientes a entrevistas (el conteo de palabras sólo contempla lo dicho por el informante).
  • 120 GB de grabaciones de audio de 24 bit y 44,1 kHz (formato WAV).
  • 195 GB de grabaciones de video en formato MP4.

 

Tecnología y grabación

El Coscach se diseñó desde un comienzo para permitir las investigaciones fonéticas más exigentes, por lo cual se tomaron estrictas medidas para asegurar que las grabaciones fueran "a prueba del futuro" y de máxima calidad.

Para las grabaciones de audio, utilizamos grabadoras digitales Fostex FR-2LE y micrófonos Audix HT5. La grabadora Fostex, que es conocida por sus preamplificadores de alta calidad, ha permitido trabajar con mayor facilidad y movilidad, mientras que el micrófono Audix, que se coloca en la cabeza del hablante, ha demostrado una y otra vez que produce grabaciones de una calidad realmente impresionante. Además de su respuesta de frecuencias casi totalmente plana, el HT5 tiene una relación señal-ruido espectacular gracias a que se coloca a meros centímetros de la boca del hablante.

Para posibilitar la recuperación y análisis eficientes y de gran escala, todas las grabaciones de audio están segmentadas y transcritas ortográficamente en Praat; luego, las transcripciones ortográficas se transcriben fonémicamente con Perkins, un programa que escribí para esta finalidad. Finalmente, la información se busca y recupera con MaSCoT.

Actualmente, estamos trabajando en conjunto con los desarrolladores de PHON para ver la posibilidad de adaptar este software a la investigación sociofonética.

 

Estratificación socioeconómica

El Coscach es un corpus sociolingüísticamente estratificado. Utilizando la metodología EMIS, que es una versión del sistema ESOMAR adaptada a la investigación sociolingüística, se estratifican a los hablantes en seis grupos.

 

Demo del Coscach

Un demo público del Coscach ya está disponible. Contiene breves extractos de seis actividades de elicitación realizadas por una sola hablante. La grabación de audio es de 24-bit / 44.1kHz y está almacenada en un archivo de formato FLAC. Éste es un formato comprimido sin pérdidas que proporciona exactamente la misma calidad que los WAV.

También se proporciona un TextGrid básico que se puede utilizar en Praat. Contiene transcripciones ortográficas manuales y transcripciones fonémicas efectuadas automáticamente por Perkins.

Bajar el demo del Coscach: Local | Externo (9,7 MB)