Optional Sidebar Info

Any information can be placed in the sidebar to help your website visitors navigate your site.

To make a boxed heading like the one above, simply apply the H3 tag.

To make a box like this, assign the "sidebarlt" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

To make a box like this, assign the "sidebardk" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

This page in English

Corpus Oral Sociolingüístico del Castellano de Chile
(COSCACH)

El Corpus Oral Sociolingüístico del Castellano de Chile (COSCACH) es una masiva base de datos electrónica que recoge la producción lingüística de chilenos mediante tecnología de punta y metodologías sociolingüísticas modernas. Contiene un total de 9.288.301 tokens, 68.705 tipos y 1.061.711 enunciados, provenientes de 83.002 minutos de grabaciones de audio.

El propósito del COSCACH es posibilitar la investigación empírica de gran escala de una amplia gama de fenómenos lingüísticos y, a la vez, permitir que dichos fenómenos se analicen en términos de las variables sociales más relevantes.

El COSCACH contempla 1.237 hablantes nativos del castellano chileno más una muestra de control de 21 hablantes nativos de variedades nacionales no chilenas, todos quienes realizan una amplia gama de actividades de elicitación, desde la lectura de pares mínimos hasta una larga conversación sin estructura y máximamente informal.

Los hablantes chilenos están estratificados según seis variables sociales: localidad, estrato socioeconómico (mediante el sistema EMIS), sexo, edad/generación, etnia y lingüismo (monolingüe en castellano o bilingüe en castellano y mapudungun). Adicionalmente, se categorizan según cinco variables derivadas de su localidad: urbanidad, población de la localidad, región, distancia desde Santiago y tiempo de viaje desde Santiago.

Las transcripciones de las grabaciones se lematizaron y se etiquetaron morfológicamente con la versión chilena de FreeLing. El COSCACH puede consultarse, mediante IMS Open Corpus Workbench y CQPweb, en corpora.pro.

El paper que da a conocer el COSCACH es el siguiente:

Sadowsky, Scott. 2022. The Sociolinguistic Speech Corpus of Chilean Spanish (COSCACH). A socially stratified text, audio and video corpus with multiple speech styles. International Journal of Corpus Linguistics. DOI: 10.1075/ijcl.19103.sad. Bajar PDF · Ver en International Journal of Corpus Linguistics

Finalmente, puedes acceder al COSCACH en corpora.pro.

 

El COSCACH en cifras

El COSCACH consta de:

  • Grabaciones de audio y video de 1.237 hablantes chilenos (mitad mujeres y mitad hombres) y 21 hispanoparlantes no chilenos.
  • Transcripciones ortográficas y fonémicas de las mismas grabaciones. Las transcripciones se realizaron con Praat, y están segmentadas y alineadas temporalmente a nivel de enunciado.
  • 9.288.301 palabras de texto corrido (el conteo de palabras sólo contempla lo dicho por los informantes).
  • 83.002 minutos de grabaciones, lo cual equivale a 1383,4 horas o 172,9 jornadas de ocho horas.

La muestra de hablantes chilenos del COSCACH tiene la siguiente estructura:

  • 2 tipos de "lingüismo": Monolingüe en castellano, bilingüe en mapudungun y castellano.
  • 2 etnias: Hispano-chileno, mapuche.
  • 6 niveles socioeconómicos: A, B, Ca, Cb, D, E (del más alto al más bajo) del sistema de estratificación EMIS.
  • 2 sexos.
  • Entre 1 y 5 grupos etarios, según la localidad: 16-24, 25-34, 35-49, 50-64, y 65 o más años de edad.
  • Hablantes hispano-chilenos provenientes de Arica, Antofagasta, La Serena, Santiago, Curicó, Concepción, Tirúa, Temuco, Melipeuco, Valdivia y Chiloé.
  • Hablantes mapuches monolingües en castellano provenientes de Santiago, Tirúa, Temuco, Melipeuco y Chiloé.
  • Hablantes bilingües en mapudungun y castellano de toda la zona de Wallmapu (el territorio tradicionalmente habitado por los mapuches en Chile).

La muestra de control de hispanoparlantes nativos no chilenos contempla personas provenientes de Argentina, Bolivia, Colombia, Cuba, México, Paraguay, Perú y Venezuela.

Se aplicaron los siguientes instrumentos de elicitación a cada hablante:

  • Entrevista conversacional basada en los intereses de los hablantes; sin preguntas preestablecidas ni otra estructura. Busca elicitar muestras de habla máximamente espontáneas.
  • Entrevista sobre actitudes lingüísticas basada en un cuestionario.
  • Lectura de textos significativos.
  • Lectura de pares mínimos y listas de palabras para elicitar muestras de habla máximamente controladas.
  • Pronunciación sostenida de vocales para la investigación de la calidad de la voz.

 

Grabación

El COSCACH se diseñó desde un comienzo para permitir las investigaciones fonéticas más exigentes, por lo cual se tomaron estrictas medidas para asegurar que las grabaciones fueran "a prueba del futuro" y de máxima calidad.

Para las grabaciones de audio, utilizamos grabadoras digitales Fostex FR-2LE y micrófonos Audix HT5. La Fostex, que es conocida por sus preamplificadores de alta calidad, ha permitido trabajar con mayor facilidad y movilidad, mientras que el micrófono Audix, el cual se coloca en la cabeza del hablante, ha demostrado una y otra vez que produce grabaciones de una calidad realmente impresionante. Además de su respuesta de frecuencias casi totalmente plana, el HT5 tiene una relación señal-ruido espectacular gracias a que se coloca a meros centímetros de la boca del hablante.

Extracción y análisis

Con el fin de posibilitar la recuperación y análisis eficiente y de gran escala de los contenidos del COSCACH, todas las grabaciones de audio están segmentadas y transcritas ortográficamente con Praat. Luego, las transcripciones ortográficas son silabificadas y transcritas fonémicamente con Perkins, un programa que creé para esta finalidad. La recuperación de las transcripciones y/o de las grabaciones correspondientes (a nivel de enunciado) se lleva a cabo con MaSCoT.

Además, para las investigaciones que no se relacionan con la fonética ni con la fonología, las transcripciones de las entrevistas...

  • se extraen...
  • se etiquetan con la versión chilena de FreeLing, que lematiza, parsea, asigna categorías gramaticales (partes de la oración), etc...
  • se compilan con IMS Open Corpus Workbench, para así crear un corpus que permita realizar búsquedas y recuperar resultados...
  • se importan en CQP Web, el cual brinda una inferfaz potente y amigable para trabajar con las transcripciones del COSCACH, su lematización y etiquetado morfológico, y la totalidad de sus metadatos.

 

Acceso

Los investigadores pueden acceder a las transcripciones lematizadas y etiquetadas del COSCACH de manera libre y gratuita en corpora.pro. Sólo require crear una cuenta en el sitio. Las grabaciones todavía no están disponbiles al público, ya que primero deben revisarse y, cuando sea necesario, censurarse, para así resguardar la privacidad y anonimato de los hablantes.

 

El equipo COSCACH

Investigador principal

Dr. Scott Sadowsky

Pontificia Universidad Católica de Chile (Santiago, Chile) y Max Planck Institute for the Science of Human History (Jena, Alemania)

 

Trabajadores de campo

TRABAJADOR DE CAMPO
GRABACIONES
María José Aninao
343
Beatriz Yáñez
266
Scott Sadowsky
175
Sebastián Zepeda
108
Ruth Contreras
99
Bárbara Galdames
88
Camila Aedo
59
Tiare Araya
30
Edson Salgado
27
Lorena Perdomo
24
Viviana Vergara
18
Andrea Osorio
5
Francisca Morales
4
Matt Muñoz
3
Camila Valdebenito
2
Javiera Solís
2
Ignacia Fuentes
2
Daniela Contreras
2
Catalina Pérez
1
Laura Avendaño
1
Adolfo Bravo
1
Constanza Fajardo
1
Daniela Millalén
1
Camila Moreno
1
Belén Solís
1
TOTAL*
1264

* El número de grabaciones es mayor que el número de hablantes en el COSCACH porque determinadas grabaciones debieron ser descartadas por motivos técnicos.

 

Transcriptores

TRANSCRIPTOR
TRANSCRIPCIONES
Belén Solís
324
Ignacia Fuentes
246
Francisco Beltrán
150
Francisco Martínez
124
Majo Zanetta
103
Sebastián Zepeda
89
Mareba Torres
88
Scott Sadowsky
38
Andrea Noria
24
Ruth Contreras
11
Bárbara Galdames
11
Paola Vega
9
Roby Delgado
8
Javier Riquelme
5
Darío Fuentes
5
Paz Otth
4
Francisca Carrasco
4
Carla Cerda
4
Daniela Contreras
3
Daniela Millalén
2
Isabel Cayunao
2
María José Aninao
2
Constanza Fajardo
2
Maggie Mora
2
Guillermo Loyola
1
Maddy Rees
1
Camila Moreno
1
Diego Fuentes
1
TOTAL*
1264

* El número de transcripciones es mayor que el número de hablantes en el corpus porque algunas grabaciones debieron ser descartadas por motivos técnicos.

 

Postprocessing and database entry

  • Danitza Matus