This page in English
Corpus Oral Sociolingüístico del Castellano
de Chile
(COSCACH)
El Corpus Oral Sociolingüístico del Castellano de Chile (COSCACH) es una masiva base de datos electrónica que recoge la producción lingüística de chilenos mediante tecnología de punta y metodologías sociolingüísticas modernas. Contiene un total de 9.288.301 tokens, 68.705 tipos y 1.061.711 enunciados, provenientes de 83.002 minutos de grabaciones de audio.
El propósito del COSCACH es posibilitar la investigación empírica de gran escala de una amplia gama de fenómenos lingüísticos y, a la vez, permitir que dichos fenómenos se analicen en términos de las variables sociales más relevantes.
El COSCACH contempla 1.237 hablantes nativos del castellano chileno más una muestra de control de 21 hablantes nativos de variedades nacionales no chilenas, todos quienes realizan una amplia gama de actividades de elicitación, desde la lectura de pares mínimos hasta una larga conversación sin estructura y máximamente informal.
Los hablantes chilenos están estratificados según seis variables sociales: localidad, estrato socioeconómico (mediante el sistema EMIS), sexo, edad/generación, etnia y lingüismo (monolingüe en castellano o bilingüe en castellano y mapudungun). Adicionalmente, se categorizan según cinco variables derivadas de su localidad: urbanidad, población de la localidad, región, distancia desde Santiago y tiempo de viaje desde Santiago.
Las transcripciones de las grabaciones se lematizaron y se etiquetaron morfológicamente con la versión chilena de FreeLing. El COSCACH puede consultarse, mediante IMS Open Corpus Workbench y CQPweb, en corpora.pro.
El paper que da a conocer el COSCACH es el siguiente:
Sadowsky, Scott. 2022. The Sociolinguistic Speech Corpus of Chilean Spanish (COSCACH). A socially stratified text, audio and video corpus with multiple speech styles. International Journal of Corpus Linguistics. DOI: 10.1075/ijcl.19103.sad. Bajar PDF · Ver en International Journal of Corpus Linguistics
Finalmente, puedes acceder al COSCACH en corpora.pro.
El COSCACH en cifras
El COSCACH consta de:
- Grabaciones de audio y video de 1.237 hablantes chilenos (mitad mujeres y mitad hombres) y 21 hispanoparlantes no chilenos.
- Transcripciones ortográficas y fonémicas de las mismas grabaciones. Las transcripciones se realizaron con Praat, y están segmentadas y alineadas temporalmente a nivel de enunciado.
- 9.288.301 palabras de texto corrido (el conteo de palabras sólo contempla lo dicho por los informantes).
- 83.002 minutos de grabaciones, lo cual equivale a 1383,4 horas o 172,9 jornadas de ocho horas.
La muestra de hablantes chilenos del COSCACH tiene la siguiente estructura:
- 2 tipos de "lingüismo": Monolingüe en castellano, bilingüe en mapudungun y castellano.
- 2 etnias: Hispano-chileno, mapuche.
- 6 niveles socioeconómicos: A, B, Ca, Cb, D, E (del más alto al más bajo) del sistema de estratificación EMIS.
- 2 sexos.
- Entre 1 y 5 grupos etarios, según la localidad: 16-24, 25-34, 35-49, 50-64, y 65 o más años de edad.
- Hablantes hispano-chilenos provenientes de Arica, Antofagasta, La Serena, Santiago, Curicó, Concepción, Tirúa, Temuco, Melipeuco, Valdivia y Chiloé.
- Hablantes mapuches monolingües en castellano provenientes de Santiago, Tirúa, Temuco, Melipeuco y Chiloé.
- Hablantes bilingües en mapudungun y castellano de toda la zona de Wallmapu (el territorio tradicionalmente habitado por los mapuches en Chile).
La muestra de control de hispanoparlantes nativos no chilenos contempla personas provenientes de Argentina, Bolivia, Colombia, Cuba, México, Paraguay, Perú y Venezuela.
Se aplicaron los siguientes instrumentos de elicitación a cada hablante:
- Entrevista conversacional basada en los intereses de los hablantes; sin preguntas preestablecidas ni otra estructura. Busca elicitar muestras de habla máximamente espontáneas.
- Entrevista sobre actitudes lingüísticas basada en un cuestionario.
- Lectura de textos significativos.
- Lectura de pares mínimos y listas de palabras para elicitar muestras de habla máximamente controladas.
- Pronunciación sostenida de vocales para la investigación de la calidad de la voz.
Grabación
El COSCACH se diseñó desde un comienzo para permitir las investigaciones fonéticas más exigentes, por lo cual se tomaron estrictas medidas para asegurar que las grabaciones fueran "a prueba del futuro" y de máxima calidad.
Para las grabaciones de audio, utilizamos grabadoras digitales Fostex FR-2LE y micrófonos Audix HT5. La Fostex, que es conocida por sus preamplificadores de alta calidad, ha permitido trabajar con mayor facilidad y movilidad, mientras que el micrófono Audix, el cual se coloca en la cabeza del hablante, ha demostrado una y otra vez que produce grabaciones de una calidad realmente impresionante. Además de su respuesta de frecuencias casi totalmente plana, el HT5 tiene una relación señal-ruido espectacular gracias a que se coloca a meros centímetros de la boca del hablante.
Extracción y análisis
Con el fin de posibilitar la recuperación y análisis eficiente y de gran escala de los contenidos del COSCACH, todas las grabaciones de audio están segmentadas y transcritas ortográficamente con Praat. Luego, las transcripciones ortográficas son silabificadas y transcritas fonémicamente con Perkins, un programa que creé para esta finalidad. La recuperación de las transcripciones y/o de las grabaciones correspondientes (a nivel de enunciado) se lleva a cabo con MaSCoT.
Además, para las investigaciones que no se relacionan con la fonética ni con la fonología, las transcripciones de las entrevistas...
- se extraen...
- se etiquetan con la versión chilena de FreeLing, que lematiza, parsea, asigna categorías gramaticales (partes de la oración), etc...
- se compilan con IMS Open Corpus Workbench, para así crear un corpus que permita realizar búsquedas y recuperar resultados...
- se importan en CQP Web, el cual brinda una inferfaz potente y amigable para trabajar con las transcripciones del COSCACH, su lematización y etiquetado morfológico, y la totalidad de sus metadatos.
Acceso
Los investigadores pueden acceder a las transcripciones lematizadas y etiquetadas del COSCACH de manera libre y gratuita en corpora.pro. Sólo require crear una cuenta en el sitio. Las grabaciones todavía no están disponbiles al público, ya que primero deben revisarse y, cuando sea necesario, censurarse, para así resguardar la privacidad y anonimato de los hablantes.
El equipo COSCACH
Investigador principal
Dr. Scott Sadowsky
Pontificia Universidad Católica de Chile (Santiago, Chile) y Max Planck Institute for the Science of Human History (Jena, Alemania)
Trabajadores de campo
TRABAJADOR DE CAMPO | GRABACIONES |
María José Aninao | 343 |
Beatriz Yáñez | 266 |
Scott Sadowsky | 175 |
Sebastián Zepeda | 108 |
Ruth Contreras | 99 |
Bárbara Galdames | 88 |
Camila Aedo | 59 |
Tiare Araya | 30 |
Edson Salgado | 27 |
Lorena Perdomo | 24 |
Viviana Vergara | 18 |
Andrea Osorio | 5 |
Francisca Morales | 4 |
Matt Muñoz | 3 |
Camila Valdebenito | 2 |
Javiera Solís | 2 |
Ignacia Fuentes | 2 |
Daniela Contreras | 2 |
Catalina Pérez | 1 |
Laura Avendaño | 1 |
Adolfo Bravo | 1 |
Constanza Fajardo | 1 |
Daniela Millalén | 1 |
Camila Moreno | 1 |
Belén Solís | 1 |
TOTAL* |
1264 |
* El número de grabaciones es mayor que el número de hablantes en el COSCACH porque determinadas grabaciones debieron ser descartadas por motivos técnicos.
Transcriptores
TRANSCRIPTOR |
TRANSCRIPCIONES |
---|---|
Belén Solís | 324 |
Ignacia Fuentes | 246 |
Francisco Beltrán | 150 |
Francisco Martínez | 124 |
Majo Zanetta | 103 |
Sebastián Zepeda | 89 |
Mareba Torres | 88 |
Scott Sadowsky | 38 |
Andrea Noria | 24 |
Ruth Contreras | 11 |
Bárbara Galdames | 11 |
Paola Vega | 9 |
Roby Delgado | 8 |
Javier Riquelme | 5 |
Darío Fuentes | 5 |
Paz Otth | 4 |
Francisca Carrasco | 4 |
Carla Cerda | 4 |
Daniela Contreras | 3 |
Daniela Millalén | 2 |
Isabel Cayunao | 2 |
María José Aninao | 2 |
Constanza Fajardo | 2 |
Maggie Mora | 2 |
Guillermo Loyola | 1 |
Maddy Rees | 1 |
Camila Moreno | 1 |
Diego Fuentes | 1 |
TOTAL* |
1264 |
* El número de transcripciones es mayor que el número de hablantes en el corpus porque algunas grabaciones debieron ser descartadas por motivos técnicos.
Postprocessing and database entry
- Danitza Matus