Optional Sidebar Info

Any information can be placed in the sidebar to help your website visitors navigate your site.

To make a boxed heading like the one above, simply apply the H3 tag.

To make a box like this, assign the "sidebarlt" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

To make a box like this, assign the "sidebardk" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

This page in English

Corpus Dinámico del Castellano de Chile
(Codicach)

Scott Sadowsky

El Corpus Dinámico del Castellano de Chile (Codicach) es un corpus sincrónico del español escrito de Chile, compuesto de cerca de 800 millones de palabras en unos 1,3 millones de archivos y 102 subcorpora. Ha sido chunkeado, lematizado, y etiquetado con información sobre categorías gramaticales y relaciones sintácticas con el software Machinese Syntax de Connexor. Las facilidades de búsqueda y recuperación de información las proporciona el IMS Open Corpus Workbench.

¿Cómo citarlo? : Sadowsky, Scott. 2006. Corpus Dinámico del Castellano de Chile (Codicach). Base de datos electrónica. http://sadowsky.cl/codicach.html

Composición | Elaboración | Acceso | ¿Para qué se ha utilizado?

 

Composición

Muestreo

El Codicach es un corpus oportunista que privilegia el tamaño por sobre cuotas preestablecidas de determinados géneros textuales. Esta característica maximiza la utilidad del Codicach en los estudios léxicos y de fenómenos de baja frecuencia, entre otros, pero también hace necesario que el investigador seleccione cuidadosamente los géneros textuales que analizará en términos de su representatividad.

Canal

Casi la totalidad de los textos del Codicach proviene de fuentes escritas. Las transcripciones de discursos pronunciados en el Congreso constituyen la principal excepción.

Sintopía

Se ha hecho un gran esfuerzo por excluir del Codicach los textos escritos por autores no chilenos. Por citar dos ejemplos, en el ámbito periodístico se han excluido los artículos provenientes de agencias de noticias y de medios de prensa extranjeros; en el género académico, se han eliminado los artículos provenientes de universidades no chilenas, además de los resúmenes en inglés o francés de todos los artículos. No obstante este esfuerzo, no fue posible averiguar la nacionalidad de los autores de las cartas a medios de prensa ni de los aportes a foros electrónicos, entre otras cosas, por lo cual aún persiste en el corpus cierto número de textos no chilenos.

Sincronía

La mayor parte de los textos del Codicach fueron escritos entre 1997 y 2003. Las principales excepciones son los textos literarios, obras de consulta, leyes, jurisprudencia y publicidad, los cuales generalmente provienen de años anteriores a 1997.

Tamaño

El Codicach está compuesto de aproximadamente 800 millones de palabras de texto corrido (running text) en alrededor de 1,3 millones de archivos. En la mayoría de los géneros textuales, un archivo corresponde a un texto (nota periodística, artículo académico, e-mail, carta, fallo judicial, etc.). Sin embargo, en determinados géneros (foros electrónicos, Usenet, etc.) cada archivo contiene múltiples textos.

Estructura

El Codicach está compuesto de 102 subcorpora, organizados según la fuente textual. Las búsquedas pueden realizarse en cualquier subcorpus o conjunto de éstos.

Géneros textuales

Los diversos subcorpora del Codicach se han organizado en distintos géneros textuales funcionales. A continuación se presenta la composición de los géneros en términos del número de palabras y archivos que contienen.

Número de palabras del Codicach por género textual

Abrir en nueva ventana

 

Número de archivos del Codicach por género textual

Abrir en nueva ventana

 

Elaboración y procesamiento

Los textos que componen el Codicach fueron sometidos a una serie de procedimientos destinados a depurar el corpus lo más posible. Entre ellos, se destacan los siguientes:

  • Normalización del formato de los archivos
    Se convirtieron todos los archivos a texto plano codificado en ISO-8859-1 (Latin-1), con linebreaks tipo Windows/DOS..
  • Estandarización de caracteres
    Se estandarizó la representación de caracteres tales como el apóstrofo, las comillas, las fracciones y el símbolo copyright.
  • Eliminación de textos extranjeros
    Como se señala arriba, se eliminó del corpus el mayor número posible de textos provenientes de medios y agencias de prensa extranjeros, artículos académicos producidos por universidades no chilenas, resúmenes en idiomas extranjeros, etc.
  • Eliminación de metatexto y texto de plantilla
    Se sometieron los archivos del corpus a un meticuloso procesamiento tendiente a eliminar el metatexto, los encabezados de páginas, las listas de vínculos a otros sitios o páginas, los colofones, las listas de titulares, y cualquier otro texto repetitivo no relacionado con el texto principal.
  • Eliminación de duplicados y cuasiduplicados
    Se eliminaron del Codicach tanto los archivos duplicados como los cuasiduplicados: aquellos archivos que se distinguen solamente por la presencia, ausencia o diferencia en fechas, horas, etc. Para estos fines se empleó un plug-in de lógica difusa para el programa ABC-View, diseñado para el autor y generosamente donado al mismo por don Nils Haeck. El plug-in se aplicó al corpus con un grado de difusión de 50, lo cual significa que se eliminaron de él todos los textos con menos de 50 caracteres de diferencia entre sí.

 

Acceso

Por motivos de derechos de autor, el Codicach no se ha puesto en línea. Sin embargo, los investigadores que deseen utilizarlo pueden escribirme para colaborar directamente.

 

¿Para qué se ha utilizado?

A continuación se presenta una bibliografía parcial de publicaciones y proyectos de investigación que han utilizado el Codicach.

González, C. (por aparecer). Estrategias gramaticales de expresión de la evidencialidad en el español de Chile.

Soto, G., Sadowsky, S. & Martínez, R. 2010. Sobre el caso del caso. Las construcciones del tipo 'el caso + nominal' en un corpus de textos periodísticos chilenos. Boletín de Lingüística 22 (33). Bajar

Urrejola, K. "De que es raro, es raro": un análisis gramatical y pragmático-discursivo de estructuras independientes introducidas por "de que". Tesis de licenciatura. Pontificia Universidad Católica de Chile. Diciembre de 2010.

Hugo Rojas, E. (2010). Las formas de segunda persona singular como estrategias evidenciales. VI Congreso de la Asociación Latinoamericana de Estudios del Discurso (ALED). Universidad de Chile. Santiago, Chile.

González, C. & Hugo Rojas, E. (2010). "Cuando te lo piden, uno no siempre sabe qué decir": "Uno" y "tú" como estrategias evidenciales en el español de Chile. IV Congreso Internacional de Letras "Transformaciones Culturales: Debates de la teoría, la crítica y la lingüística en el Bicentenario". Universidad de Buenos Aires. Buenos Aires, Argentina. Noviembre de 2010.

González, C. (2010). Evidencialidad en el español de Chile. 26º Congreso Internacional de Lingüística y Filología Románica. Universidad de Valencia. Valencia, España. Septiembre de 2010.

González, C. (2010). El condicional de rumor: ¿modalidad epistémica o evidencialidad? Antecedentes para su discusión en el español de Chile. XII Congreso de la Sociedad Argentina de Lingüística. Universidad Nacional de Cuyo. Mendoza, Argetina. Abril de 2010.

Soto, G. (2009). Vigencia y significado del pretérito anterior. Un estudio a partir del español escrito en Chile. Estudios Filológicos 44: 227-241. Bajar

González, C. (2009). Formas gramaticales de expresión del significado evidencial en el español de Chile. XVIII Congreso de la Sociedad Chilena de Lingüística. Universidad de Chile, Santiago, Chile. Octubre de 2009.

González, C. (2009). Distribución de los significados de los verbos en condicional. XVIII Congreso de la Sociedad Chilena de Lingüística. Universidad de Chile. Santiago, Chile. Octubre de 2009.

González, C. & Hugo Rojas, E. (2009). "Uno" y "tú" en el continuo evidencial. Significados y distribución en un corpus de español de Chile. Poster presentation, XVIII Congreso de la Sociedad Chilena de Lingüística. Universidad de Chile. Santiago, Chile. Octubre de 2009.

González, C. (2009). Una aproximación inicial a las formas de expresión del significado evidencial en el español de Chile. Segundo Coloquio Nacional de Gramática, Pragmática y Discurso. Universidad de Concepción. Concepción, Chile. Agosto de 2009.

Hugo Rojas, E. (2009). Las formas de segunda persona singular como estrategias evidenciales. Descripción y análisis de significado evidencial en un corpus de español de Chile. Tesis de licenciatura. Pontificia Universidad Católica de Chile. Diciembre de 2009.

Soto, G., Martínez, R. & Sadowsky, S. (2006). Condicionantes pragmático-discursivos de le por les. IV Congreso Nacional de la Asociación Latinoamericana de Estudios del Discurso Estudios del Discurso (ALED Chile). Universidad Católica de Valparaíso. Valparaíso, Chile. Noviembre de 2006. Bajar

Soto, G., Martínez, R. & Sadowsky, S. (2005). Verbos y sustantivos en textos científicos. Análisis de variación en un corpus de textos de ciencias aplicadas, naturales, sociales y humanidades. Philologia Hispalensis (Sevilla) 19: 169-187. Bajar

Soto, G., Sadowsky, S. & Martínez, R. (2005). El caso del caso: Esquemas gramaticales de productividad restringida, marcos cognitivos y discurso. IV Congreso de la Asociación Latinoamericana de Estudios del Discurso (ALED). Universidad Católica de Chile. Santiago, Chile. 2005. Bajar

Martínez, R., Sadowsky, S. & Soto, G. (2004). El le invariable en el español escrito en Chile. Incidencias sintácticas y genéricas en el fenómeno. III Encuentro Nacional de Estudios del Discurso (ALED Chile). Universidad Austral de Chile. Valdivia, Chile. Septiembre - octubre de 2004. Bajar

Proyecto de investigación "El discurso científico escrito en ciencias naturales y sociales: un estudio comparativo de los textos de especialistas y estudiantes universitarios". Universidad de Chile. Financiamiento: Concurso de proyectos de investigación en ciencias sociales, humanidades y educación DID-2001, Universidad de Chile (Proyecto SOC-01/01-2). 2001-2003.

Proyecto de investigación "La función discursiva de los sintagmas nominales preverbales en el español oral y escrito en Chile". Universidad de Chile. Financiamiento: Concurso de Proyectos de Investigación, Dirección de Investigación, Facultad de Filosofía y Humanidades. 05/05/2005-05/05/2006.

 

Además, Una versión temprana del Codicach se utilizó para elaborar la Lista de Frecuencias de Palabras del Castellano de Chile (Lifcach).