This page in English

Lista de Frecuencias de Palabras del Castellano de Chile (Lifcach)

Versión 2.0

Scott Sadowsky & Ricardo Martínez Gamboa

Bajar la Lifcach 2.0 (CSV en un ZIP): Local | Mirror (8.8 MB)
Bajar el archivo Readme (PDF)

Al final de la página hay enlaces para bajar las versiones 1.0 y 1.1.

¿Cómo citarla?

Sadowsky, Scott, & Martínez-Gamboa, Ricardo. 2012. LIFCACH 2.0: Word Frequency List of Chilean Spanish (Lista de Frecuencias de Palabras del Castellano de Chile), version 2.0. Zenodo. http://doi.org/10.5281/zenodo.268043

(Para citar las versiones 1.0 y 1.1: Scott & Ricardo Martínez-Gamboa. 2004. Lista de Frecuencias de Palabras del Castellano de Chile (Lifcach) .Version 1.0/1.1. Electronic database. http://sadowsky.cl/lifcach.html)

 

Descripción

La Lista de Frecuencias de Palabras del Castellano de Chile (Lifcach) es un conjunto de 102 listas de frecuencias léxicas derivadas de los distintos subcorpora del Corpus Dinámico del Castellano de Chile (Codicach), un corpus del español escrito contemporáneo de Chile desarrollado por Sadowsky entre 1997 y 2002; este corpus contenía aproximadamente 450 millones de palabras a la hora de elaborar la Lifcach (actualmente contiene alrededor de 800 millones de palabras). La Lifcach también contempla una lista no ponderada de frecuencias totales (la columna titulada Total Occurrences), la cual es simplemente la suma de las frecuencias de las 102 listas individuales (en otras palabras, es la lista de las frecuencias del Codicach en su totalidad).

El Codicach es un corpus oportunista que privilegia, entre otras cosas, los medios de prensa escritos. Tal como está estructurado, no pretende ser una muestra representativa de la variante lingüística nacional, al estilo del BNC. Sin embargo, la naturaleza modular del Codicach y de las 102 listas individuales de la Lifcach permite a los investigadores utilizar una o más de estas listas de manera independiente; combinarlas según sus propias necesidades; o ponderar las listas individuales de la Lifcach para así crear una nueva lista de frecuencias que sea representativa según los criterios del investigador.

La Lifcach 2.0 contiene 476.776 lemas, derivados de aproximadamente 4,5 millones de types extraídos de los 450 millones de palabras de texto corrido que contemplaba el Codicach al momento de elaborar la Lifcach.

Historial de cambios

Versión 2.0
  • Esta versión corrige un error que se produjo en un pequeño número de casos en los cuales se trataron palabras con más de una categoría gramatical como palabras distintas. Gracias a José Joaquín Atria por su ayuda en corregir el problema.
Versión 1.1
  • Nueva estadística: número de ocurrencias de cada lema por millón de palabras del texto fuente.
  • Nueva información: cifras sobre el número total de tokens de cada subcorpus.

¿Para qué se ha usado?

Una bibliografía parcial de obras que utilizan la Lifcach:

Calude, A. & Pagel, M. (2011). How do we use language? Shared patterns in the frequency of word use across 17 world languages. Philosophical Transactions of the Royal Society B 366 (1567): 1101-1107. Bajar.

Ibáñez, A., Gleichgerecht, E., Hurtado, E., González, R., Haye, A. & Manes, F. (2010). Early Neural Markers of Implicit Attitudes: N170 Modulated by Intergroup and Evaluative Contexts in IAT. Frontiers in Human Neuroscience 4 (188). Bajar.

Cornejo, C., Simonetti, F., Ibáñez, A., Aldunate, N., Ceric, F., López, V. & Núñez, R. (2009). Gesture and metaphor comprehension: Electrophysiological evidence of cross-modal coordination by audiovisual stimulation. Brain and Cognition 70: 42-52. Bajar.

Hurtado, E., Haye, A., González, R., Manes, F. & Ibáñez, A. (2009). Contextual blending of ingroup/outgroup face stimuli and word valence: LPP modulation and convergence of measures. BMC Neuroscience 10 (69). Artículo. Datos suplementarios.

Cornejo, C., Ibañez, A. & Lopez, V., (2008). Significado, contexto y experiencia: Evidencias conductuales y electrofisiológicas del holismo del significado. En: C. Cornejo and E. Kronmüller (ed.), La pregunta por la mente: Aproximaciones desde Latinoamérica. Chile: J.C. Saez Editor. Bajar capítulo .

Rojo, G. (2008). Lingüística de corpus y lingüística del español. Plenary conference, ALFAL 15 (Montevideo, 18-21 August 2008). Bajar.

Ibáñez, A. López, V. & Cornejo, C. (2006). ERPs and contextual semantic discrimination: Degrees of congruence in wakefulness and sleep. Brain and Language 98 (3): 264:275. Bajar.

Si utilizas la Lifcach en tus investigaciones, por favor mándame un mail para avisarme.

 

Elaboración de la Lifcach

A continuación se presentan los pasos de la creación de la Lifcach:

  1. Se generaron listas de frecuencias de types en base a las palabras de texto corrido de cada uno de los 102 subcorpora del Codicach.
  2. Se lematizó y etiquetó con categorías gramaticales (POS) cada una de las listas de frecuencias de types con el programa MS-Tools v2.0 de la Universitat Politecnica de Catalunya (para más información sobre MS-Tools, comuníquese con Lluís Padró).
  3. Se creó una versión algo más compacta de la Lifcach, de la cual se eliminaron los aproximadamente 300.000 lemas con una frecuencia de 1 (hápax legómenos). La eliminación de estos lemas representa un intento de establecer un equilibrio entre la completitud de las listas y el tamaño y procesabilidad de los archivos.
  4. Las listas de frecuencias de lemas resultantes se incorporaron en un archivo CSV, y luego se calcularon las frecuencias totales.

Es preciso hacer una advertencia respecto de esta metodología. La utilización de listas de frecuencias de types en vez de palabras de texto corrido en el proceso de lematización y etiquetado POS surgió de una necesidad práctica relacionada con la velocidad del software y los recursos computacionales disponibles en el momento de la elaboración de la Lifcach. En consecuencia, el software debió analizar palabras como canto sin disponer de la información necesaria para determinar si una instancia dada de esta palabra correspondía al verbo cantar o al sustantivo canto. La eliminación del contexto redujo la precisión del etiquetado y lematización, aunque mucho menos de lo que sucedería en el caso del inglés, gracias a la compleja morfología del castellano.

También debe notarse que el software de etiquetado POS y lematización que se utilizó está basado en el castellano de España, un dialecto nacional que es un tanto alejado del castellano de Chile.

Advertencia

La Lifcach no debe abrirse en versiones de Microsoft Excel anteriores a Excel 2007, ya que sólo pueden abrir las primeras 65.000 filas (aproximadamente).

Uso

La Lifcach está protegida por las leyes de propiedad intelectual (Copyright © 2006 - 2012 Scott Sadowsky & Ricardo Martínez Gamboa). La Lifcach puede utilizarse libre y gratuitamente para fines académicos que no tengan fines de lucro, siempre que se cite la fuente. Se prohíbe expresamente todo uso o aplicación comercial de la Lifcach que no cuente con el consentimiento escrito previo de los autores.

Más información

Para más información sobre la Lifcach, véase el archivo README.

Bajar la Lifcach

Bajar la Lifcach 2.0 (CSV en un ZIP): Local | Mirror (8.8 MB)
Bajar el archivo Readme (PDF)

 

Versiones antiguas

Versión 1.1

Bajar versión completa de la Lifcach 1.1
CSV
(9.8 MB)
Excel 2007 (161 MB)

Bajar versión de la Lifcach 1.1 sin hápax legómena
CSV
(7.2 MB)
Excel 2007 (114 MB)

Archivo README: Local | Mirror

 

Versión 1.0

Bajar Lifcach 1.0 (CSV): Servidor 1 · Servidor 2
Bajar Lifcach 1.0 (Excel 2007): Servidor 1
Bajar Readme 1.0 (RTF): Local ·Mirror