This page in English

Frequency List Wizard

Versión 1.2.0

Frequency List Wizard es un programa que, desde la línea de comandos, realiza varias operaciones útiles con las listas de frecuencias. Es software libre, programado en Perl y publicado bajo la licencia GPL v3.

Bajar desde GitHub

Versiones antiguas

Cómo usarlo

Para procesar una lista de frecuencias con las opciones preconfiguradas de FLW, descomprima el archivo ZIP y haga lo siguiente:

EXE de Windows

Copiar el programa a la carpeta en la cual se encuentra la lista de frecuencias (o a una carpeta que esté en el PATH de Windows, como C:\Windows o C:\Windows\System32).
Abrir la consola (línea de comandos) presionando WIN + R y luego tipeando cmd.exe (se puede hacer lo mismo desde el recuadro de búsqueda del menú de inicio en Vista y Windows 7).
En la línea de comandos, navegar hasta la carpeta que contiene la lista de frecuencias con el comando cd.
Ejecutar el siguiente comando: frequency-list-wizard.exe -i su-lista.txt

Script de Perl

Hacer ejecutable el archivo .pl.
Copiarlo al directorio en el cual se encuentra la lista de frecuencias (o a un directorio que esté en el PATH).
Abrir un terminal y navegar hasta el directorio que contiene la lista de frecuencias.
Ejecutar el siguiente comando:
- GNU/Linux: ./frequency-list-wizard.pl -i su-lista.txt
- WIndows: perl frequency-list-wizard.pl -i su-lista.txt

Para obtener ayuda e información sobre el uso del programa, ejecútelo con la opción -h.

Descripción

Con su configuración por defecto, Frequency List Wizard toma una lista de frecuencias de dos columnas codificada en ISO-8859-1 (Latin-1), fusiona todas las entradas que varían sólo en términos del uso de mayúsculas o minúsculas (e.g. casa, Casa y CASA), y suma las frecuencias de cada uno de estos ítemes, calculando así la frecuencia total de cada conjunto (lo cual es casi seguramente lo que se requiere al trabajar con ítemes léxicos, lemas, etc.). Además, ordena los resultados según frecuencia, en orden descendente natural (1000, 200, 30, 1 en vez de 30, 200, 1000, 1), y los guarda en un archivo de texto.

Las listas de frecuencias de tres columnas (e.g. frecuencia + lema + CatGram) pueden procesarse con la opción -3c, la cual permite que contabilizar por separado palabras o lemas idénticos que corresponden a categorías gramaticales distintas (e.g. canto (SUST) y canto (VERBO)).

Si se desea, FLW también puede calcular el número total de types y tokens de la lista de frecuencias, además de la relación entre ellos (TTR) (estos cálculos se realizan por defecto; los resultados se incluyen al final del archivo de salida).

Optativamente, FLW puede eliminar las entradas que contienen numerales (con -nn) y/o signos de puntuatión (con -np). También puede fusionar ciertos alomorfos del castellano (y + e, o + u) con la opción -ma (ésta es la única función de FLW que se restringe a un idioma determinado). Estas tres opciones están activadas por defecto; se pueden desactivar con las opciones -nonn, -nonp y -noma. La diferencia entre el número de ítemes que contiene la lista de frecuencia que sirve como input, y el número de ítemes que efectivamente son procesados tras eliminar numerales, puntuación y/o alomorfos, se refleja en los conteos de types y tokens (INPUT_TYPES versus PROCESSED_TYPES, etc.).

Al procesar listas de frecuencias de tres columnas, la información sobre categorías gramaticales que (presumiblemente) se encuentra en la columna 3 puede reducirse si se encuentra en un formato similar al que emplea Connexor (e.g. @NH N MSC SG). La opción -kh (--killhead) elimina el inicio del campo (el primer bloque de caracteres más el primer espacio; en este caso, @NH ), mientras que la opción -kt (--killtail) elimina la parte final del campo (todo lo que se encuentra entre el segundo espacio y el final del string; MSC SG en este ejemplo). Al procesar información sobre la categoría gramatical que se encuentra en otro formato, sólo debe usarse la opción --posfull.

El modo de procesamiento "meta-frecuencias" (también conocido como "n-legomena"), que se activa con -mf o -hx, calcula la frecuencia de cada una de las frecuencias de la lista. Genera una lista de frecuencias de los distintos tipos de legómena (1-legómena, 2-legómena, etc.) o, dicho de otro modo, de cuántos ítemes ocurren 1 vez, 2 veces, etc.

Opciones

-i, --input		Nombre de la lista de frecuencias. ¡OBLIGATORIO! El archivo debe ser del tipo ISO-8859-1 (Latin-1).
-o, --output		Nombre del archivo de salida. Si no se especifica, se generará un nombre automáticamente, a partir del nombre de la lista de frecuencias.
-ps,--print-stats		Calcular e imprimir estadísticas sobre los types y tokens, y la relación que existe entre ellos (TTR). (ACTIVADO POR DEFECTO).
-mf, --meta-freq		Calcular la frecuencia de cada una de las frecuencias de la lista, es decir, generar una lista de n-legómena.
-leg, --legomena		Igual que -mf o --meta-freq.
-nn, --nonums		Eliminar de la lista de frecuencias aquellos ítemes que contienen números (e.g. gatita7).
-np, --nopunct		Eliminar de la lista de frecuencias aquellos ítemes que contienen signos de puntuación (e.g. a@b.com).
-ma, --mergeallo		Fusionar ciertos alomorfos del castellano (e.g. y + e, o + u).
-3c, --3-col		Procesar listas de tres columnas. Permite procesar, por ejemplo, palabras idénticas que corresponden a categorías gramaticales o lemas distintos (e.g. "canto" (SUST SG MSC) y "canto" (V 1SG PRES IND)).
-kh, -killhead		En el caso de listas que proporcionan información sintáctica como el primer componente de la categoría gramatical o POS (@NH en el output de Connexor ), eliminar esta información, dejando sólo la que corresponde a la categoría gramatical misma. FLW supone que esta información se encuentra en la tercera columna.
-kt, -killtail		En listas que contienen información sobre la categoría gramatical (POS), eliminar toda esta información excepto la categoría gramatical general (e.g. DET MSC SG pasa a ser sólo DET). Esto activa --killhead automáticamente.
-so, --spliton		Especificar el carácter que marca la división de columnas en la lista de frecuencias. El valor por defecto es \t (tab/sangría).
-d, --delimiter		Especificar el carácter que se utiliza para señalar la división de columnas en el archivo de salida. Si se ingresa t, se utilizará \t. El valor por defecto es \t (tab/sangría).
-st,--spaces-split		Tratar dos o más espacios como el carácter que divide columnas en la lista de frecuencias. Hay que tener cuidado con esta opción, ya que cualquier espacio extra producirá consecuencias no deseadas.
-db, --debug		Mostrar información de debugging.
-h, --help		Mostrar la ayuda del programa.

Meta-configuraciones

-w, --words		Procesar la lista de frecuencias como una lista de palabras (2 columnas: FREC, PALABRA).
-l, --lemmas		Procesar la lista de frecuencias como una lista de lemas (2 columnas: FREC, LEMA).
-pm, --posmin		Procesar la lista de frecuencias como una lista de categorías gramaticales mínimas (2 columnas: FREC, CatGram. Elimina el inicio y final de CatGram).
-p, --pos		Procesar la lista de frecuencias como una lista de categorías gramaticales parciales (2 columnas: FREC, CatGram. Elimina el inicio de CatGram, pero deja el final intacto).
-pf, --posfull		Procesar la lista de frecuencias como una lista de categorías gramaticales completas (2 columnas: FREC, CatGram. Deja todo el campo CatGram intacto).
-sr, --synrel		Procesar la lista de frecuencias como una lista de relaciones sintácticas (2 columnas: FREC, RELSIN. Desactiva automáticamente las opciones que podrían resultar destructivas).
-wp, --wordpos		Procesar la lista de frecuencias como una lista de palabras + CatGram (3 columnas: FREC, PALABRA, CatGram. Elimina el inicio y final de CatGram, además de los números y signos de puntuación).
-lp, --lemmapos		Procesar la lista de frecuencias como una lista de lemas + CatGram (3 columnas: FREC, LEMA, CatGram. Elimina el inicio y final de CatGram, además de los números y signos de puntuación).

Versiones antiguas

EXE para Windows: Local - Externo
Script de Perl / código fuente: Local - Externo

ENGLISH

CASTELLANO

Optional Sidebar Info