Optional Sidebar Info

Any information can be placed in the sidebar to help your website visitors navigate your site.

To make a boxed heading like the one above, simply apply the H3 tag.

To make a box like this, assign the "sidebarlt" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

To make a box like this, assign the "sidebardk" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

This page in English

Frequency List Wizard

Versión 1.2.0

Frequency List Wizard es un programa que, desde la línea de comandos, realiza varias operaciones útiles con las listas de frecuencias. Es software libre, programado en Perl y publicado bajo la licencia GPL v3.

Bajar desde GitHub

Versiones antiguas

 

Cómo usarlo

Para procesar una lista de frecuencias con las opciones preconfiguradas de FLW, descomprima el archivo ZIP y haga lo siguiente:

EXE de Windows

  • Copiar el programa a la carpeta en la cual se encuentra la lista de frecuencias (o a una carpeta que esté en el PATH de Windows, como C:\Windows o C:\Windows\System32).
  • Abrir la consola (línea de comandos) presionando WIN + R y luego tipeando cmd.exe (se puede hacer lo mismo desde el recuadro de búsqueda del menú de inicio en Vista y Windows 7).
  • En la línea de comandos, navegar hasta la carpeta que contiene la lista de frecuencias con el comando cd.
  • Ejecutar el siguiente comando: frequency-list-wizard.exe -i su-lista.txt

Script de Perl

  • Hacer ejecutable el archivo .pl.
  • Copiarlo al directorio en el cual se encuentra la lista de frecuencias (o a un directorio que esté en el PATH).
  • Abrir un terminal y navegar hasta el directorio que contiene la lista de frecuencias.
  • Ejecutar el siguiente comando:
    • GNU/Linux: ./frequency-list-wizard.pl -i su-lista.txt
    • WIndows: perl frequency-list-wizard.pl -i su-lista.txt

Para obtener ayuda e información sobre el uso del programa, ejecútelo con la opción -h.

Descripción

Con su configuración por defecto, Frequency List Wizard toma una lista de frecuencias de dos columnas codificada en ISO-8859-1 (Latin-1), fusiona todas las entradas que varían sólo en términos del uso de mayúsculas o minúsculas (e.g. casa, Casa y CASA), y suma las frecuencias de cada uno de estos ítemes, calculando así la frecuencia total de cada conjunto (lo cual es casi seguramente lo que se requiere al trabajar con ítemes léxicos, lemas, etc.). Además, ordena los resultados según frecuencia, en orden descendente natural (1000, 200, 30, 1 en vez de 30, 200, 1000, 1), y los guarda en un archivo de texto.

Las listas de frecuencias de tres columnas (e.g. frecuencia + lema + CatGram) pueden procesarse con la opción -3c, la cual permite que contabilizar por separado palabras o lemas idénticos que corresponden a categorías gramaticales distintas (e.g. canto (SUST) y canto (VERBO)).

Si se desea, FLW también puede calcular el número total de types y tokens de la lista de frecuencias, además de la relación entre ellos (TTR) (estos cálculos se realizan por defecto; los resultados se incluyen al final del archivo de salida).

Optativamente, FLW puede eliminar las entradas que contienen numerales (con -nn) y/o signos de puntuatión (con -np). También puede fusionar ciertos alomorfos del castellano (y + e, o + u) con la opción -ma (ésta es la única función de FLW que se restringe a un idioma determinado). Estas tres opciones están activadas por defecto; se pueden desactivar con las opciones -nonn, -nonp y -noma. La diferencia entre el número de ítemes que contiene la lista de frecuencia que sirve como input, y el número de ítemes que efectivamente son procesados tras eliminar numerales, puntuación y/o alomorfos, se refleja en los conteos de types y tokens (INPUT_TYPES versus PROCESSED_TYPES, etc.).

Al procesar listas de frecuencias de tres columnas, la información sobre categorías gramaticales que (presumiblemente) se encuentra en la columna 3 puede reducirse si se encuentra en un formato similar al que emplea Connexor (e.g. @NH N MSC SG). La opción -kh (--killhead) elimina el inicio del campo (el primer bloque de caracteres más el primer espacio; en este caso, @NH ), mientras que la opción -kt (--killtail) elimina la parte final del campo (todo lo que se encuentra entre el segundo espacio y el final del string; MSC SG en este ejemplo). Al procesar información sobre la categoría gramatical que se encuentra en otro formato, sólo debe usarse la opción --posfull.

El modo de procesamiento "meta-frecuencias" (también conocido como "n-legomena"), que se activa con -mf o -hx, calcula la frecuencia de cada una de las frecuencias de la lista. Genera una lista de frecuencias de los distintos tipos de legómena (1-legómena, 2-legómena, etc.) o, dicho de otro modo, de cuántos ítemes ocurren 1 vez, 2 veces, etc.

Opciones

   
   
-i, --input   Nombre de la lista de frecuencias. ¡OBLIGATORIO! El archivo debe ser del tipo ISO-8859-1 (Latin-1).
-o, --output   Nombre del archivo de salida. Si no se especifica, se generará un nombre automáticamente, a partir del nombre de la lista de frecuencias.
-ps,--print-stats   Calcular e imprimir estadísticas sobre los types y tokens, y la relación que existe entre ellos (TTR). (ACTIVADO POR DEFECTO).
-mf, --meta-freq   Calcular la frecuencia de cada una de las frecuencias de la lista, es decir, generar una lista de n-legómena.
-leg, --legomena   Igual que -mf o --meta-freq.
-nn, --nonums   Eliminar de la lista de frecuencias aquellos ítemes que contienen números (e.g. gatita7).
-np, --nopunct   Eliminar de la lista de frecuencias aquellos ítemes que contienen signos de puntuación (e.g. a@b.com).
-ma, --mergeallo   Fusionar ciertos alomorfos del castellano (e.g. y + e, o + u).
-3c, --3-col   Procesar listas de tres columnas. Permite procesar, por ejemplo, palabras idénticas que corresponden a categorías gramaticales o lemas distintos (e.g. "canto" (SUST SG MSC) y "canto" (V 1SG PRES IND)).
-kh, -killhead   En el caso de listas que proporcionan información sintáctica como el primer componente de la categoría gramatical o POS (@NH en el output de Connexor ), eliminar esta información, dejando sólo la que corresponde a la categoría gramatical misma. FLW supone que esta información se encuentra en la tercera columna.
-kt, -killtail   En listas que contienen información sobre la categoría gramatical (POS), eliminar toda esta información excepto la categoría gramatical general (e.g. DET MSC SG pasa a ser sólo DET). Esto activa --killhead automáticamente.
-so, --spliton   Especificar el carácter que marca la división de columnas en la lista de frecuencias. El valor por defecto es \t (tab/sangría).
-d, --delimiter   Especificar el carácter que se utiliza para señalar la división de columnas en el archivo de salida. Si se ingresa t, se utilizará \t. El valor por defecto es \t (tab/sangría).
-st,--spaces-split   Tratar dos o más espacios como el carácter que divide columnas en la lista de frecuencias. Hay que tener cuidado con esta opción, ya que cualquier espacio extra producirá consecuencias no deseadas.
-db, --debug   Mostrar información de debugging.
-h, --help   Mostrar la ayuda del programa.
   

Meta-configuraciones

   
   
-w, --words   Procesar la lista de frecuencias como una lista de palabras (2 columnas: FREC, PALABRA).
-l, --lemmas   Procesar la lista de frecuencias como una lista de lemas (2 columnas: FREC, LEMA).
-pm, --posmin   Procesar la lista de frecuencias como una lista de categorías gramaticales mínimas (2 columnas: FREC, CatGram. Elimina el inicio y final de CatGram).
-p, --pos   Procesar la lista de frecuencias como una lista de categorías gramaticales parciales (2 columnas: FREC, CatGram. Elimina el inicio de CatGram, pero deja el final intacto).
-pf, --posfull   Procesar la lista de frecuencias como una lista de categorías gramaticales completas (2 columnas: FREC, CatGram. Deja todo el campo CatGram intacto).
-sr, --synrel   Procesar la lista de frecuencias como una lista de relaciones sintácticas (2 columnas: FREC, RELSIN. Desactiva automáticamente las opciones que podrían resultar destructivas).
-wp, --wordpos   Procesar la lista de frecuencias como una lista de palabras + CatGram (3 columnas: FREC, PALABRA, CatGram. Elimina el inicio y final de CatGram, además de los números y signos de puntuación).
-lp, --lemmapos   Procesar la lista de frecuencias como una lista de lemas + CatGram (3 columnas: FREC, LEMA, CatGram. Elimina el inicio y final de CatGram, además de los números y signos de puntuación).

 

 

Versiones antiguas

EXE para Windows: Local - Externo
Script de Perl / código fuente: Local - Externo