Optional Sidebar Info

Any information can be placed in the sidebar to help your website visitors navigate your site.

To make a boxed heading like the one above, simply apply the H3 tag.

To make a box like this, assign the "sidebarlt" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

To make a box like this, assign the "sidebardk" class.

You can do anything with a sidebar box. Insert images, ads or other web content.

Here's a text link.

This page in English

Perkins

El ayudante del fonetista

Versión 1.0.6

Perkins: El ayudante del fonetista es un programa que transcribe fonémicamente, silabiza y asigna acentos y pausas a textos ortográficos en castellano. También puede analizar los textos en términos de CV, punto de articulación y modo de articulación, entre otros. Perkins es altamente configurable, mediante las opciones que se le proporcionan en el terminal (la línea de comandos).

Perkins está escrito en Perl. Para ejecutarlo probablemente vas a tener que instalar algunos módulos de CPAN. Si quieres evitar este paso, puedes utilizar la versión .exe para Windows o la versión binaria para Linux.

Favor de informar de errores o problemas a esta dirección de e-mail.

Cómo citarlo: Sadowsky, Scott. 2016. Perkins - The Phonetician's Assistant. Versión 1.0.6. Software. http://sadowsky.cl/perkins.html

Bajar desde GitHub

Versiones antiguas

 

Publicado bajo la licencia GNU AGPLv3
GNU AGPL v3

 

Instalación y uso

Para procesar un texto utilizando las opciones preconfiguradas de Perkins, descomprime el archivo ZIP y haz lo siguiente:

Script de Perl (.pl)

  • Hacer ejecutable el archivo perkins-1.0.5.pl
  • Copiarlo al directorio donde se encuentra el texto a procesar (o a un directorio que esté en la ruta de tu sistema operativo).
  • Abrir un terminal y navegar hasta el directorio que contiene Perkins y el archivo a procesar.
  • Ejecutar el siguiente comando: ./perkins-1.0.5.pl -i textofuente.txt

Ejecutable de Windows (.exe)

  • Copiar el programa ( perkins-win-x86-1.0.5.exe o perkins-win-x64-1.0.5.exe) a la carpeta donde se ubica el texto que se quiere procesar (o a una carpeta que esté en la ruta de Windows, como C:\Windows o C:\Windows\System32, para evitar esta molestia).
  • Abrir la línea de comandos (terminal, consola) pulsando WINDOWS+R y tipeando cmd.exe (también se puede tipear esto en el cuadro de búsqueda del menú de inicio en Vista o Windows 7).
  • En la línea de comandos, navegar a la carpeta que contiene Perkins y el archivo que contiene el texto a procesar, con el comando cd.
  • Tipear lo siguiente: perkins-win-x86-1.0.5.exe -i textofuente.txt (o, si es el caso, perkins-win-x64-1.0.5.exe -i textofuente.txt).

Binario GNU/Linux (.bin)

  • Hacer ejecutable el archivo perkins.bin (o perkins-beta.bin).
  • Copiarlo al directorio donde se encuentra el texto a procesar (o a un directorio que esté en el path de tu versión de GNU/Linux).
  • Abrir un terminal y navegar hasta el directorio que contiene Perkins y el archivo a procesar.
  • Ejecutar el siguiente comando: ./perkins-x86-1.0.5.bin -i textofuente.txt (o, si estás usando la versión de 64 bits, ./perkins-x64-1.0.5.bin -i textufuente.txt).

Para cambiar el idioma de la interfaz del programa, ejecútalo con -eng o -esp para inglés o español, respectivamente.

Cómo obtener ayuda

Ejecuta Perkins con la opción -h para leer la ayuda del programa, y con la opción -u para ver información sobre su uso.

Ten en cuenta que la línea de comandos de Windows no es capaz de mostrar texto en Unicode, por lo cual los símbolos fonéticos y los caracteres con tilde que figuran en la ayuda e información de uso del programa no se muestran correctamente en Windows. En estos casos, es recomendable guardar una copia de la presente página web.

Debe señalarse que este comportamiento NO afecta las transcripciones de Perkins de manera alguna.

Requisitos adicionales

Los archivos a transcribir deben ser texto plano codificado en ISO-8859-1 (Latin-1). Las transcripciones son archivos de texto plano codificados en UTF-8 (Unicode). Para visualizar las transcripciones de Perkins de manera correcta, se necesita lo siguiente:

  • Una fuente tipográfica Unicode con símbolos AFI, como Charis SIL o Doulos SIL. MS Arial Unicode también funciona, aunque tiene problemas para mostrar ciertos símbolos fonéticos y muchos diacríticos.
  • Un programa que tenga la capacidad de mostrar texto Unicode. En Linux, casi no hay programas que no tengan esta capacidad. En Windows, se puede utilizar Notepad++ (un excelente editor de textos de fuente abierta), o bien se puede abrir la transcripción en una versión moderna de MS Word.
  • Independiente del software que se utiliza, es necesario asignar la fuente Unicode arriba señalada al texto de la transcripción.

Información general sobre el uso

En el resto de este documento, se usa perkins-1.0.5.pl en los ejemplos; cámbialo al nombre de la versión del programa que estás usando.

  • Las opciones pueden ingresarse con - o --, indistintamente. El signo = es optativo. De este modo, los siguientes comandos producen exactamente el mismo resultado:
    • perkins-1.0.5.pl --i=inputfile.txt
    • perkins-1.0.5.pl -i=inputfile.txt
    • perkins-1.0.5.pl -i inputfile.txt
  • El orden de las opciones y de los nombres de archivos es irrelevante.
  • La mayoría de las opciones binarias pueden invertirse insertando no entre el guión y la opción misma (e.g. -mc puede desactivarse con -nomc).
  • El número de opciones que se pueden especificar no tiene límite.
  • Si el nombre de un archivo contiene espacios o ciertos caracteres especiales, debe ingresarse entre comillas.
  • Si no se especifica un nombre para el archivo de salida (la transcripción), se genera un nombre automáticamente, a partir del nombre base del archivo de input y con una extensión que refleja el modo de transcripción.

Cómo seleccionar un modo de transcripción

  • El modo o formato de transcripción puede elegirse desde la línea de comandos de dos maneras: -f=MODO y -MODO.
  • Los modos válidos son: F, CV, CVG, CVN, M, P, S (para mayores detalles, ver abajo) .

Opciones de procesamiento

Opciones principales

-i fuente.txt
--input=fuente.txt
  Especificar el archivo a procesar. OBLIGATORIO.
-o trans.txt
--output=trans.txt
  Especificar el archivo en el cual se guarda el output de Perkins (es decir, la transcripción). Si no se especifica, se genera un nombre automáticamente, a partir del nombre base del archivo de input y con una extensión apropiada (e.g. .phnm).
-en   Seleccionar la interfaz en inglés.
-es   Seleccionar la interfaz en español.
     

Opciones relacionadas con el formato o tipo de transcripción

-MODO
-f MODO
--formato=MODO
  Especificar el formato o tipo de la transcripción. NO distingue mayúsculas de minúsculas. Las posibilidades son las siguientes:
    F o PH (transcripción fonémica)
    CV (transcripción consonante/vocal)
    CVG (transcripción consonante/vocal/glide)
    CVN (consonante/vocal/nasal/líquida/rótica/glide)
    M o MODO (modo de articulación)
    P o PUNTO (lugar de articulación)
    S o SON (sonoridad)
     

Opciones para fonemas específicos

-multi, -mc, -ms   Usar múltiples símbolos AFI para algunos fonemas.
-tg   Tratar /tr/ como fonema (usar ligadura o representarlo como fricativa retrofleja áfona /ʂ/, según la configuración de -mc).
-yf   Representar el fonema "ye" como fricativa /ʝ/.
-ya   Representar el fonema "ye" como africada /d͡ʒ/.
-ar   Utilizar el diacrítico "retraído" en determinadas africadas (e.g. t̠͡ʃ).
-och   Representar el fonema "ch" con el símbolo de un solo carácter /ʧ/. Tiene primacía sobre toda otra opción que afecte este fonema.
-oye   Representar el fonema "ye" con el símbolo de un solo carácter /ʝ/. Tiene primacía sobre toda otra opción que afecte este fonema.
     

Opciones para glides (semivocales)

-gd   Representar glides como vocal + diacrítico "no silábico" (// y //).
-nogd   Representar glides como /j/ y /w/.
-wv   Representar wau como u + diacrítico "no silábico" (//).
-yv   Representar yod como i + diacrítico "no silábico" (//).
     

Opciones para el acento tónico

-at   Representar el acento con tilde en vez del apóstrofo AFI.
-ao   Representar el acento con un apóstrofo ortográfico (no AFI).
     

Opciones de silabificación / silabización / silabación

-sp, --sil-puntos   Representar las divisiones silábicas con puntos.
-se, --sil-esp   Representar las divisiones silábicas con espacios.
-nosp   No indicar las divisiones silábicas de ninguna manera.
-spe   Silabificar por enunciado/oración, y no por palabra ("los hombres" se convierte en /lo.som.bres/ en vez de /los om.bres/).
-nospe   Silabificar por palabra, y no por enunciado/oración ("los hombres" se convierte en /los om.bres/ en vez de /lo.som.bres/).
     

Opciones para pausas / grupos

-pi, --pausas-afi   Representar pausas con los símbolos AFI | y ||.
-pco   Tratar comas como pausas.
-pdp   Tratar el símbolo : como pausa.
-ppc   Tratar el símbolo ; como pausa.
-por   Tratar el final de una oración como pausa.
-ppa   Tratar el final de un párrafo como pausa.
-pel   Tratar elipsis ... como pausa.
-pcr   Convertir corchetes [] en pausas.
-ppn   Convertir paréntesis en pausas.
     

Opciones de sustitución

-nap   Convertir numerales en palabras ("4" > "cuatro").
-sn=SÍMBOLO   Reemplazar numerales por el SÍMBOLO que se especifica aquí.
-mon=TEXTO   Reemplazar el símbolo $ por lo que se especifica como TEXTO.
-sl=TEXTO   Reemplazar el símbolo "/" por lo que se especifica como TEXTO.
-nma   No marcar el acento tónico.
-pu   Procesar los URL lingüísticamente. De otro modo, se eliminan. Si se tratan lingüísticamente, ítemes comunes como "Gmail", "Facebook", "http" y "www" se transcriben como se suelen pronunciar, mientras que otros ítemes se transcriben como se deletrean.
-pe   Procesar los URL lingüísticamente. De otro modo, se eliminan.
     

Opciones de presentación

-upl   Una palabra por línea (dividir en palabras).
-usl   Una sílaba por línea (dividir en sílabas).
-mp   Mantener la separación de párrafos. De lo contrario, la transcripción será un solo gran muro de texto.
-epc   Eliminar palabras comunes (para fines de testeo).
     

Opciones para el procesamiento de números

-rae   Procesar dos grupos de 4 dígitos con "-" entre medio como un rango de años ("1900-2000" > "1900 a 2000" y no "1900 menos 2000").
-raa   Procesar dos grupos de 1-4 dígitos con "-" entre medio como un rango de años ("43-103" > "43 a 103").
-tra   Procesar todos los grupos de 1-4 dígitos con un "-" entre medio como un rango de años.
-aac   Procesar también los años A.C.
     

Metaconfiguraciones

-tc, --corpus   Configuración para procesar un corpus como texto corrido.
-ls, --lista-sil   Configuración para generar transcripciones que pueden procesarse fácilmente a nivel de sílaba.
-vrt   Configuración para generar archivos verticales (.vrt) compatibles con IMS CWB. No puede realizar todos los análisis (e.g. expansión de abreviaturas).
-lp, --lista-pal   Configuración que trata el texto como una lista de palabras: silabiza a nivel de palabra en vez de enunciado.

 

Ejemplos de uso

A continuación se presentan algunos ejemplos de los distintos tipos de transcripciones que Perkins puede realizar. Para visualizar correctamente los símbolos AFI, es necesario utilizar un navegador compatible con Unicode y tener una fuente Unicode apropiada instalada. El texto que se transcribe en todos los casos es:

En Concepción, se trata de aguantar la lluvia durante 5 meses del año. ¿Cachái?

Comando:   perkins-1.0.5.pl -i=source.txt
Transcripción:   en.kon.sep.ˈsjon | se.ˈt̪ɾa.t̪a.d̪e.a.gwan.ˈt̪aɾ.la.ˈʝu.bja.
d̪u.ˈɾan.t̪e.ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt͡ʃaj
Descripción:   Opciones por defecto. Transcripción fonémica. Africadas con ligadura. Yod y wau se representan como /j/ y /w/. Apóstrofo AFI marca acento tónico. Dentales con diacrítico. Símbolos de múltiples caracteres (e.g. /t͡ʃ/). Procesamiento a nivel de enunciado. El fonema "ye" se representa como /ʝ/.
     
Comando:   perkins-1.0.5.pl -i=source.txt -at
Transcripción:   en.kon.sep.sjón | se.t̪ɾá.t̪a.d̪e.a.gwan.t̪áɾ.la.ʝú.bja.
d̪u.ɾán. t̪e.sín.ko.mé.ses.d̪e.lá.ɲo ‖ ka.t͡ʃáj
Descripción:   El acento tónico se señala con una tilde sobre la vocal, en vez del apóstrofe AFI antes de la sílaba correspondiente.
     
Comando:   perkins-1.0.5.pl -i=source.txt -ya
Transcripción:   en.kon.sep.ˈsjon | se.ˈt̪ɾa.t̪a.d̪e.a.gwan.ˈt̪aɾ.la.ˈd͡ʒu.bja.
d̪u.ˈɾan.t̪e.ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt͡ʃaj
Descripción:   El fonema "ye" se transcribe con la africada /d͡ʒ/.
     
Comando:   perkins-1.0.5.pl -i=source.txt -ya -ar
Transcripción:   en.kon.sep.ˈsjon | se.ˈt̪ɾa.t̪a.d̪e.a.gwan.ˈt̪aɾ.la.ˈd̠͡ʒu.bja.d̪u.ˈɾan.
t̪e.ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt̠͡ʃaj
Descripción:   Se emplea el diacrítico "retraído" al representar las africadas /d̠͡ʒ/ y /t̠͡ʃ/.
     
Comando:   perkins-1.0.5.pl -i=source.txt -ya -tg
Transcripción:   en.kon.sep.ˈsjon | se.ˈt̪͡ɾa.t̪a.d̪e.a.gwan.ˈt̪aɾ.la.ˈd͡ʒu.bja.d̪u.ˈɾan.
t̪e.ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt͡ʃaj
Descripción:   El grupo "tr" se trata como fonema (tal como se comporta en muchos hablantes chilenos).
     
Comando:   perkins-1.0.5.pl -i=source.txt -ya -tg -nomc
Transcripción:   en.kon.sep.ˈsjon | se.ˈʂa.ta.de.a.gwan.ˈtaɾ.la.ˈʤu.bja.du.ˈɾan.te.
ˈsin.ko.ˈme.ses.de.ˈla.ɲo ‖ ka.ˈʧaj
Descripción:   Los fonemas se representan exclusivamente con símbolos de un solo carácter (/ʤ/; /ʧ/; /ʂ/ en vez de /t̪͡ɾ/), salvo en el caso de los glides, que pueden configurarse de manera independiente a través de las opciones -gd y -nogd.
     
Comando:   perkins-1.0.5.pl -i=source.txt -gd
Transcripción:   en.kon.sep.ˈsi̯on | se.ˈt̪ɾa.t̪a.d̪e.a.gu̯an.ˈt̪aɾ.la.ˈʝu.bi̯a.d̪u.ˈɾan.t̪e.
ˈsin.ko.ˈme.ses.d̪e.ˈla.ɲo ‖ ka.ˈt͡ʃai̯
Descripción:   Transcribe los glides como vocal + diacrítico "no silábico " (//, //) en vez de /j/ y /w/.
     
Comando:   perkins-1.0.5.pl -i=source.txt -nospe
Transcripción:   en kon.sep.ˈsjon | se ˈt̪ɾa.t̪a d̪e a.gwan.ˈt̪aɾ la ˈʝu.bja d̪u.ˈɾan.t̪e
ˈsin.ko ˈme.ses d̪el ˈa.ɲo ‖ ka.ˈt͡ʃaj
Descripción:   Silabizar a nivel de palabra, en vez de enunciado / oración.
     
Comando:   perkins-1.0.5.pl -i=source.txt -cv
Transcripción:   VC.CVC.CVC.ˈCVVC | CV.ˈCCV.CV.CV.V.CVVC.ˈCVC.CV.ˈCV.CVV.CV.ˈCVC.
CV.ˈCVC.CV.ˈCV.CVC.CVC.ˈV.CV ‖ CV.ˈCVV
Descripción:   Analizar el input en términos de consonante / vocal.
     
Comando:   perkins-1.0.5.pl -i=source.txt -cvg
Transcripción:   VC.CVC.CVC.ˈCGVC | CV.ˈCCV.CV.CV.V.CGVC.ˈCVC.CV.ˈCV.CGV.CV.ˈCVC.
CV.ˈCVC.CV.ˈCV.CVC.CVC.ˈV.CV ‖ CV.ˈCVG
Descripción:   Analizar el input en términos de consonante/vocal/glide.
     
Comando:   perkins-1.0.5.pl -i=source.txt -cvn
Transcripción:   VN.CVN.CVC.ˈCGVN | CV.ˈCRV.CV.CV.V.CGVN.ˈCVR.LV.ˈCV.CGV.CV.ˈRVN.
CV.ˈCVN.CV.ˈNV.CVC.CVL.ˈV.NV ‖ CV.ˈCVG
Descripción:   Analizar el input en términos de consonante/vocal/glide/nasal/líquida/rótica.
     
Comando:   perkins-1.0.5.pl -i=source.txt -m
Transcripción:   VN.PVN.FVP.ˈFXVN | FV.ˈPTV.PV.PV.V.PXVN.ˈPVT.LV.ˈFV.PXV.PV.ˈTVN.
PV.ˈFVN.PV.ˈNV.FVF.PVL.ˈV.NV ‖ PV.ˈAVX
Descripción:   Analizar input en términos del MODO de articulación (P=plosiva, N=nasal, R=multivibrante, T=vibrante simple, F=fricativa, L=lateral, A=africada, X=aproximante, V=vocal).
     
Comando:   perkins-1.0.5.pl -i=source.txt -p
Transcripción:   -A.V-A.A-B.ˈAP-A | A-.ˈDA-.D-.D-.-.VW-A.ˈD-A.A-.ˈP-.BP-.D-.ˈA-A.D-.
ˈA-A.V-.ˈB-.A-A.D-A.ˈ-.P- ‖ V-.ˈT-P
Descripción:   Analizar input en términos del PUNTO de articulación (B=bilabial, L=labiodental, D=dental, A=alveolar, T=postalveolar, P=palatal, V=velar, W=labiovelar, -=vocal).

 

Problemas conocidos

En todos los modos excepto el fonémico (i.e. CV, CVG, etc.), la silabificación se realiza siempre a nivel de palabra.

 

Versiones antiguas

1.0.5

1.0.0

0.4.6.3