Lingüística recreativa catalana - Explorant Word Ways
S'han fet moltes anàlisis de l'anglès pel que fa a jocs de paraules que en català no s'han arribat a plantejar mai. Des de qüestions senzilles com "Quina és la paraula palindròmica més llarga?" a més complexes com "Quina paraula del joc del penjat és més difícil de trobar?" o "Quants aodarmdromes existeixen?", aquests plantejaments han estat descrits a revistes com Word Ways: The Journal of Recreational Linguistics o similars des de fa dècades, mentre que en català en molts casos ningú les ha comprovat.

Totes aquestes anàlisis s'agrupen en el que es coneix com logologia (logology en anglès), o lingüística recreativa.

Aquest post se centra a analitzar-ne alguns de bàsics amb Python 3 a partir del corpus lingüístic DISC 2.7.15.

Detalls :


Enllaços d'interès:
Wordplay - Llista de jocs de paraules (Citizendium)
Taxonomy of Wordplay - Llista extensa de jocs de paraules
A five-year topical index - Glossari dels primers cinc volums de Word Ways

Com interpretar les referències:
En alguns apartats s'inclou una llista de referències a l'article corresponent de Word Ways descrit amb dos nombres, corresponents al Volum-Pàgina.
En cas de tractar-se d'un article de més d'una pàgina, el nombre correspon a la primera.

Codi principal


El següent codi s'encarrega de carregar el corpus en un format vàlid per Python.

main.py :


Els codis presentats a aquest tema carregaran la llista de paraules filtrada mitjançant from main import words.
Re: Lingüística recreativa catalana - Explorant Word Ways

Propietats de les lletres

Pel que fa a les propietats de les lletres, en general les anàlisis són molt similars a les fetes en anglès, excepte pel fet d'incloure una lletra addicional; la Ç.

Simetria

Les lletres es poden catalogar segons si tenen algun tipus de simetria, per exemple la A té una simetria vertical, la D té una simetria horitzontal, la O totes dues, i la R cap.
A partir d'aquí es poden trobar fàcilment paraules que inclouen només lletres amb un tipus concret de simetria.

letter_symmetry.py :


Resultats :


Preguntes no resoltes
El codi pot servir per fer altres tipus de filtratges, per exemple es poden catalogar les lletres segons si la seva minúscula té un pal ascendent o no, o si en té un de descendent o no.

Tall superior i tall inferior

A l'entrada Headshots and Footprints de Word Ways es classifiquen les lletres majúscules segons la forma que tenen a la part superior i la inferior, i es fan grups amb aquells que només veient-ne una de les parts no es podrien distingir, per exemple la part inferior de FEAR-PEAR. També es busquen paraules que incloguin una lletra amb cada forma possible inferior o superior.

La taula presentada se segueix complint, tot i que cal afegir la Ç com a corba (superior) i a la nova categoria "trenc" (inferior), ja que generalment és distingible de la Q.
Òbviament, es podrien considerar certs canvis a l'hora de catalogar-les que influirien als resultats, per exemple tot i que I, J i L tenen un punt vertical superior, la posició d'aquest i l'amplada de la lletra permeten distingir-les amb facilitat, i fer la versió amb minúscules requeriria una reestructuració total de la taula. Incloure accents i dièresi també afectaria a tota la part superior. Tot i això, he optat per conservar la de l'article original amb la Ç com a única adaptació.

Un punt verticalIJLFIPTY
Un punt anclatAV
Dos punts verticalsHUH
Dos punts en angleVXYAX
Un punt vert. i un anclatNN
Dos punts anclatsMW
Un punt vert. i un en angleKRK
Dos en angle i un anclatWM
CorbaCGOQSÇCGJOSU
Corba truncadaBDPRBD
Una líniaEFTZELZ
Corba amb línia add.-Q
Corba amb trenc-Ç
A continuació s'inclou el codi creat per obtenir les paraules on cada lletra té un tipus diferent. El nombre de paraules obtingudes és molt alt així que no s'inclouen totes. Les més llargues en el superior tenen 9 lletres, per exemple ESMUNYIDA, INCUBÀVEM o DOMINÀVEU. En l'inferior també tenen 9 lletres, per exemple VORAÇMENT, EMBRANQUI o DRINGÀVEM.

halfword.py :


Preguntes no resoltes
Una part molt més costosa computacionalment és la d'agrupar aquelles paraules que comparteixen els grups a les mateixes posicions, és a dir, que veient-ne només la part superior o inferior no es podrien distingir. Incloc a continuació un codi optimitzable amb el filtratge necessari per construir tals grups, però en tot cas es requeriria molt de temps per assolir el resultat.

halfword_group.py :


A partir d'aquí es podrien resoldre algunes preguntes, com per exemple quin grup inclou més paraules o quin grup inclou les paraules més llargues.
Una altra qüestió seria buscar aquelles que no queden diferenciades ni per la part superior ni per la inferior, com en l'exemple anglès BEAD-DEAD.

A l'article de Word Ways també es planteja expandir-ho a paraules que es trobessin al mateix grup però on cap de les lletres comparades fossin les mateixes. En català existeixen casos simples com CU-SO (inferior) o HE-UF (superior) però novament es desconeix el grup més gran i el que inclou paraules més llargues amb aquestes restriccions.
Re: Lingüística recreativa catalana - Explorant Word Ways

Vocals i consonants

Una altra manera fàcil de catalogar les lletres és segons si són vocals o consonants.

Riquesa

Una paraula és més rica en vocals (o en consonants) si la proporció d'aquestes és més alta respecte al total. En català existeixen paraules amb només vocals i alguns anglicismes acceptats amb només consonants, tot i que en general són paraules curtes. Tot i això, hi ha diferents maneres de fer el càlcul en considerar la importància de la llargada de la paraula, per tant, no es pot parlar d'un clar "guanyador" en aquest aspecte. En general la riquesa de vocals/consonants no ha donat massa joc dins de Word Ways, més enllà d'aquesta mera curiositat.

vc_richness.py :


Referències :


Concatenació

Un altre plantejament senzill i menys ambigu és el de les paraules amb més vocals (o consonants) seguides.
Es poden trobar moltes paraules amb fins a cinc vocals seguides, per exemple RADIOOIENT, i fins a 5 consonants seguides, per exemple MENYSPREU (incloses a continuació).

vc_concat.py :


Resultats :


Monovocàliques i monoconsonàntiques

Un repte similar al de la riquesa és obtenir les paraules monovocàliques o monoconsonàntiques més llargues.
Pel que fa a les vocals també pot ser interessant el cas contrari, és a dir les més curtes i les més llargues que continguin totes les vocals només un cop.

vc_unimatch.py :


Resultats :


Preguntes no resoltes
La part de buscar paraules amb només una vocal de cada es pot ampliar per buscar aquelles paraules que inclouen n vocals de cada.
Es pot plantejar l'opció més difícil de buscar patrons, per exemple, la paraula més llarga que compleix el patró (V)CVCVC...

Referències :
Re: Lingüística recreativa catalana - Explorant Word Ways

Vocals i consonants (cont)


Rotació de vocals

En anglès existeixen alguns patrons amb els quals en rotar les vocals sempre s'obtenen paraules vàlides, per exemple PAT-PET-PIT-POT-PUT. A continuació es llisten els equivalents en català.
Tot i això, hi ha molts casos amb expressions fossilitzades o regionals, i casos on la inclusió d'accents fa que la rotació no sigui perfecta. Això és molt evident en verbs on expressions dialectals fan que s'acceptin variants acabades amb incloses a les normatives (varietat central) acabades amb .

vocal_rotation.py :


Resultats :


Permutació de vocals

En un dels exercicis de Word Ways, es miren específicament aquelles paraules que contenen les cinc vocals. Es poden fer permutacions de l'ordre d'aparició i mirar si existeixen paraules que incloguin aquest ordre o no, cas per cas. Per exemple en anglès ABSTEMIOUS (AEIOU) i UNCONTINENTAL (UOIEA). En català no hi ha cap paraula que inclogui les cinc vocals només una vegada, en cap ordre, però es pot ampliar ignorant vocals entremig, i considerant-ho vàlid sempre que hi hagi una manera de marcar-les dins de la paraula seguint aquell ordre concret. Llavors, amb totes les permutacions s'obtenen paraules vàlides. Els patrons més fructífers són OAIEU (3209), OIAEU (2525), EOAIU (2434), AOIEU (1482) i IOAEU (1470) mentre que els menys fructífers són IEAUO (1), AEIUO (2), OIEUA (3), IAEUO (3) i IAEOU (4). S'inclou una llista concreta amb els menys fructífers a continuació. Pel que fa al primer i últim cas de la permutació, tots dos casos tenen un nombre similar de paraules; AEIOU (37) inclou APERIÒDIQUES o ANNEXIONEU, mentre que UOIEA (25) inclou AUTOCINÈTICA o IMMUNODEFICIÈNCIA.

vocal_permutation.py :


Resultats :
Re: Lingüística recreativa catalana - Explorant Word Ways

Patrons de lletres


Classificació de patrons

Un dels reptes més obvis pel que fa als patrons de lletres és trobar paraules amb el mateix patró d'aparició isomorfes, com en l'exemple anglès EXCESS-BAMBOO. També pot ser interessant llistar aquelles paraules que tenen un patró únic. El codi següent permet obtenir tots aquests casos. Els únics dos casos de patrons únics amb només cinc lletres són LLULL i NANNA.

patterns.py :


Referències :


Palíndroms

Els palíndroms formen una part important del que són els jocs de paraules, tot i que sovint es centren en frases senceres, o fins i tot poemes i textos llargs, i no en paraules individuals palindròmiques.

palindromes.py :


Resultats :


Una pregunta que es planteja a Word Ways és la següent: Existeixen palíndroms per tota lletra central o hi ha lletres que no apareixen mai al mig?
Un cop obtinguts els palíndroms possibles, fer aquesta comprovació és fàcil.

palindromes.py (apèndix) :


No hi ha cap palíndrom amb les següents lletres centrals: (H, K, Q, W, Y). Crida l'atenció que en alguns només s'ha obtingut un palíndrom; REFER (F), OZÓ (Z) i MAÇAM (Ç).

Trobar les paraules palindròmiques més llargues del corpus és una tasca trivial, però tal com es comenta a l'apartat de variants de la Viquipèdia, es poden tenir en compte blocs individuals, ja sigui buscant palíndroms parcials com ACAR(NISSESSIN), o fent palíndroms grupals com M-ARE-J-ARE-M, per tant hi ha moltes opcions més complexes.

El següent vídeo parla amb més detall d'aquests casos en anglès: NATHAN is a palindrome in spirit

A continuació s'inclou un codi que permet llistar els palíndroms parcials de qualsevol mida.

palindromes_partial.py :


Canviant el rang for r in range(3, len(word) + 1): per una única r definida, es poden llistar concretament les paraules amb palíndroms interns de llargària r. Així, la paraula retornada amb el palíndrom intern més llarg és A(STATICITATS).

Preguntes no resoltes
A l'article A note on catoptrons s'enllaça la idea dels palíndroms amb les lletres simètriques ja vista anteriorment, definint algunes paraules que vistes en un mirall, permetrien llegir-ne una altra o a si mateixa. Aquest fenomen és introduït com a palíndrom mirall.

Referències :


Reduplicació

Un cas similar al dels palíndroms grupals és la reduplicació, sobre la qual novament hi ha molts exemples a la Viquipèdia, i s'hi inclouen referències d'articles que s'han fet sobre el tema, explorant-los amb detall. Aquest tipus de paraules també es poden anomenar tautònims.

Preguntes no resoltes
De manera similar a la ja comentada amb els palíndroms, es poden buscar paraules amb tautònims interns. Un d'aquests casos particulars són els anomenats mots Miami, on es repeteix la part inicial i la final com si es tractés d'un tautònim dividit. Alguns exemples en anglès són BEDauBED i UNDERgroUNDER. Com en casos ja vistos prèviament, es poden fer diferents comprovacions dins d'aquest, segons la lletra central o segons si la part central és una paraula vàlida.

Referències :
Re: Lingüística recreativa catalana - Explorant Word Ways

Patrons de lletres (cont)

Distribució de les lletres

Seguint amb el tema anterior, els heterogrames són paraules o frases que no tenen cap lletra repetida. De manera més àmplia, es pot parlar d'isogrames (cada lletra hi apareix el mateix nombre de vegades). De fet, un cop comprovades les paraules per obtenir-ne els recomptes, es poden filtrar determinats patrons de manera senzilla.

isograms.py :


Es poden destacar alguns patrons, per exemple s'anomenen paraules piramidals aquelles on el patró d'aparició és (1, 2, 3, 4 ... ).
- S'han trobat 49324 isogrames amb n igual a 1, de fins a 14 lletres, per exemple PROFUNDITZAVES.
- S'han trobat 181 isogrames amb n igual a 2, de fins a 14 lletres, per exemple PAMPALLUGUEGEM.
- No s'han trobat isogrames per n majors que 2 (comprovat fins a n = 6).
- S'han trobat 281 paraules piramidals, de fins a 10 lletres, per exemple SOROLLOSOS.

Preguntes no resoltes
Es podrien agrupar les paraules que tinguin el mateix recompte i buscar aquelles amb recompte únic o bé buscar els grups més extensos, de manera similar a l'apartat de classificació de patrons.
També es pot buscar quina paraula té més vegades la mateixa lletra repetida. En un dels apartats de Wordplay, de fet, es parla del màxim possible d'aparicions de cada lletra.

Referències :
Re: Lingüística recreativa catalana - Explorant Word Ways

Patrons de lletres (cont)

Posició de les lletres

Quantes paraules acaben en Ç? Quantes comencen en doble vocal? I doble consonant? Aquest tipus de filtratges són els més obvis a fer pel que fa a la posició concreta de lletres, i generalment es poden resoldre amb una única línia de codi un cop s'han carregat les paraules.

example.py :


Al blog Mots i Més a Molins es parla amb més detall d'alguns d'aquests casos, aplicats al joc de l'Scrabble.
- Les Os no agraden - Paraules que comencen amb doble O
- No comencem bé, no - Paraules que comencen amb doble consonant

Fragments de lletres

Una altra qüestió és la detecció de bigrames, o més generalment, n-grames. Detectar quines paraules contenen cada possible parell (buidAAmpolles -> piZZa) pot ser útil a l'hora de fer sintetitzadors de veu, i és informació fàcil d'aconseguir.

ngrams.py :


A partir d'aquí es pot fer una taula amb el recomte per saber els bigrames més habituals i els menys habituals. En canvi, el codi d'exemple (últimes línies) retorna totes aquelles combinacions buides, és a dir, on no s'ha trobat cap paraula. Incloc a continuació com canviar-ho per fer la taula.

ngrams.py (apèndix) :


Resultats :


A Word Ways també s'hi inclou una variant que correspon als bigrames però no adjacents, sinó els corresponents a inici-final de paraula, com ÀreA.
Això es pot solucionar amb el codi anterior, modificant la part x.find(substr) > 0 per x[0] == substr[0] and x[-1] == substr[-1].
Evidentment, hi ha altres modificacions similars possibles.

Preguntes no resoltes
Un cop més, Word Ways va més enllà i analitza bigrames repetits (INsINuatINg) i casos successius de dobles lletres (bOOKKEEper) entre d'altres.

Referències :


Cadència

Es poden mirar aquelles paraules que tinguin una cadència de repetició d'una lletra concreta al llarg de tota la paraula, ja sigui amb interval de 2 o més.

cadence.py :


Pel que fa a un interval de 2 (i mínim 3 repeticions), hi ha moltes paraules que compleixen la mínima llargària possible, com ara ACABA, IMITI o TITET. Les més llargues trobades tenen 12 lletres i són ACATALANARÀS i ACATALANARAN.

Generalment, el mínim trobat correspon al mínim possible. Així, amb l'interval de 3 tenim SUÏSSES o TEATRET, i les més llargues en tenen 15 com DESPEDREGUESSES. Amb l'interval de 4 se n'obtenen moltes, com ASSUAVIDA i un màxim de 16 amb QUASIPOSSESSIONS o SIMILITUDINÀRIES. Amb el de 5 tenim MALFAMÉSSIM i un màxim de 19 amb DESNACIONALITZARIES, EXTRAPARLAMENTÀRIES o INDIVIDUALITZACIONS. L'interval de 9 només té tres resultats possibles; INTERNACIONALITZARAN, INTERNACIONALITZAREN i INTERNACIONALITZAVEN, i no n'hi ha cap amb un interval major.

Referències :
Re: Lingüística recreativa catalana - Explorant Word Ways

Combinatòria

Transposicions

Es poden agrupar diverses paraules que contenen les mateixes lletres però en ordre diferent (transposicions de les lletres), és a dir, formant un grup de tots els possibles anagrames per aquella seqüència de lletres. La idea es pot expandir a frases senceres, el que després rep el nom de telanagrames, ja sigui canviant les lletres de manera individual o bé jugant amb l'ordre de les paraules. Tanmateix, cap d'aquests darrers casos serà analitzat aquí.

transposition.py :


Resultats :


Referències :


Preguntes no resoltes
Existeix algun cas on totes les combinacions de lletres possibles donin una paraula vàlida?

Paraules internes

Hi ha paraules que contenen altres paraules dins d'aquestes, ja sigui en un únic bloc (lletres concatenades) o bé en diversos. Per analitzar aquest fet en català s'exclouen aquells casos més obvis corresponents a temps verbals regulars, femenins i plurals.

Preguntes no resoltes
Pel que fa a la versió no concatenada, s'anomenen paraules cangur (kangaroo word en anglès) aquelles en què la paraula interna és un sinònim de la principal. Per poder analitzar aquests casos informàticament, per tant, caldria utilitzar un diccionari de sinònims.

No he trobat cap exemple en català a la xarxa, només algunes en anglès que es poden traduir directament:
INSTRUCTOR - TUTOR
HONORABLE - NOBLE
QUIESCENT - QUIET
SUPERVISOR - SUPERIOR


I altres que traduïdes canvien, però la propietat es manté:
PROFERIR - OFERIR
FRANGIBLE - FRÀGIL
Re: Lingüística recreativa catalana - Explorant Word Ways