jocs de paraules que en català no s'han arribat a plantejar mai. Des de qüestions senzilles com "Quina és la paraula palindròmica més llarga?" a més complexes com "Quina paraula del joc del penjat és més difícil de trobar?" o "Quants aodarmdromes existeixen?", aquests plantejaments han estat descrits a revistes com Word Ways: The Journal of Recreational Linguistics o similars des de fa dècades, mentre que en català en molts casos ningú les ha comprovat.
Totes aquestes anàlisis s'agrupen en el que es coneix com logologia (logology en anglès), o lingüística recreativa.
Aquest post se centra a analitzar-ne alguns de bàsics amb Python 3 a partir del corpus lingüístic DISC 2.7.15.
Enllaços d'interès:
Wordplay - Llista de jocs de paraules (Citizendium)
Taxonomy of Wordplay - Llista extensa de jocs de paraules
A five-year topical index - Glossari dels primers cinc volums de Word Ways
Com interpretar les referències:
En alguns apartats s'inclou una llista de referències a l'article corresponent de Word Ways descrit amb dos nombres, corresponents al Volum-Pàgina.
En cas de tractar-se d'un article de més d'una pàgina, el nombre correspon a la primera.
El següent codi s'encarrega de carregar el corpus en un format vàlid per Python.
Els codis presentats a aquest tema carregaran la llista de paraules filtrada mitjançant from main import words.
S'han fet moltes anàlisis de l'anglès pel que fa a Totes aquestes anàlisis s'agrupen en el que es coneix com logologia (logology en anglès), o lingüística recreativa.
Aquest post se centra a analitzar-ne alguns de bàsics amb Python 3 a partir del corpus lingüístic DISC 2.7.15.
Detalls :
Tots els codis i anàlisis compartits aquí han estat realitzats per l'usuari Wecoc i són d'ús lliure i modificables.
Tot i això, vull deixar clar que sóc relativament novell amb Python, i a més, alguns dels codis han estat adaptats d'una versió antiga feta amb Ruby.
Tot i això, vull deixar clar que sóc relativament novell amb Python, i a més, alguns dels codis han estat adaptats d'una versió antiga feta amb Ruby.
Enllaços d'interès:
Wordplay - Llista de jocs de paraules (Citizendium)
Taxonomy of Wordplay - Llista extensa de jocs de paraules
A five-year topical index - Glossari dels primers cinc volums de Word Ways
Com interpretar les referències:
En alguns apartats s'inclou una llista de referències a l'article corresponent de Word Ways descrit amb dos nombres, corresponents al Volum-Pàgina.
En cas de tractar-se d'un article de més d'una pàgina, el nombre correspon a la primera.
Codi principal
El següent codi s'encarrega de carregar el corpus en un format vàlid per Python.
main.py :
import numpy as np # NumPy
import re # RegEx
# Carregar el corpus DISC2-LP
f = open("DISC2-LP.txt", "r", encoding='utf-8')
words = f.readlines()
def corpus_clean(word):
result = word.replace("\n", "") # Eliminar el caràcter de salt de línia
result = re.sub("\·", "", result) # Eliminar el punt volat
result = re.sub("Ç", "c", result) # Substituir la Ç per un valor ASCII-friendly
return result
words = list(map(corpus_clean, words))
print("Corpus DISC2-LP importat")
import re # RegEx
# Carregar el corpus DISC2-LP
f = open("DISC2-LP.txt", "r", encoding='utf-8')
words = f.readlines()
def corpus_clean(word):
result = word.replace("\n", "") # Eliminar el caràcter de salt de línia
result = re.sub("\·", "", result) # Eliminar el punt volat
result = re.sub("Ç", "c", result) # Substituir la Ç per un valor ASCII-friendly
return result
words = list(map(corpus_clean, words))
print("Corpus DISC2-LP importat")
Els codis presentats a aquest tema carregaran la llista de paraules filtrada mitjançant from main import words.