Català a la xarxa: Recull d'eines informàtiques
Recull d'eines d'aprenentatge automàtic (Natural Language Processing) i el seu estat actual en català.

Índex

Sintaxi
- Inducció gramatical
- Arbre d'anàlisi sintàctica (gramàtica estocàstica)
- Lematització
- Segmentació de text
- Etiquetatge gramatical
- Extracció de terminologia

Semàntica
- Anàlisi lexicosemàntica
- Traducció automàtica
- Reconeixement d'entitats anomenades
- Generació (i enteniment) de llenguatges naturals
- Reconeixement òptic de caràcters
- Cerca de respostes
- Reconeixement de vinculació textual
- Extracció de relacions semàntiques
- Anàlisi de sentiment
- Desambiguació lingüística

Discurs
- Resum automàtic
- Resolució de correferències
- Anàlisi del discurs

Parla
- Reconeixement (i segmentació) de la parla
- Síntesi de veu
Inducció gramatical

La inducció gramatical és la tasca d’aprendre l’estructura sintàctica en un entorn on s’amaga aquesta estructura, és a dir, donada una locució, permet obtenir-ne el substantiu i el predicat, i dins d'aquest el complement directe, l'indirecte, etc.

Es classifica en inducció gramatical supervisada quan parteix d'un corpus anotat sintàticament, el qual en molts d'idiomes no està disponible (incloent-hi el català) o bé no supervisada quan es parteix d'informació més fàcil d'obtenir i útil per construir l'arbre (com la categoria lèxica de cada paraula), però amb resultats menys precisos. En teoria, donat aquest corpus sintàtic o lèxic, un mateix codi d'inducció gramatical vàlid en anglès pot arribar a servir amb altres llengües directament.

Tipus: Sintaxi

Viquipèdia: Grammar induction (anglès), Inducción gramatical (castellà), Inducció gramatical (català).

Enllaços: Github (anglès)

Arbre d'anàlisi sintàctica (gramàtica estocàstica)

Obtenció de l'arbre sintàctic a partir d'una frase. Similar a la inducció gramatical (se'n considera un subgrup), però fent servir gramàtica estocàstica lliure de context.

Tipus: Sintaxi

Viquipèdia: Parse Tree (anglès), Árbol de análisis sintáctica (castellà), Arbre d'anàlisi sintàctica (català)
Vegeu també: Stochastic grammar (anglès), Gramática estocástica (castellà), Gramàtica estocàstica (català)

Enllaços: Querying parse trees of stochastic context-free grammars (anglès)

AnglèsCastellàCatalà
Corpus sintàcticDisponibleDisponibleNo disponible
Corpus lèxicDisponibleDisponibleNo disponible
IG SupervisadaDisponible-No disponible
IG No SupervisadaDisponibleDisponibleNo disponible
Arbre sintàcticDisponible-No disponible
Re: Català a la xarxa: Recull d'eines informàtiques
Lematització

Donada una paraula, la lematització consisteix a trobar-ne el lema corresponent, és a dir la representant de les formes flexionades (gènere, nombre...) d'una mateixa paraula. Dit d'una altra manera, es busca la paraula tal com apareix a l'entrada del diccionari. Les regles utilitzades en paraules compostes es poden elaborar a mà o bé obtenir automàticament d'un corpus anotat, com el Corpus textual informatitzat de la llengua catalana. Tot i això, aquest corpus no sembla estar disponible de forma lliure.

Tipus: Sintaxi

Viquipèdia: Lemmatisation (anglès), Lematización (castellà), Lematització (català)
Vegeu també: Stemming (anglès), Stemming (castellà), Stemming (català)

Enllaços: Teoria i pràctica de la lematització al Corpus Informatitzat Multilingüe de Textos Antics i Contemporanis-IVITRA (català)

AnglèsCastellàCatalà
Corpus (lemes)DisponibleDisponibleDisponible
LematitzacióDisponibleDisponibleDisponible
Re: Català a la xarxa: Recull d'eines informàtiques
Segmentació de text

La segmentació de text és el procés de dividir un text en unitats amb significat, com ara paraules o frases. Tot i que pot semblar una tasca trivial, en alguns idiomes s'utilitzen indicadors de canvi de paraula o de frase poc habituals. En aquest cas, però, una segmentació de paraules en anglès és vàlida en català. Pel que fa a les frases, l'únic a considerar és que el punt a vegades indica una abreviatura (Sr., Prof., etc), problema que es pot solucionar definint un petit diccionari amb aquests casos particulars més típics. Per més detalls vegeu l'article en anglès de la Viquipèdia: Sentence boundary disambiguation.

Altres subtipus :


Tipus: Sintaxi

Viquipèdia: Text segmentation (anglès), Segmentación de texto (castellà), Segmentació de text (català).

Enllaços: Segmentació de text de partida (català)

AnglèsCastellàCatalà
Seg. bàsicaDisponibleDisponibleDisponible
Seg. morfològicaDisponibleNo disponibleNo disponible
Re: Català a la xarxa: Recull d'eines informàtiques
Etiquetatge gramatical

L'etiquetatge gramatical (també anomenat etiquetatge morfosintàctic o desambiguació lèxica, o en anglès Part-of-speech tagging) és el procés d'obtenir la categoria gramatical de cada paraula basant-se en el seu context. Tot i que alguns diccionaris inclouen aquesta funció, no s'ha trobat enlloc on estigui disponible de forma lliure en català.

Com en la majoria de casos en el processament de llenguatge natural (PLN), existeixen dues aproximacions per resoldre aquesta tasca: la supervisada mitjançant un corpus amb sistemes d'aprenentatge automàtic (en aquest cas el model utilitzat sol ser el Model ocult de Markov), o la no supervisada, basada en altres regles com el Model de finestra lliscant.

Tipus: Sintaxi

Viquipèdia: Part-of-speech tagging (anglès), Etiquetado gramatical (castellà), Desambiguació lèxica (català).

AnglèsCastellàCatalà
DL SupervisadaDisponibleDisponibleNo disponible
DL No SupervisadaDisponible-No disponible
Re: Català a la xarxa: Recull d'eines informàtiques
Extracció de terminologia

L'extracció de terminologia permet obtenir les paraules clau d'un text. Forma part del grup de mètodes d'extracció d'informació d'un text.

En català és possible mitjançant el corpus del Diari Oficial de la Generalitat de Catalunya (Corpus DOGC).

Tipus: Sintaxi

Viquipèdia: Terminology extraction (anglès), Extractores de terminología (castellà), Extracció de terminologia (català).

Enllaços: Extracción de terminologia (castellà)

AnglèsCastellàCatalà
E. terminològicaDisponibleDisponibleDisponible
Re: Català a la xarxa: Recull d'eines informàtiques
Anàlisi lexicosemàntica

L'anàlisi lexicosemàntica permet obtenir el lexema i els morfemes d'un mot. Això permet classificar els mots segons la seva família lèxica. És un procés relacionat amb la lematització.

Tipus: Semàntica

Viquipèdia: Lexical semantics (anglès), Análisis lexicosemántica (castellà), Anàlisi lexicosemàntica (català).

Enllaços: Dealing with lexical semantic mismatches between Spanish and English (anglès)
Enllaços: CLiC- Centre de LLenguatge i computació (català)

AnglèsCastellàCatalà
ALSDisponibleDisponibleDisponible
Re: Català a la xarxa: Recull d'eines informàtiques
Traducció automàtica

La traducció automàtica permet traduir texts d'un idioma a un altre. El català està disponible a diversos traductors en línia, alguns de codi obert com per exemple Apertium

Tipus: Semàntica

Viquipèdia: Machine translation (anglès), Traducción automática (castellà), Traducció automàtica (català).

Enllaços: Llistat de traductors en línia amb opció en català (català)

AnglèsCastellàCatalà
TraduccióDisponibleDisponibleDisponible
Re: Català a la xarxa: Recull d'eines informàtiques
Reconeixement d'entitats anomenades

El reconeixement d'entitats anomenades (o extracció d'entitats, en anglès NER) és una subtasca de l'extracció d'informació que busca localitzar i classificar les entitats esmentades en un text en categories predefinides com ara noms de persones, ubicacions, codis mèdics, expressions temporals, quantitats, valors monetaris, percentatges, etc.

Tipus: Semàntica

Viquipèdia: Named-entity recognition (anglès), Reconocimiento de entidades nombradas (castellà), Reconeixement d'entitats anomenades (català).

Enllaços: Named Entity Recognition for Catalan Using Spanish Resources (anglès)

AnglèsCastellàCatalà
NERDisponibleDisponibleParcialment
Re: Català a la xarxa: Recull d'eines informàtiques
Generació (i enteniment) de llenguatges naturals

La generació de llenguatges naturals (NLG, Natural-language generation) és un software capaç de generar text nou a partir d'un text de mostra. Per fer-ho s'aplica el cas contrari a l'enteniment de llenguatges naturals (NLU, Natural-language understanding); en NLG es passa de la representació d'un context a un text final, mentre que en el NLU es fa el pas invers. Per tant, els dos sistemes es complementen.

Relació amb altres eines :


Tipus: Semàntica

Viquipèdia: Natural-language generation (anglès), Generación de lenguajes naturales (castellà), Generació de llenguatges naturals (català).
Viquipèdia: Natural-language understanding (anglès), Comprensión del lenguaje natural (castellà), Comprensió del llenguatge natural (català).

Enllaços: A library for automatic natural language generation of spanish texts (anglès)

AnglèsCastellàCatalà
NLGDisponibleParcialmentNo disponible
NLUDisponibleParcialmentNo disponible
Re: Català a la xarxa: Recull d'eines informàtiques
Reconeixement òptic de caràcters

El reconeixement òptic de caràcters (OCR) permet passar una imatge a un text virtual. Per fer-ho reconeix el patró de cada lletra a la imatge (amb cert llindar d'error) i el passa a una String (cadena de caràcters) que en serà l'output. Tot i que en principi si s'utilitza el mateix alfabet pot semblar un procés independent d'idioma, s'ha de considerar que el català té certs caràcters especials: accents, dièresi, ce trencada, ela geminada, etc. En aquest sentit, l'únic que cal és canviar les imatges model d'on obté cada patró. Ara bé, per tal de definir el llindar d'error de les lletres i obtenir el resultat més probable cal interpretar les paraules i fins i tot entendre'n el context, per tant també és un procés de tipus semàntic, totalment depenent d'idioma.

Detalls addicionals :


Tipus: Semàntica

Viquipèdia: Optical character recognition (anglès), Reconocimiento óptico de carácteres (castellà), Reconocimient òptic de caràcters (català)

Existeixen aplicacions online de OCR amb opció en català com i2ocr o ocrconvert, però no se n'ha trobat cap de codi lliure, per tant tot i existir es considera no disponible. A més cap d'aquests casos inclou OLR, l'idioma s'ha d'indicar manualment.

AnglèsCastellàCatalà
OLRDisponibleNo disponibleNo disponible
OCRDisponibleNo disponibleNo disponible
Re: Català a la xarxa: Recull d'eines informàtiques
Cerca de respostes

Donada una pregunta com a input, la cerca de respostes utilitza un conjunt de fonts (per exemple la Viquipèdia) per intentar respondre-la.

Tipus: Semàntica

Viquipèdia: Question answering (anglès), Búsqueda de respuestas (castellà), Cerca de respostes (català).

Enllaços: Question Answering in Spanish (anglès), Automatic Spanish Translation of the SQuAD Dataset for Multilingual Question Answering (anglès)

AnglèsCastellàCatalà
Multilingual QADisponibleDisponibleNo disponible
Re: Català a la xarxa: Recull d'eines informàtiques
Reconeixement de vinculació textual

El reconeixement de vinculació textual (Recognizing Textual Entailment) identifica relacions direccionals entre fragments de text.

Tipus: Semàntica

Viquipèdia: Textual entailment (anglès), Reconocimiento de vinculación textual (castellà), Reconeixement de vinculació textual (català).

Enllaços: Recognizing Textual Entailment (anglès)
Enllaços: A Machine Learning Approach for Recognizing Textual Entailment in Spanish (anglès)

AnglèsCastellàCatalà
Recog. TEDisponibleDisponibleNo disponible
Re: Català a la xarxa: Recull d'eines informàtiques
Extracció de relacions semàntiques

L'extracció de relacions semàntiques és una branca de l'extracció d'informació que busca similituds semàntiques en un text.

Tipus: Semàntica

Viquipèdia: Relationship extraction (anglès), Extracción de relaciones semánticas (castellà), Extracció de relacions semàntiques (català).
Vegeu també: Semantic similarity (anglès), Similitud semántica (castellà), Semblança semàntica (català).

AnglèsCastellàCatalà
Relationship ext.DisponibleNo disponibleNo disponible
Re: Català a la xarxa: Recull d'eines informàtiques
Anàlisi de sentiment

L'anàlisi de sentiment permet obtenir el sentiment de determinades parts d'un text. Això pot variar des de catalogar entre valoracions positives o negatives d'un determinat producte, o catalogar en un text més extens les parts alegres, tristes, etc. Dins d'aquest procés també s'hi pot incloure la detecció del sarcasme, per obtenir una catalogació més precisa.

Tipus: Semàntica

Viquipèdia: Sentiment analysis (anglès), Análisis de sentimiento (castellà), Anàlisi de sentiment (català)

AnglèsCastellàCatalà
Anàlisi de sentimentDisponibleDisponibleParcialment
Det. sarcasmeDisponibleParcialmentParcialment
Re: Català a la xarxa: Recull d'eines informàtiques
Desambiguació lingüística

La desambiguació lingüística o desambiguació del sentit de les paraules (WSD) és un problema obert en lingüística computacional que consisteix a identificar quin significat concret d’una paraula amb múltiples definicions s’utilitza en una determinada frase.

Tipus: Semàntica

Viquipèdia: Word-sense disambiguation (anglès), Desambiguación lingüística (castellà), Desambiguació lingüística (català).

Enllaços: Word Sense Disambiguation in a Spanish Explanatory Dictionary (anglès)
Enllaços: SemEval-2007 Task 09: Multilevel Semantic Annotation of Catalan and Spanish (anglès)

AnglèsCastellàCatalà
WSDDisponibleParcialmentParcialment
Re: Català a la xarxa: Recull d'eines informàtiques
Resum automàtic

Hi ha diferents maneres de resumir el text de forma automàtica: extreure directament contingut important de les dades originals, generar un text nou basant-se en les dades originals mitjançant un mètode abstractiu, o bé de forma assistida utilitzant de models resums creats per humans (Machine Aided Human Summarization). A més, com en altres eines de processament de llenguatge, es pot obtenir de forma supervisada o no supervisada.

Pel que fa a la supervisada en català, se sol utilitzar el Corpus Tècnic de l’Institut Universitari de Lingüística Aplicada (IULA).

Tipus: Discurs

Viquipèdia: Automatic summarization (anglès), Sumarización automática (castellà), Sumarització automàtica (català).

Enllaços: Text Summarization of Spanish Documents (anglès)
Enllaços: Exemples de resums (català)
Enllaços: SoftCatalà - Eina de resum emprant una tècnica extractiva (català) [Nou!]
Tesi doctoral: A Flexible Multitask Summarizer for Documents from Different Media, Domain, and Language. Ap. Catalan and Spanish Linguistic Processor (anglès)

AnglèsCastellàCatalà
Extracció SupervisadaDisponibleDisponibleDisponible
Abstracció SupervisadaDisponibleParcialmentParcialment
Extracció No SupervisadaDisponibleParcialmentNo disponible
Abstracció No SupervisadaParcialmentNo disponibleNo disponible
Resum assistitDisponibleNo disponibleNo disponible
Re: Català a la xarxa: Recull d'eines informàtiques
Resolució de correferències

La resolució de correferències és la tasca de trobar totes les expressions que es refereixen a la mateixa entitat en un text. Té com a branca la resolució d'anàfores (Anaphora resolution).

Tipus: Discurs

Viquipèdia: Correference resolution (anglès), Resolución de correferencias (castellà), Correferència [amb apartat de resolució] (català)

Enllaços: Anaphoric devices in written and spoken narrative discourse Data from Catalan (anglès)

AnglèsCastellàCatalà
Anaphora Res.DisponibleDisponibleDisponible
Correference Res.DisponibleParcialmentNo disponible
Re: Català a la xarxa: Recull d'eines informàtiques
Anàlisi del discurs

L'anàlisi del discurs permet estudiar el llenguatge en relació amb el seu context social.

Tipus: Discurs

Viquipèdia: Discourse analysis (anglès), Análisis del discurso (castellà), Anàlisi del discurs (català)

Enllaços: Using annotated discourse information of a RST Spanish-Chinese treebank for translation and language learning tasks (anglès)
Enllaços: Extending Automatic Discourse Segmentation for Texts in Spanish to Catalan (anglès)

AnglèsCastellàCatalà
Anàlisi discursDisponibleDisponibleParcialment
Re: Català a la xarxa: Recull d'eines informàtiques
Reconeixement (i segmentació) de la parla

El reconeixement de la parla permet interpretar un so de veu i transformar-lo en un text escrit. De manera similar al reconeixement òptic de text, un primer pas necessari perquè funcioni és el reconeixement oral de l'idioma. A més també cal una segmentació de la parla, és a dir, identificar els límits entre paraules, síl·labes o fonemes en un llenguatge natural parlat.

Recentment s'han creat models en català compatibles amb diversos dialectes, però la majoria de plataformes encara no els inclouen.

Tipus: Parla

Viquipèdia: Speech recognition (anglès), Reconocimiento del habla (castellà), Reconeixement de la parla (català).
Viquipèdia: Speech segmentation (anglès), Segmentación del habla (castellà), Segmentació de la parla (català).

Enllaços: Reconeixement i síntesi de la parla (català)
Enllaços: Publiquem un model wav2vec2 de reconeixement de la parla en català (català)
Enllaços: A Catalan Broadcast Conversational Speech Database (anglès)

AnglèsCastellàCatalà
Seg. parlaDisponibleDisponibleDisponible
Rec. parlaDisponibleDisponibleParcialment
Re: Català a la xarxa: Recull d'eines informàtiques
Síntesi de veu

La síntesi de veu (en anglès TTS, Text-To-Speech) genera un àudio de veu a partir d'un text, per tant és el procés contrari al reconeixement de veu.

Tot i que en català fa més d'una dècada que existeix aquesta opció, el resultat és molt robòtic i artificial, i no s'ha millorat gaire en comparació amb altres idiomes. En aquest aspecte doncs, es pot distingir entre el TTS bàsic i el realista, més basat en una rèplica més convincent de la lèxica verbal.

Altres variants :


Tipus: Parla

Viquipèdia: Speech syntesis (anglès), Síntesis de habla (castellà), Síntesi de veu (català)

Enllaços: Síntesi de la parla obert i lliure en català (català)
Enllaços: Two large-scale verbal lexicons for Catalan and Spanish (anglès)
Enllaços: Léxico verbal multilingüe para el catalán, español y francés (castellà)

AnglèsCastellàCatalà
TTS bàsicDisponibleDisponibleDisponible
TTS realistaDisponibleParcialmentNo disponible
Re: Català a la xarxa: Recull d'eines informàtiques