TexLexAn: Analizzatore di Testo per Linux

Pubblicato da Yuri Carlenzoli | 11 ottobre 2009

TexLexAn o Text Analyzer Classifier Summarizer è un programma per linux in grado di analizzare il testo, riassumerlo, stimarne tempo e difficoltà di lettura ed altro.

TexLexAn-analizza-riassume-testo

Questo analizzatore di testo per linux, non è un semplice programma che crea riassunti di testo, infatti TexLexAn analizza totalmente il testo, il testo presente in documenti pdf, odt, ppt, file doc, file di testo ed HTML ed anche inserendo l'indirizzo web.

TexLexAn è molto utile anche per editori online che vogliono estrarre le keywords da un testo, vedere come una macchina classifica automaticamente il contesto di uno scritto, in qualche modo si può simulare uno spider dei motori di ricerca, è possibile valutarne leggibilità, la ripetizione di parole di base (potrebbero essere keyword oppure no) e vedere se è stato plagiato, quindi risulta anche utile per l'ottimizzazione per i motori di ricerca.

Riguardo il plagio non ho capito ancora bene come funziona, tutto il resto funziona egregiamente, dallo screenshot potete vedere un mio post come viene visto da TexLexAn, anche se, TexLexAn non possiede vocabolari in Italiano, con i miei post molto probabilmente funziona bene perchè trattando di argomenti informatici molte parole sono in inglese.

TexLexAn è un programma intelligente:

  • Per classificare il testo utilizza un classificatore lineare;
  • Per creare un sommario fa l'estrazione delle sentenze più rilevanti;
  • Una funzione logica che gli consente di apprendere man mano il modo migliore per creare riassunti;
  • Utilizza un dizionario semplificato per sostituire "espressioni morte" (di preciso non ho capito cosa siano).

Da tutto questo si evince anche che TexLexAn si basa molto su dei dizionari di parole/lettere per analizzare il testo, anche se quello in italiano non è presente io vi assicuro che mi ha fatto un riassunto eccezionale, perfettamente leggibile anche se senza punteggiatura e le keywords le trova comunque. Per installare il programma da sorgenti è sufficiente scompattarlo, entrare nella directory scompattata da shell, digitare make e poi make install, se volete fare a mano i dizionari in italiano è possibile tramite programma ma fate prima a creare dei files a mano e metterli nella directory /VOSTRO-UTENTE/texlexan_dico, guardate i files che ci sono e fatene altrettanti in italiano.

Qui potete fare il download di Text Analyzer Classifier Summarizer.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Moderazione dei commenti attiva. Il tuo commento non apparirà immediatamente.