Leggere i .docx su Linux senza Suite Office

Pubblicato da Yuri Carlenzoli | 17 gennaio 2009

Ecco un trick che permette di leggere i documenti .docx ossia quelli di microsoft word 2007 su linux senza nessuna suite office, anche con il solo editor di testo.

leggere-docx-linux-senza-software

Ovviamente quando dico senza suite office non mi riferisco a microsoft office ma kword, Open Office o simili, anche se inimmaginabile un computer senza suite office, ma ecco come leggere i docx senza suite d'ufficio su linux.

Innanzitutto bisogna estrarre il documento docx perchè è visto come un archivio, in qualche modo lo è:

  • comando: unzip NOME-DOCUMENTO.docx

Appena estratto si vedranno delle cartelle, nella cartella "word" sarà presente il file document.xml, questo è il testo del documento in xml, per renderlo leggibile bisogna "filtrare" il documento dai caratteri illeggibili:

  • Comando: cat document.xml | perl -p -e "s/<[^>]*>/ /g;s/\n/ /g;s/ +/ /;"

Il comando precedente rende possibile leggerlo in shell, si può anche trasformare in un file di testo con il comando:

  • cat document.xml | perl -p -e "s/<[^>]*>/ /g;s/\n/ /g;s/ +/ /;" >> documento.txt

Purtroppo la formattazione andrà persa però il testo c'è, se era un album di foto, nell'estrarlo si trovavano le immagini, volendo si può anche automatizzare il processo di conversione creando uno script, se avete idee per renderlo più leggibile non esitate a commentare.

2 commenti su “Leggere i .docx su Linux senza Suite Office

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Moderazione dei commenti attiva. Il tuo commento non apparirà immediatamente.