Conversion de fichiers word, pdf, … avec JodConverter et OpenOffice
December 4, 2008 – 1:18 pmContexte :
Dans mon appli les utilisateurs uploadent beaucoup de fichiers aux formats disparate : word, pdf, …
J’ai besoin de pouvoir extraire le contenu, au moins le texte de ces fichiers, et de l’enregistrer dans une table.
Solution :
Utiliser OpenOffice en mode service pour convertir les documents.
OpenOffice est une suite bureautique qui remplace avantageusement la suite Microsoft. Elle est ouverte, gratuite et performante.OpenOffice permet notamment d’ouvrir un fichier word, powerpoint ou excel et de l’enregistrer dans un format plus ouvert comme pdf, odt, texte, html ou rtf.
Pour pouvoir utiliser OpenOffice pour convertir les documents sans avoir a ouvrir l’appli, il faut utiliser JODconverter. Dispo à http://artofsolving.com, il s’agit d’un projet opensource qui permet d’utiliser la puissance de openoffice pour effectuer ces conversions.
JodConverter permet de réaliser les conversions soit en ligne de commande en executant un fichier java soit en mode service web par le biais d’un serveur TomCat.
Les explications sur le site artofsolving.com sont claires.
J’ai été aidé par 3 autres sites d’explications
- Install Open Office Service on Debian/(K)Ubuntu sur Google code
- Automating document conversion in Linux using JODConverter/OOo sur le blog Little Blue Things (le design est en plus fantastique)
- HowTo run OpenOffice as a service listening on 8100 port in a linux-debian server for run as Tomcat user
J’ai aussi appris
et je peut maintenant extraire le contenu des documents qui me sont envoyé au format .doc, .xls, .ppt et même .docx, .pptx, …
Update 2 août 2009
Je suis en train de réinstaller openoffice / jod converter chez brightbox.
Beaucoup de problèmes pour installer la derniere version de OpenOffice : 3.1 avec la version 3.0 beta de JodConverter. Ces 2 versions sont nécessaires pour pouvoir convertir le format .docx
(damn you microsoft for waisting so much of my time with your crappy products)
Après beaucoup d’essai (and I mean a lot!), j’ai eu la solution via le forum openoffice.
Il faut installer OpenOffice via la version .deb (si vous etes sur debian / ubuntu evidemment) et pas via les nombreuses autres façons disponibles.
Le probleme exposé : (Display, X11, Headless)
La solution : [Ubuntu] Installing OOo on Debian and Co.
La prochaine etape sera d’installer JodConverter dans sa version application web et non pas simplement en ligne de commande.
Tags: debian, display, doc, JODconverter, OOo, openoffice, ppt, Tomcat, ubuntu, word, xls
CTO of