hi,
ich suche ein tool, das den text aus (MS)office dokumenten und pdf extrahieren kann.
es muss unter linux laufen, ausserdem zuverlässig und stabil (braucht keine freeware sein).
PDF: pdftotext (gehört zu xpdf) - http://www.foolabs.com/xpdf/
DOC: wvText (Teil der wv Utilities) - http://wvware.sourceforge.net/#wv
"Computer games don't affect kids; I mean if Pac-Man affected us as kids, we'd all be running around in darkened rooms, munching magic pills and listening to repetitive electronic music."
-- Kristian Wilson, Nintendo, Inc, 1989.