• 13.05.2024, 07:50
  • Registrieren
  • Anmelden
  • Sie sind nicht angemeldet.

 

Programm zur Indexgnerierung gesucht (Dokumente)

Freitag, 24. August 2007, 18:54

Hi,

ich habe hier ein Skript mit rund 500 Seiten. Da stehen viele tolle Beispiele drin, nur leider werden die entsprechenden Stichworte im vorhandenen Index nicht aufgeführt. Deshalb folgende Frage:

Gibt es ein programm mit dem man aus einem vorhandenen Text automatisch einen Index generieren kann?

Dateiformat ließe sich annähernd beliebig anpassen denke ich.

Ideal wäre eine Software, die sich an den Überschriften orientieren kann (größer und fett) und nur daraus den Index erstellt. Aber auch ein Volltext-Index wäre besser als nichts. Da könnte man notfalls ja immernoch die unnötigen Sachen löschen.

Wäre toll wenn da jemand was wüsste, von Hand machen ist in dem Fall zu aufwändig bei geringem nutzen
"When mountains speak, wise men listen" - John Muir

Re: Programm zur Indexgnerierung gesucht (Dokument

Freitag, 24. August 2007, 18:59

Um was für ein Dokumentenformat handelt es sich denn? Wenn es kein binäres ist, lässt sich ja schnell ein Script schreiben, dass diese Arbeit übernimmt.

Re: Programm zur Indexgnerierung gesucht (Dokument

Freitag, 24. August 2007, 19:09

Im Moment erstmal PDF  ::)

Das liesse sich ja aber weitestgehend ändern...

edit:
vielleicht mal als Erklärung des ganzen:

Ziel ist es einen Index der Beispiele zu haben um in der Klausur (in die man alles mitnehmen darf) nicht ne stunde lang suchen zu müssen wo genau das steht. Wäre ganz praktisch wenn nach Algorithmen gefragt wird die man nunmal nicht auswendig kennt
"When mountains speak, wise men listen" - John Muir

Re: Programm zur Indexgnerierung gesucht (Dokument

Freitag, 24. August 2007, 20:22

so jetzt hab ichs auch als WORD Datei vorliegen, sieht zwar nichtmehr ganz so gut aus, aber ist wenigstens vollständig und auch inhaltlich noch richtig
"When mountains speak, wise men listen" - John Muir

Re: Programm zur Indexgnerierung gesucht (Dokument

Sonntag, 26. August 2007, 15:02

Wenn du das jetzt noch als ODF umwandelst, hast du zwar kein Plaintext-, aber zumindest ein gepacktes XML-Format, indem du mit entsprechend markierten Überschriften gut nach diesen Suchen kannst. Word ist jedenfalls ein Scheißformat, von halbwegs guter Dokumentation mal gar nicht zu reden.

PDF ist auch ein Binärformat, allerdings offengelegt. Ohne entsprechende Toolkit kann man das aber vermutlich auch nur schwerlich auslesen, und mir sind nur Lösungen zum Erzeugen von PDF bekannt.

Eine (La)TeX-Quelle wäre natürlich super, da am einfachsten auszuwerten. HTML, RTF oder PostScript kommen auch in Frage; allerdings weiß ich von letzteren beiden nicht, ob sie sematische Auszeichnungen von Überschriften kennen - die dann natürlich auch im Dokument entsprechend verwendet werden müssen.

Weiterhin kann man auch einfach alles indizieren und mit entsprechenden Dictionaries ungewünschte Wörter (Artikel, Konjunktionen etc.) ausfiltern, so dass am Ende hoffentlich nur die Fachbegriffe übrig bleiben (wenn das Ergebnis entsprechend klein ist, kann man da noch eben von Hand aussortieren).

Re: Programm zur Indexgnerierung gesucht (Dokument

Dienstag, 28. August 2007, 11:16

liebend gerne würde ich mal alles inizieren, nur fehlt mir auch da das Werkzeug
"When mountains speak, wise men listen" - John Muir