Exzerpt aus dem Artikel "PDF-Import" des Sonderhefts OpenOffice.org Spezial

Der PDF-Import
Kommentare

Bisher war es mit OpenOffice.org nur möglich, Dokumente in das Portable Document Format (PDF) zu exportieren. Dies ändert sich mit der neuen Version 3 der freien Office-Suite. OpenOffice.org – gespickt mit einer speziellen Erweiterung – hat die Einbahnstraße verlassen.

OpenOffice.org unterstützt bereits ab Version 1.1 – und damit bereits seit etwa 5 Jahren – den Export in das Dateiformat PDF. Hierbei handelt es sich um ein plattformübergreifendes Dateiformat, das von der Firma Adobe entwickelt worden ist. Es ist zwar ein kommerzielles Format, das aber dokumentiert wurde und von der Internationalen Standard Organisation als Office-Dateiformat zertifiziert worden ist (ISO 32000-1:2008) [1]. Es wird häufig im Netzwerk (sowohl Internet als auch Intranet) benutzt, um Dokumente in allgemein gültigem Format zur Verfügung zu stellen, da bei der Wiedergabe bzw. beim Druck das mit dem Originalprogramm erzeugte Layout weitestgehend erhalten bleibt. Ab Version 3 ist OpenOffice.org nun mit einer gesonderten Erweiterung in der Lage, nicht nur neue Dokumente im PDF-Dateiformat zu erzeugen, sondern auch bereits vorhandene Dokumente zu öffnen und zu bearbeiten. Die Erweiterung (Extension), die Sie dazu benötigen, können Sie sich ganz einfach von [2] herunterladen. Achten Sie bitte darauf, die für Ihr Betriebssystem passende Version auszuwählen, da sich die Extension sonst zwar eventuell formal installieren lässt, aber nicht funktionieren wird. Starten Sie nun OpenOffice.org 3 und rufen im Menü EXTRASden Extension Manager auf. Über die Schaltfläche HINZUFÜGEN gelangen Sie in den Dateidialog, in dem Sie die zuvor heruntergeladene Extension auswählen. Schließen Sie diesen Dialog über die Schaltfläche ÖFFNEN ab, wird die Extension geladen und installiert, sofern Sie zuvor noch ihre Lizenz (GNU Lesser General Public License Version 3) zur Kenntnis genommen und akzeptiert haben. Jetzt können Sie PDF-Dokumente in OpenOffice.org 3 bearbeiten. Sie laden das Dokument dazu ganz einfach über den Dialog DATEI | ÖFFNEN. OpenOffice.org 3 öffnet das PDF-Dokument im Grafikmodul Draw, da alle im Dokument enthaltenen Elemente (auch Texte) als grafische Elemente behandelt werden.

Abb. 1: Ein importiertes PDF-Dokument in OpenOffice.org Draw

Technisch läuft der Prozess in der Weise ab, dass zunächst geprüft wird, ob es sich um ein Hybrid-PDF handelt (ein PDF-Dokument mit eingebettetem OpenDocument Format (ODF). Falls kein solches PDF-Dokument vorliegt, wird das Dokument an Xpdf weitergereicht und dort geparst (analysiert). Das Ergebnis dieser Analyse von Struktur und Elementen des Dokuments wird über einen internen Druckdialog an OpenOffice.org Draw zurückgegeben und liegt dort dann im ODF-Format vor. Sie können das PDF-Dokument daher auch im Format ODF Zeichnung(Standardausgabeformat von Draw) oder einem älteren Dateiformat von OpenOffice.org oder StarOffice für Zeichnungen abspeichern. In dieser Form abgespeichert, können Sie das Dokument dann auch auf einem PC bearbeiten, auf dem die Extension nicht vorhanden oder keine Version 3.0 von OpenOffice.org installiert ist. Damit die PDF-Import-Extension sowohl Text als auch einzelne grafische Elemente aus einer PDF-Datei auslesen kann, ist es erforderlich, dass die entsprechenden Strukturen in der PDF-Datei enthalten sind. Solche Strukturen sind beispielsweise nicht enthalten, wenn Sie ein Dokument über einen Scanner einlesen und im PDF-Dateiformat abspeichern. Denn hier wird regelmäßig jede gescannte Seite nur als ein Bild (Grafik) in die Struktur der Datei übernommen. Die PDF-Import-Extension kann hier daher nur Grafiken (die eingescannten Seiten) einlesen, nicht aber den auf diesen Grafiken abgebildeten Text. Die neue PDF-Import-Extension für OpenOffice.org 3 funktioniert bereits sehr gut, obwohl die Entwicklung noch am Anfang steht. Das Einlesen der Dokumente erfolgt sehr zügig, und auch das Editieren einzelner Elemente im Dokument läuft flüssig ab.

[ header = Seite 2: Ein erstes Textdokument bearbeiten ]

Ein erstes Textdokument bearbeiten

Genug der Vorarbeiten, wir wollen nun die neuen Fähigkeiten von OpenOffice.org testen. Falls Sie kein eigenes Dokument im PDF-Format benutzen wollen, können Sie sich von den Projektseiten des deutschsprachigen Projekts von OpenOffice.org das in diesem Artikel verwandte Dokument herunterladen [3]. Wenn Sie im geöffneten Dokument mit der linken Maustaste auf einen Text klicken, werden Sie erkennen, dass damit eine ganze Textzeile markiert wurde. In diesem Bearbeitungsmodus lassen sich die einzelnen grafischen Textboxen mit der Maus oder den Cursortasten auf der Seite anders platzieren. Wollen Sie mehrere zusammenhängende Zeilen oder Absätze im Dokument gemeinsam verschieben, so ziehen Sie einfach mit der Maus einen Rahmen um den Text. Falls Sie diesen Auswahlbereich später noch erweitern wollen, halten Sie einfach die Umschalttaste gedrückt, während Sie mit der Maus auf weitere Elemente im PDF-Dokument klicken. Die markierten Bereiche erkennen Sie an den grünen Markierungen an den Eckpunkten.

Abb. 2: Importiertes PDF-Dokument mit markiertem Bereich

Um den Text zu bearbeiten, müssen Sie doppelt auf einen Textteil im Dokument klicken. Der Mauszeiger nimmt die Form einer senkrechten Linie an, und die Umrandung des markierten Bereichs ändert sich zu einer Schraffur. Sie können jetzt ab der aktuellen Position des Mauszeigers neuen Text eingeben. Sie haben so auch die Möglichkeit, Formatierungen des bisherigen und des neu eingegebenen Texts zu ändern, beispielsweise eine andere Schriftart oder -größe vorzugeben. Markieren Sie hierzu im Bearbeitungsmodus des Texts einfach mit dem Mauszeiger die Textbereiche, denen Sie ein anderes Format zuweisen wollen. Danach geben Sie die entsprechende Formatänderung vor. Anders als in dem Modus, in dem bestimmte Elemente lediglich verschoben werden sollen, ist es im Textbearbeitungsmodus nicht möglich, ganze Abschnitte oder mehrere Zeilen auszuwählen. Sie müssen jede Zeile einzeln bearbeiten. Falls Sie größere Textpassagen neu oder geändert in das Dokument einfügen wollen, kommen Sie schneller zum Ziel, wenn Sie den Text in einem PDF-Reader öffnen, die gewünschte Textpassage dort kopieren, in OpenOffice.org Draw (im geöffneten PDF-Dokument) einen Textrahmen aufziehen und dort die kopierte Textpassage einfügen. So können Sie den Textabschnitt dann als Fließtext bearbeiten und müssen den Zeilenumbruch nicht eventuell manuell vorgeben. Außer Texten lassen sich natürlich auch andere Elemente mit OpenOffice.org im PDF-Dokument markieren und bearbeiten. Dies gilt beispielsweise für Grafiken und Bilder. Sie können diese ganz einfach markieren und verschieben oder austauschen. Auch ihre Größe lässt sich so verändern, entweder mittels Ziehen mit der Maus an den grünen Eckpunkten oder über Aufruf des Dialogs POSITION UND GRÖßE über die Funktionstaste F4. In dem Beispieltextdokument können Sie dies mit den eingefügten Bildschirmfotos ausprobieren.

Hybrid-PDF

Mit Version 3 erhält auch der PDF-Export von OpenOffice.org über die PDF-Import-Extension eine neue Funktionalität. Mit installierter Extension ist es jetzt möglich, ein PDF-Dokument im so genannten Hybridformat zu erzeugen. Dabei handelt es sich um eine PDF-Datei, die den Inhalt im PDF-Format und auch im ODF-Format enthält. Die Besonderheiten und Vorteile eines solchen Hybrid-PDF-Dokuments werden Sie erkennen, wenn Sie es einmal mit einem PDF-Anzeigeprogramm (z.B. dem Acrobat Reader) öffnen und danach mit OpenOffice.org mit installierter PDF-Import-Extension. Das Anzeigeprogramm liest das PDF-Dateiformat und stellt das Dokument wie gewohnt dar. Es ignoriert die in der Datei zusätzlich enthaltenen Informationen im ODF-Dateiformat. Die PDF-Import-Extension von OpenOffice.org erkennt aufgrund einer eingebauten internen Prüfung, dass es sich um ein Hybridformat handelt und öffnet das vorgefundene ODF-Dateiformat im passenden Programmmodul, d.h. demjenigen, aus dem heraus das Hybrid-PDF zuvor erzeugt worden ist. Unser Beispieldokument, das im Programmmodul Writer erstellt und von dort in das PDF-Format exportiert worden ist, könnten Sie also mit Writer wie gewohnt überarbeiten, wenn es in das Hybridformat exportiert worden wäre. Sie sind damit nicht auf die im Modul Draw vorhandenen Textbearbeitungsfunktionen beschränkt und Zeilen- bzw. Seitenumbruch müssen nicht manuell vorgenommen werden. Der Vorteil eines solchen Hybrid-PDF-Dokuments besteht darin, dass für die Betrachtung seines Inhalts nur ein PDF-Anzeigeprogramm erforderlich ist, das heute auf den meisten PCs installiert oder kostenlos erhältlich ist, während es sich gleichzeitig für spätere umfangreichere Überarbeitungen eignet (anzeigbare und bearbeitbare Fassung bleiben damit untrennbar verbunden). Abzuwägen gegen diesen Vorteil ist allerdings der deutlich höhere Speicherbedarf des Hybriddokuments gegenüber einem Standard-PDF-Dokument (und die entsprechend längeren Ladezeiten über das Netzwerk).

Unsere Redaktion empfiehlt:

Relevante Beiträge

Meinungen zu diesem Beitrag

X
- Gib Deinen Standort ein -
- or -