Von PDF nach HTML

Abbildung der Titelseite des Dokumentes "Deriving HTML from PDF"»Deriving HTML from PDF«

Die Beziehung der beiden im Web verbreiteten Formate – HTML und PDF – war nie einfach. Meist stehen PDF-Dokumente im Web als Download zur Verfügung und werden in getrennten PDF-Betrachtern angezeigt. Und für interaktive Formulare, Navigation, Interaktion, Datenaustausch, dynamische Ansicht und Barrierefreiheit verwenden beide Formate jeweils eigene – wenn auch verwandte – Techniken. Aber in den letzten 25 Jahren hat sich das PDF-Format von einem Seitenbeschreibungsformat mit festem Layout zu einem vielseitigen Format für die Bereitstellung von Inhalten entwickelt. Die Dominanz von PDF auf dem Markt für elektronische Dokumente beruht allerdings nach wie vor eher auf seinem Erbe, ein festes Layout zu gewährleisten als auf seinen Fähigkeiten als Rich-Content-Container.

In der modernen Welt der kleinen Geräte, des Internet der Dinge und vernetzter Systeme, in denen der Austausch und die Wiederverwendung von Daten von entscheidender Bedeutung ist, ist es vernünftig, die anhaltende Relevanz der zentraler Intention von PDF in Frage zu stellen. Suchmaschinen, maschinelles Lernen und Systeme für künstliche Intelligenz erhalten immer mehr Zugriff auf in Dokumenten enthaltene Informationen über die visuelle Darstellung. In anderen Fällen möchten Dokumenthersteller Daten in einer Form bereitstellen, die für die automatisierte Verarbeitung geeignet ist, während eine PDF-Datei als Datensatz für Vertrauenszwecke verwendet wird.

Autoren von Dokumenten sehen PDF eher als Endformat, Webentwickler und Endbenutzer hingegen möchten elektronische Dokumente, die sich problemlos an eigene Bedürfnisse und die Anzeige auf verschiedenen kleinen Geräten anpassen lassen. Die PDF association kennt diesen Widerspruch und hat vor einigen Jahren eine Arbeitsgruppe (TWA, Technical Working Group) mit dem Ziel gegründet, Schwierigkeiten bei der Integration von PDF-Dateien in webbasierte Workflows zu überwinden. Entstanden ist die nun veröffentlichte Version 1.0 der Spezifikation »Deriving HTML from PDF, A usage specification for tagged ISO 32000-2 files« (HTML aus PDF ableiten, Eine Verwendungsspezifikation für ausgezeichnete/getaggte ISO 32000-2-Dateien).

In dem Dokument wird der Algorithmus beschrieben, mit dem konformes HTML aus einem getaggten PDF-Dokument erstellt wird. Er zeigt, wie gut getaggte PDF-Dokumente, die sowohl traditionelle Inhalte mit festem Layout als auch semantische Strukturen enthalten, zuverlässig und konsistent als HTML wiederverwendet werden können. Getaggte Dokumente sind Grundlage für barrierefreie PDF-Dokumente (siehe hierzu Info, Buch) Berücksichtigt werden hierbei auch die neuen PDF 2.0-Funktionen wie dem neuen PDF 2.0-Tagset, verknüpfte Dateien, Namespaces und anderes mehr (siehe hierzu Blog).

HTML wurde als Zielformat ausgewählt, da HTML auf allen Plattformen verwendet und von allen wichtigen Anbietern unterstützt wird. Mit kleinen Änderungen können Entwickler dieses Dokument verwenden, um Inhalte aus gut gekennzeichneten PDF-Dateien in ein beliebiges Format zu exportieren.

Der Text ist eine freie und überarbeitete Übersetzung eines Artikels der PDF Association (https://www.pdfa.org/deriving-html-from-pdf-an-algorithm/) und der Einleitung aus »Deriving HTML from PDF« (Info und Download https://www.pdfa.org/resource/deriving-html-from-pdf/)

Autor: df-edv

Seit 1996 bieten wir EDV Schulungen und IT-Dienstleistungen für Privat, Klein- und Mittelständige Unternehmen, Industrie, Behörden und Verwaltung an. Informieren Sie sich unter www.df-edv.de

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s