XML-Dateiformate in 2007 Office System (Übersicht)

Letzte Aktualisierung: Januar 2009

Betrifft: Office Resource Kit

 

Letztes Änderungsdatum des Themas: 2009-01-07

In 2007 Microsoft Office System werden neue XML-Dateiformate eingeführt, die robust sind und auf offenen Standards basieren. Die neuen XML-Dateiformate ermöglichen das rasche Erstellen von Dokumenten aus unterschiedlichen Datenquellen, wobei Dokumentassembly, Datamining und Inhaltswiederverwendung beschleunigt werden. Mit den Formaten wird der Austausch von Daten zwischen Anwendungen in 2007 Office System und Geschäftssystemen vereinfacht.

Sie können mit jedem Standardtool und jeder Standardtechnologie ein Dokument in den neuen XML-Formaten erstellen — 2007 Office System ist hierzu nicht erforderlich. Benutzer können die Produktivität erhöhen, indem sie Informationen schneller und genauer in der von ihnen ausgewählten Umgebung veröffentlichen, suchen und wiederverwenden.

Die neuen XML-Formate basieren auf dem Industriestandard entsprechenden XML- und ZIP-Technologien, unterstützen die vollständige Integration jedes Technologieanbieters und stehen über eine lizenzgebührenfreie Lizenz zur Verfügung. Die XML-Dateiformatspezifikation wird veröffentlicht und unter derselben gebührenfreien Lizenz zur Verfügung gestellt, die für die Microsoft Office 2003-Referenzschemas vorhanden ist. Und sie wird frei angeboten und für zahlreiche Branchen zur Verfügung gestellt.

Vorteile der neuen XML-Dateiformate

Mit den neuen XML-Formaten werden eine Reihe von Vorteilen für Entwickler, IT-Experten und Benutzer eingeführt. Zu diesen Vorteilen zählen Folgende:

  • Kompaktes Dateiformat. Dokumente werden automatisch komprimiert, sie sind bis zu 75 % kleiner.

  • Verbesserte Wiederherstellung von beschädigten Dateien. Die modulare Datenspeicherung ermöglicht das Öffnen von Dateien, auch wenn eine Komponente in der Datei, z. B. ein Diagramm oder eine Tabelle, beschädigt ist.

  • Sicherere Dokumente. Eingebetteter Code, wie z. B. OLE-Objekte oder Microsoft Visual Basic für Applikationen (VBA)-Code wird in einem eigenen Abschnitt in der Datei gespeichert, sodass er einfacher zur speziellen Verarbeitung identifiziert werden kann. IT-Administratoren können Dokumente, die unerwünschte Makros oder Steuerelemente enthalten, blockieren und die Sicherheit für Benutzer beim Öffnen dieser Dokumente erhöhen.

  • Einfachere Integration. Entwickler haben direkten Zugriff auf bestimmte Inhalte in der Datei, z. B. auf Diagramme, Kommentare und Dokumentmetadaten.

  • Transparenz und verbesserte Informationssicherheit. Dokumente können vertraulich freigegeben werden, da persönlich identifizierbare Informationen und vertrauliche Unternehmensinformationen, wie z. B. Benutzernamen, Kommentare, nachverfolgte Änderungen und Dateipfade, einfach identifiziert und entfernt werden können.

  • Kompatibilität. Durch das Installieren eines einfachen Updates können Benutzer von Microsoft Office 2000-, Microsoft Office XP- und Office 2003-Editionen Dokumente in einem der neuen XML-Formate öffnen, bearbeiten und speichern.

Struktur der neuen XML-Dateiformate

Die Grundstruktur aller XML-Formate in 2007 Office System umfasst 5 Elemente:

  • Startkomponente. Die höchste Komponente in der Hierarchie.

  • XML-Komponenten. Dateien oder Ordner bestehend aus XML-Daten, die den Inhalt der Datei umfassen.

  • Nicht-XML-Komponenten. Komponenten, bei denen es sich nicht um XML handelt sondern in der Regel um Bilder oder OLE-Objekte.

  • Beziehungskomponente. Ein Komponententyp, der in der Regel auf andere Komponenten verweist, um die relationale Hierarchie der Komponentenstruktur zu definieren.

  • ZIP-Paket. Fasst Komponenten in einer einzigen Datei zusammen.

Startkomponente

Die Startkomponente, eine XML-Komponente, bei der es sich um eine Beziehungskomponente höchster Ebene handelt, bestimmt den Dateityp. Falls der Name des Hauptcontainers z. B. WordDoc lautet, wird DOCX als Dateinamenerweiterung verwendet.

XML-Komponenten

Wird eine im Office XML-Format formatierte Datei in 2007 Office System gespeichert, wird die Datei in eine Reihe von logischen Komponenten unterteilt, die die gesamte Datei beschreiben. In Office Word 2007 kann die Datei durch die Unterteilung in diese Komponenten rasch abgefragt oder außerhalb der ursprünglichen Office-Anwendung geändert werden.

So ist es für einen Entwickler z. B. einfacher, Dokumenteigenschaften aus einer Datei zu entfernen, da sich die Eigenschaften in einer einzelnen Komponente befinden, und die Komponente kann innerhalb des Dokumentcontainers durch Löschen der Komponente entfernt werden. Mit WordprocessingML (als optionales XML-Dateiformat in Microsoft Office 2003 bereitgestellt) musste zum Entfernen von Kommentaren die gesamte Datei analysiert werden, um nach den XML-Daten zu suchen, die den Inhalt des Kommentars darstellten, und diese dann zu entfernen. Im neuen Dateiformat werden featurebezogene Daten in Komponenten unterteilt. Kommentare, Verknüpfungen, Kopfzeilen, Fußnoten und andere Daten befinden sich in separaten Komponenten, die entfernt werden können. Es ist nicht erforderlich, das ganze Word-Dokument zu analysieren.

Nicht-XML-Komponenten

Nicht-XML-Komponenten sind in der Regel Bilder und OLE-Objekte. Alle Dateitypen, die binären Inhalt verwenden oder XML nicht verwenden, werden als Nicht-XML identifiziert. Bei einer Nicht-XML-Komponente handelt es sich meistens um eine Datei, die an ein Dokument angefügt oder in ein Dokument eingebettet ist. In der Office Word 2007-XML-Formatschemadokumentation wird die literale Beziehung und Schemahierarchie erläutert, die von Word für Dateien dieses Typs verwendet werden.

Beziehungskomponente.

Eine Beziehungskomponente ist eine XML-Komponente, die auf andere Komponenten zeigt und die relationale Hierarchie der Komponenten definiert. Die meisten XML-Komponenten auf hoher Ebene sind Beziehungskomponenten. XML-Komponenten, die Daten enthalten und nicht auf andere Komponenten zeigen, werden auch als Primitives bezeichnet und besitzen in der Regel einen Inhaltstyp application/xml.

ZIP-Paket

Das Verwenden eines ZIP-Pakets bietet folgende Vorteile in allen Anwendungen:

  • Offener Standard. Der ZIP-Komprimierungsalgorithmus ist ein definierter offener Standard.

  • Verringerte Dateigröße. Dateien sind in der Regel kleiner als eine entsprechende Binärdatei. Durchschnittlich sind Office Word 2007-Dateien abhängig von der Anzahl von Bildern 75 % kleiner als die entsprechenden Binärdateien.

  • Höhere Stabilität. Dateien sind robuster und weniger empfindlich gegenüber Fehlern in der Datei. In vorherigen Versionen musste eine Datei völlig intakt sein, damit sie ordnungsgemäß verwendet werden kann.

Die Verwendung eines ZIP-Pakets bedeutet zwar, dass die Datei binär ist, der WinFX-API-Satz stellt jedoch eine systemeigene Unterstützung für das Paketformat im System.IO.Packaging-Namespace bereit. Dadurch können Entwicklern Tools erstellen, die das Format verarbeiten und direkt das logische Modell (die Komponenten) verwenden, ohne eine Erweiterung oder Komprimierung des Pakets durchführen zu müssen.

Herunterladen dieses Buchs

Dieses Thema wurde zum leichteren Lesen und Ausdrucken in das folgende Buch zum Herunterladen aufgenommen: