2007 Office system 中的 XML 文件格式的概述

更新时间: 2009年1月

应用到: Office Resource Kit

 

上一次修改主题: 2009-01-07

2007 Microsoft Office system 介绍了稳定的且基于开放式标准的新 XML 文件格式。这种新 XML 文件格式能够基于完全不同的数据源快速创建文档,并可以加速文档组合、数据挖掘和内容重用。此格式简化了 2007 Office system和企业业务系统的应用程序之间的数据交换。

您可以使用任何标准工具和技术来创建新 XML 格式的文档 - 不需要 2007 Office system。用户可以在他们选择的环境中更迅速和准确地通过发布、搜索、重用信息来提高工作效率。

新 XML 格式将基于行业标准的 XML 和 ZIP 技术,支持由任何技术提供者提供的完全集成,并且可通过版权免费许可证获取。XML 文件格式规范即将发布,可在 Microsoft Office 2003 引用架构所拥有的同一版权免费许可证下使用,并且将公开提供并在行业中广泛使用。

新 XML 文件格式的优点

对于开发人员、IT 专业人员和用户来说,新 XML 格式具有许多优点。其中包括:

  • 压缩的文件格式。文档会自动压缩至原来文件大小的 75% 以下。

  • 改进了对损坏文件的恢复。即使文件内的某一组件(例如图表或表格)已损坏,利用模块数据存储也可以打开文件。

  • 更安全的文档。嵌入的代码(如 OLE 对象或 Microsoft Visual Basic for Applications (VBA) 代码)存储在文件中的单独位置,以便在进行特殊处理时可以轻松地进行识别。IT 管理员可以阻止包含不需要的宏或控件的文档,从而在打开文档时确保文档对用户是安全的。

  • 更轻松的集成。开发人员拥有对文件内特定内容(如图表、批注和文档元数据)的直接访问权限。

  • 透明度和改进的信息安全性。文档可以以保密方式共享,因为个人身份信息和业务敏感信息(例如用户名、批注、修订和文件路径)可轻易识别和删除。

  • 兼容性。通过安装简单的更新,Microsoft Office 2000、Microsoft Office XP 和 Office 2003 版本的用户可以打开、编辑和保存某一新 XML 格式的文档。

新 XML 文件格式的结构

2007 Office system中所有 XML 格式的基本结构由五个元素组成:

  • 开始部分。在层次结构中排序最前的部分。

  • XML 部分。由构成文件内容的 XML 组成的文件或文件夹。

  • 非 XML 部分。不是 XML 部分,通常为图像或 OLE 对象部分。

  • 关系部分。通常指向其他部分以定义部分结构的关系层次结构的类型部分。

  • ZIP 包。将各部分打包为一个单独文件。

开始部分

开始部分用于确定文件的类型,是关系部分的 XML 部分并且被视为排序最前的部分。例如,如果核心容器的名称是 WordDoc,则该文件扩展名为 .docx。

XML 部分

当 Office XML 格式化的文件保存在 2007 Office system后,该文件会被分为一组用于说明整个文件的逻辑部分。对于 Office Word 2007,将文件分为这些部分可以在原 Office 应用程序之外对文件进行轻松查询或修改。

例如,开发人员可以更轻松地从文件中删除文档属性,这是因为属性放置在单个部分中,您可以通过直接删除该部分,将其从文档容器中删除。但是使用 WordprocessingML(作为 Microsoft Office 2003 中的可选 XML 文件格式),在删除批注时会分析整个文件来查找和删除表示批注内容的 XML。如果使用新文件格式,相关功能的数据会被分为多个部分。批注、链接、页眉、页脚以及其他数据均位于可以被删除的单独部分。您不需要分析整个 Word 文档。

非 XML 部分

非 XML 部分通常为图像和 OLE 对象。任何使用二进制内容或不使用 XML 的文件类型均为非 XML。非 XML 部分是附加到或嵌入到文档中的最常用文件。Office Word 2007 XML 格式架构文档用于说明 Word 在此类文件中所使用的文本关系和架构层次结构。

关系部分

关系部分是指向其他部分并定义部分间的关系层次结构的 XML 部分。大多数高级别的 XML 部分都是关系部分。包含数据并不指向其他部分的 XML 部分也称为基元,通常拥有应用程序/xml 的内容类型。

ZIP 包

使用 ZIP 包,可以为所有应用程序提供以下好处:

  • 开放式标准。ZIP 压缩算法是一种具有明确定义的开放式标准。

  • 减小了文件大小。文件大小通常比同等的二进制文件要小。根据图像的数量,Office Word 2007 的文件与同等的二进制文件相比,其平均大小不到后者的 75%。

  • 增加了稳定性。文件更为稳定可靠,并且降低了对文件中潜在错误的敏感度。之前的文件要求文件完整无损才能正常运作。

虽然使用 ZIP 包意味着文件是二进制文件,但 WinFX 应用程序编程接口 (API) 集为 System.IO.Packaging 命名空间中的程序包格式提供了本机支持。这使开发人员能够创建处理该格式的工具,并且在无需考虑扩展或压缩程序包的情况下,根据逻辑模式(部分)直接进行处理。

下载此书籍

本主题包含在以下可下载书籍内,以方便您阅读和打印: