Visão geral dos formatos de arquivo XML no Office System 2007

Atualizado: janeiro de 2009

Aplica-se a: Office Resource Kit

 

Tópico modificado em: 2009-01-07

O Microsoft Office 2007 apresenta novos formatos de arquivo XML que são robustos e baseados em padrões abertos. Os novos formatos de arquivo XML permitem a criação rápida de documentos de fontes de dados díspares, acelerando o assembly de documentos, a mineração de dados e a reutilização de conteúdo. Os formatos simplificam a troca de dados entre aplicativos no 2007 Office system e e sistemas corporativos.

Você pode criar um documento nos novos formatos XML com qualquer ferramenta e tecnologia padrão — o 2007 Office system não é necessário. Os usuários podem aumentar a produtividade publicando, pesquisando e reutilizando informações com mais rapidez e precisão no ambiente que quiserem.

Os novos formatos XML se baseiam nas tecnologias XML e ZIP padrão da indústria, dão suporte à integração total a qualquer provedor de tecnologia e estão disponíveis por meio de uma licença sem royalties. A especificação de formato de arquivo XML será publicada e disponibilizada sob a mesma licença sem royalties que existe para os esquemas de referência do Microsoft Office 2003 e é abertamente oferecida e disponível para uso amplo da indústria.

Benefícios dos novos formatos de arquivo XML

Os novos formatos XML apresentam uma série de benefícios para os desenvolvedores, profissionais de TI e usuários. Esses benefícios incluem:

  • Formato de arquivo compacto. Os documentos são automaticamente compactados e até 75 por cento menores.

  • Recuperação de arquivos danificados aprimorada. O armazenamento de dados modular permite que os arquivos sejam abertos mesmo se um componente do arquivo, como um gráfico ou uma tabela, estiver danificado.

  • Documentos mais seguros. O código incorporado, como objetos OLE ou código Microsoft Visual Basic for Applications (VBA), é armazenado em uma seção separada dentro do arquivo e, portanto, é facilmente identificado para processamento especial. Administradores de TI podem bloquear os documentos que contêm macros indesejadas ou controles, tornando os documentos mais seguros para usuários quando forem abertos.

  • Integração mais fácil. Os desenvolvedores têm acesso direto ao conteúdo específico dentro do arquivo, como gráficos, comentários e metadados do documento.

  • Transparência e segurança de informações aprimorado. Os documentos podem ser compartilhados confidencialmente porque informações de identificação pessoal e informações comerciais confidenciais, como nomes de usuário, comentários, alterações controladas e caminhos de arquivo, são facilmente identificadas e removidas.

  • Compatibilidade. Ao instalar uma atualização simples, os usuários das versões Microsoft Office 2000, Microsoft Office XP e Office 2003 podem abrir, editar e salvar documentos em um dos novos formatos XML.

Estrutura dos novos formatos de arquivo XML

A estrutura básica de todos os formatos XML do 2007 Office system consiste em cinco elementos:

  • Parte inicial. A parte de ordem mais alta na hierarquia.

  • Partes do XML. Arquivos ou pastas formados por XML que compõe o conteúdo do arquivo.

  • Partes não-XML. Partes que não são XML e geralmente são imagens ou objetos OLE.

  • Parte de relacionamento. Um tipo de componente que geralmente aponta para outras partes para definir a hierarquia relacional da estrutura de partes.

  • Pacote ZIP. Empacota partes em um único arquivo.

Parte inicial

A parte inicial, uma parte XML que é de relacionamento e poderia ser considerada a parte de ordem mais alta, determina o tipo de arquivo. Por exemplo, se o nome do contêiner principal for WordDoc, a extensão de nome de arquivo será .docx.

Partes XML

Quando um arquivo de formato XML do Office é salvo no 2007 Office system, é dividido em um conjunto de partes lógicas que descreve o arquivo inteiro. Para o Office Word 2007, dividir o arquivo nessas partes permite que ele seja facilmente consultado ou modificado fora do aplicativo do Office original.

Por exemplo, é mais fácil para um desenvolvedor remover propriedades do documento de um arquivo porque as propriedades são colocadas em uma única parte, e a parte pode ser excluída do contêiner do documento ao ser excluída. Com o WordprocessingML (fornecido como um formato de arquivo XML opcional no Microsoft Office 2003), remover comentários envolvia analisar o arquivo inteiro para localizar e remover o XML que representava o conteúdo do comentário. Com o novo formato de arquivo, dados relacionados ao recurso são divididos em partes. Comentários, links, cabeçalhos, rodapés e outros dados estão em partes separadas que podem ser removidas. Você não precisará analisar todo o documento do Word.

Partes não-XML

Geralmente, as partes não-XML são imagens e objetos OLE. Qualquer tipo de arquivo que usa conteúdo binário ou não usa o XML é identificado como não-XML. Uma parte não-XML, com mais frequência, é um arquivo anexado ou incorporado em um documento. A documentação de esquema do formato XML do Office Word 2007 explica o relacionamento literal e a hierarquia de esquemas usados pelo Word para arquivos desse tipo.

Parte de relacionamento

Uma parte de relacionamento é uma parte XML que aponta para outras partes e define a hierarquia relacional das partes. As partes XML de mais alto nível são partes de relacionamento. As partes XML que contêm dados e não apontam para outras partes também são chamadas de primitivas e normalmente têm um tipo de conteúdo de aplicativo/XML.

Pacote ZIP

O uso de um pacote ZIP oferece os seguintes benefícios em todos os aplicativos:

  • Padrão aberto. O algoritmo de compactação ZIP é um padrão aberto bem definido.

  • Tamanho de arquivo reduzido. Os arquivos são geralmente menores do que um arquivo binário equivalente. Em média, os arquivos do Office Word 2007 são 75 % menores do que suas contrapartes binárias, dependendo do número de imagens.

  • Mais robustez. Os arquivos são mais robustos e menos sensíveis a possíveis erros. Os arquivos anteriores exigiam que o o arquivo estivesse totalmente intacto para funcionar corretamente.

Embora o uso de um pacote ZIP signifique que o arquivo é binário, o conjunto de APIs WinFX oferece suporte nativo ao formato do pacote no namespace System.IO.Packaging. Isso permite que desenvolvedores criem ferramentas que processam o formato e trabalham diretamente com o modelo lógico (as partes) sem ter que considerar a expansão ou a compactação do pacote.

Baixar este manual

Este tópico está incluído no seguinte manual baixável para facilitar a leitura e a impressão: