XML 2007年度回顾(3)_Xml教程

编辑Tag赚U币
教程Tag:暂无Tag,欢迎添加,赚取U币!

推荐:快速从一个XML文件中查找信息
在网络时代,XML文件起到了一个保存和传输数据的作用。Soap协议通过Xml交流信息,数据库通过Xml文件存取等等。那么怎样快速的从一个XML文件中取得所需的信息呢? 我们知道,JAVA的JAXP中和Micr

9 月

本年度最大的事件发生在 9 月,借助对 Office Open XML 格式的支持,Microsoft 促成了 International Standards Organization (ISO) 各国成员的投票者注册活动。这次活动首先发生在瑞典,在瑞典,23 个主要的小型 Microsoft 附属公司在最后关头加入了瑞典标准协会(Swedish Standards Institute),其中 22 个公司投票支持 OOXML。其他国家级标准机构也吸纳了比往年更多的会员应用程序,其中大多数来自 Microsoft 的合作伙伴。以前未加入 JTC 1/SC 34(ISO 的附属委员会,大多数 XML 工作都在这里完成)的国家突然之间都加入了。

尽管 Office Open XML 获得了大多数选票(51-18-18),但它需要至少 2/3 的 “正式成员” 的支持,而且反对票不能多于 25%。这两个条件它都不满足,因此该规范被返回到 Ecma International 进行评议。也许 Microsoft 可以改进该规范,从而在 2 月的重新审议中获得所需的选票,但是结果还不能确定。撰写本文时,MIcrosoft 似乎不太愿意让 ISO 控制 OOXML 的改进,因此之前的一些赞成票可能会变成反对票。

为 OOXML 争取选票的努力也间接损害了一些其他不相关规范的利益,包括 Document Schema Definition Languages (DSDL)。许多支持 OOXML 的新成员对其他工作组任务不感兴趣。一旦他们投出选票后,他们将会消失,因而在决议无关的和争议较少的问题时无法达到法定人数。

10 月

Atom 发布协议在 10 月发布。APP 作为上传 blog 条目的简单格式登上了舞台,旨在取代像 MetaWeblog 和 WordPress API 这样的定制 API。但是,在这一过程中,APP 逐渐显示出越来越多的优势。

APP 只不过是一个用于将内容发布到 HTTP 服务器的具有 RESTf 风格的、可伸缩的、可扩展的安全系统。一方面,它是一个纯协议,完全独立于任何特定的服务器和客户机。另一方面,由于它也属于 HTTP,所以很容易在现有客户机和服务器上实现。

Web 最初只是作为一个读写媒介。但是在最初的 15 年里,主要的投入都放在了读取功能上。浏览器吸引了所有人的目光,而创建工具却没人关注。页面编辑器很少,而且主要通过 FTP 传递到文件系统。直到现在,借助 APP,编辑器才得以变得与浏览器一样丰富、功能强大且易于使用。

一些优秀的服务器软件(比如 eXist 原生 XML 数据库)已经开始使用 APP,而且一些客户机也正在使用它。在即将来临的一年里,将会有更多的软件采用 APP。在 Web 上发布内容将会变得与浏览内容一样简单。

11 月

在 11 月,Mark Logic 公开了 MarkMail,这是一个用于与电子邮件存档文件交互的基于 XQuery 的站点。Jason Hunter 这样描述它:

“每一封电子邮件都被存储为一个 XML 文档,并通过 XQuery 对其进行访问。所有的搜索、分面导航(faceted navigation)、分析计算,以及 HTML 页面呈现都是在一个单独的 MarkLogic Server 计算机上执行的”。

MarkMail 目前索引了大约 500 个邮件列表,包括 Apache 邮件列表、与 jdom 有关的邮件、xml-dev 等等。

自然地,人们使用此功能所做的第一件事就是搜索自己的知名度。在这个集合中,发贴最多的人(top human poster)一直都是 Saxon 届的名人 Michael Kay(一些自动发送提交消息的 Apache robots 试图超过他);但是在 xml-dev 方面,讨论最多的主题是 Len Bullard,有超过 4,000 封邮件与此相关。Len 的大多数邮件都包含好几页的文章,这使得他更加受关注。

我在 xml-dev 方面排名第 10,拥有 1,014 封邮件。要不是两年前我更换了邮件客户机,我可能会排在第 9 位。我的屏幕名称由 “Elliotte Rusty Harold” 更改为 “Elliotte Harold”,而数据库就把它们当作两个人来处理。系统中还有一些其他 bug。:-)

12 月

IDEAlliance 一年一度的 XML 2007 会议在 12 月初召开,这是本年度规模最大的一次 XML 展览。这次会议在波士顿举行。出席的人数有所减少,只有 300 余位与会者和 15 位展出者。

本次展出的大部分内容都是比较著名的技术,至少是中坚 XML 开发人员一直关注的技术。与去年一样,XQuery 仍然是展览会中的明星,尽管 XForms 也非常引人关注。XProc、RDFa、OpenDoc、Office Open XML、Atom、APP 和 JSON 也引起了不少人的关注。Web 服务和任何与 SOAP 相关的技术的缺席惹人注意。除了 “但是现在我们正转向 REST” 以外,我还没有听见过这方面的术语。

展览会上真正的新产品来自预料以外的厂家:Intel。尽管 Intel 在硬件方面更著名,但是它也开发能最大限度利用自己的处理器的软件。Intel 在展会上展出并发布了 Intel XML Software Suite,这是一个针对 Linux 和 Windows 的原生 X86 库的集合,提供了真正的快速 XSLT 处理、XPath 评估、XML 模式验证、文档对象模型(DOM),以及 Simple API for XML (SAX) 解析。其中还包括一个基于 Java 原生接口(Java Native Interface,JNI)的针对 Java™ 平台的包装器。

Intel 声称这个库的速度是 XPath 和 XSLT 的 XSLTC 和 Xalan 的两倍,而且比对大型(大于 100MB)文档进行原始解析的 Xerces-C 快 6 倍。解析器使用占用更少内存的符号表数据结构和跨两个或更多内核的多线程处理来实现这些性能。这个库可用于处理 300 MB 到 32 GB 范围的文档。对于更小的文档,由于这项技术开销比较大,所以传统解析器更快些。

我还没有机会验证 Intel 的宣称;但是如果这是真的,将非常有趣。Xerces 并不是最快的解析器,但是 6 倍的速度提升是其他任何技术都还未达到的。令人惊讶的是,Intel 使用标准 API、SAX 和 DOM 达到了这样的性能。对我个人而言,我非常相信 XML 解析性能能够提升,但是我以前以为需要专注于高性能的新 API 来实现。Intel 似乎不需要这样做。

W3C 工作组通常在 12 月完成预期的工作,并在圣诞节之前发布规范。对 W3C 来说,圣诞节前一周通常是一年中最忙的时间。请关注 http://www.w3.org/TR/,也许还有更多惊喜等着您。:-)

结束语

对于 XML 来说,2007 年是多产的一年。主要的争论集中在 office 文档的标准化方面,这场战斗甚至引起了流行刊物的关注(有谁曾经在 Wall Street Journal 上阅读过关于 XML 格式的 ISO 标准的信息呢?)

但是如果我不得不挑选出今年发生的最重要的事件,我很难在正在缓慢成长的 XQuery、APP 和 XForms 之间做出选择。所有这些都有可能从根本上改变 Web 的底层软件基础结构。XForms 是一个全新的客户机开发平台,XQuery 是一个全新的服务器开发平台,而 APP 将二者连接起来。在三者当中,XQuery 已能够应用于生产,而 APP 正在快速发展。在 2008 年,两者之间一定会发生重大事件。XForms 紧跟其后,也许稍微有点落后,但是我希望它的发展不算太慢。总之,XML 在 Web 上的前景要比以前更加光明。