2008年11月26日

[转载]语义网模式:语义技术概论

值得关注的技术,同时让我不禁联想到Collective Intelligence。

原文链接:http://www.yeeyan.com/articles/view/16804/18658

简介: 本文将分析语义网的趋势与技术,包括一些正在涌现的模式,对不同趋势的分类等等。

本文将分析语义网的趋势与技术,包括一些正在涌现的模式,对不同趋势的分类等等。

支 持语义网的基础技术都已经就绪了,同时很多创业公司和大型公司都在努力地利用这些技术以实现更好的客户价值。对于不同的人来说,语义网有着不同的意义。对 于一些人来说,语义网是一个数据的网络,其中数据被表示为RDF与OWL,又或者是Microformats格式。另外有人认为语义网是与网络服务相关的 一个概念。也有人认为它更多地与人工智能相关。而商家则总是会试图通过终端用户的价值来重新定义这个问题,他们认为不管怎样,一个实在的、方便的应用对于 消费者与企业来说才是重要的。这种不一致并非偶然,因为它的技术与概念涉及面甚广,有一些是可以实现的,有一些则只能猜测。

1、 自底向上与自顶向下

语义网的方法主要可分为两类:经典的自底向上和新兴的自顶向下的方式。自底向上的方法关注于标注好的信息,使用RDF表示,所以这些信息是机器可读的。自顶向下则着重于利用现成的页面信息,从中自动抽取出有意义的信息。近年来每一种方法都有一定的发展。

自 底向上的方法的一个喜讯来自于Yahoo搜索引擎支持RDF与microformats的声明。这是一个对于内容发布者、Yahoo和消费者来说三赢的举 措:发布者有了标注自己信息的激励,Yahoo可以更有效地利用这些信息,用户可以得到更好、更精确的结果。另一个喜讯来自于Dapper关于提供语义网 络服务的声明,这项服务可以让内容发布者给现有的网页添加语义标注。可以期待的是,这种语义工具越多,发布者标注网页就会越容易。自动标注工具的发展与标 注激励的增多,会使得自底向上的方法更加引人注目。

尽管工具与激励都有了,但要使得自底向上的方法流行起来还是有相当的难度。事实上, 今天google的技术已经可以在一定程度上理解那些非结构化的网页信息。类似地,自顶向下的语义工具关注点在于怎样处理现有的非完美的信息。这些方法主 要是利用自然语言处理的技术来进行实体的抽取,这些方法包括识别文档中特定实体(与人名、公司、地点等)的文本分析技术,以及能获取特定领域信息的垂直搜 索引擎。

自顶向下的技术关注于从非结构化的信息中获得知识,但它同样可以处理结构化的信息,自底向上的标注技术越多,自顶向下方法的性能就越能得到提高。

2、 标注技术:RDF,Microformats与Meta信息

在 自底向上的标注方法中,有几种候选的标注技术,它们都很强大,对它们的选择需要在简单性及完全性之间作一个权衡。最完备的方法是RDF:一种强大的基于图 的语言,用于表示事物、属性及事物间的关系。简单地来说,你可以认为RDF是这样的一种语言,它通过这样的方式来表达事实:Alex IS human (类型表达), Alex HAS a brain (属性表达), and Alex IS the father of Alice, Lilly, and Sofia (关系表达)。RDF很强大,但因为它是以高度递归、精确与数学化而著称的,同时它也是很复杂的。

当 前,大多RDF的使用都是为了解决数据的互通性。例如,医学组织使用RDF来表述染色体组数据库。因为信息被标准化了,所以,原来孤立的数据库就可以被一 起查询并相互比较了。一般说来,除了语义方面的意义,RDF最主要的好处在于实现互通性与标准化,特别是对于企业来说(下文有论述)。

Microfomats 提供了一个简单的方法――CSS风格-―来给现有的HTML文档添加语义标记,简洁的meta数据被嵌入到原有的HTML文档中。比较流行的 Microformats标签包括hCard:描述个人及公司联系信息;hReview:添加到评论页的meta信息;与hCalendar:描述事件的 标签。

Microformats因它的简单而得到流行,但它的能力仍然是很有限的。例如被传统的语义团体认为是很必要的层次结构的描 述,它就做不到。此外,为了使得标记集最小化,难免地它们表达的意思就显得比较模糊。这就引出了另外一个问题:把标签嵌入到HTML文档中是不是一种合适 的做法?然而,虽然仍存在很多的问题,Microformats还是因为它的简单而广受青睐,像Flickr, Eventful, LinkediIn及其它很多公司都在采用microformats,特别在是Yahoo的搜索声明发布之后。

还有一种更为简单的方法 就是把meta数据放在meta头中。这种方法已经在一定程度上被使用,可惜的是使用得还不是十分广泛。纽约时报最近为他们的新闻页面启动了一个标注扩 展,这种方法的好处已经在那些主题或事件页面中显现出来。例如,一个新闻页面可以通过一组关键词来标识:地点、日期、时间、人物与类别。另一个例子是关于 书的页面,O’Reilly.com已经在页面的meta头里加入了书本的信息:作者、ISBN与书的类别。

尽管所有这些方法不尽相同,但相同之处是它们都是很管用的。越多的网页被标注,就会有越多的标准会被实现,同时信息也会变得更为强大与更易于得到。

3、 消费者与企业

关 于语义网的讨论中,在用户与企业的关注点是不一样的。从消费者的立场来说,我们需要一个杀手级的应用(killer app),可以给用户传递实在而简单的价值。因为用户只会关注产品的实用性,而不会在乎它建立在什么技术之上。问题在于,直到目前为止,语义网的关注点更 多的都还停留在理论层面,如标注信息以使得机器可读。我们可以给出这样的承诺:一但信息都被标注,网络就会变成一个大型的RDF数据库,大量激动人心的应 用也会应运而生。但也有怀疑者指出,首先你必须得达成那样的假设。

已经有很多基于语义网的应用,如通用及垂直搜索引擎、文本助理工具、 个人信息管理系统、语义浏览工具等等,但在它们为大众所接受之前,还有很长的路要走。即便这些技术成功了,用户也不会有兴趣知道那背后使用了些什么技术。 所以说在用户层面推广语义网技术是没什么前景的。

企业就不一样了,第一,企业比较习惯于技术方面的论调,对于它们来说,利用语义技术可以增加产品的智能程度,从而形成市场价值。“我们的产品更好更聪明,因为我们使用语义网”,听起来这对企业来说是一个很不错的宣传。

从 企业层面来说,RDF解决了数据的互通性标准的问题。这个问题其实在软件行业的早期便已出现,你可以忘掉语义网,只把它看作是一个标准协议,一个使得两个 程序可以互通信息的标准。这对企业来说无疑是极具价值的。RDF提供了一个基于XML的通讯方案,它所描述的前景使得企业并不在乎它的复杂性。但还存在着 一个扩展性的问题,跟已经普及优化的关系型数据库不同,基于XML的数据库并没有普及,这归咎于其可扩展性与查询能力。就像九十年代末的对象数据库一样, 基于XML的数据库承载了太多的期望,让我们拭目以待。

4、 语义API

语义API是随着语义网的发展而发展的, 这类网络服务以非结构化的文本作为输入,输出一些实体与关系。例如路透社的Open Calais API,这项服务接受原始文本的输入,返回文本中的人名、地点、公司等信息,并在原文中加以标注。另一个例子是TextWise的 SemanticHacker API,该公司还提供了一百万美元的悬赏,以奖励基于它的API的最好的商业语义网应用。这个API可以把文档中的信息分为不同的类别(称为语义指纹), 输出文档中的实体与主题。这点和Calais的很相似,但它还提供了一个主题的层次结构,文档中的实际对象是结构中的叶节点。再一个例子来自于 Dapper,那是一个有助于从无结构的HTML页面提取结构化信息的网络服务。Dapper的工作依赖于用户在页面上为对象定义一些属性,比如,一个图 片出版商会定义作者、ISBN和页数的信息在哪里,然后Dapper应用就可以为该站点创建一个识别器,之后就可以通过API来读取它的信息。从技术的角 度来看,这似乎是个倒退,但实际上Dapper的技术在实际当中非常有用。举个典型的情景为例,对于一个并没有专门API可以读取其信息的网站,即便是一 个不懂得技术的人都可以在短时间内用Dapper来构造一个API。这是最强大、最快捷的把网站变为网络服务的途径。

5、 搜索技术

可 能语义网发展的最初动机就是因为很久以来搜索的质量都已经很难再得到提升。关于对页面语义的理解能提高搜索质量这一点假设也已经被证实。语义网搜索两个主 要的竞争者Hakia与PowerSet都已经做出不少的进步,但仍然不足够。因为,基于统计的google算法,在处理人物、城市与公司等实体时表现得 与语义技术同样的好。当你提问“法国总统是谁”时,它能返回一个足够好的答案。

越来越多人意识到对搜索技术边缘化的改进是很难击败 google的,因而转向寻找语义网的杀手级应用。很有可能,理解语义对于搜索引擎是有帮助的,但就此并不足以构建一个更好的搜索引擎。充分结合语义、新 颖的展示方式与对用户的识别能提升下一代搜索引擎的搜索体验。另有一些方法试图在搜索结果上应用语义。Google也在尝试把搜索结果分为不同的类别,用 户可以决定他们对哪些类别感兴趣。

搜索是一场竞赛,很多语义公司都在追逐其中。也许会有另一种提高搜索质量的可能:文本处理技术与语义数据库的结合。下面我们即将谈到。

6、 文本处理技术

我们已经看到越来越多的文本处理工具进入消费市场。像Snap、Yahoo Shortcuts或SmartLinks那样的文本导航应用可以“理解”文本与链接中的对象,并附加相应的信息于其上。其结果是用户根本不需要搜索就可以得到对信息的理解。

让 我们想得更远一些,文本工具使用语义的方式可以更为有趣。文本工具不再解析用户在搜索框里输入的关键词,而是依赖于对网络文档的分析。这样对语义的理解会 更为精确,或者说减少猜测性。随后文本工具给用户提供几类相关的结果供选择。这种方式从根本上不同于传统的把大量文档中得到的正确结果一起堆放在用户面前 的方式。

同样有越来越多的文本处理工具跟浏览器结合起来。自顶向下的语义技术不需要发布者做任何事情,因而可以想像上下文、文本工具可 以结合在浏览器里。Firefox的推荐扩展页里提供了很多的文本浏览解决方案,如Interclue, ThumbStrips, Cooliris与BlueOrganizer等。

7、 语义数据库

语义数据库是标注型语义网应用的一个发展方 向。Twine正在beta测试阶段,它着眼于建立一个关于人物、公司、事件、地点的私人知识库,数据来源为各类论坛的非结构化内容,这些内容可通过书 签、邮件或手工的方式进行提交。这项技术仍有待成熟,但它所能带来的好处显而易见。可以意想的一个基于Twine的应用为个性化的搜索,通过个人的知识库 来对搜索结果进行过滤。Twine底层的数据表示方式是RDF,可以开放给其它的语义网络服务所采用,但其核心的算法,如实体提取是通过语义API的方式 商业化的。路透社也提供了类似的API接口。

另外一个语义数据库的先行者是一家叫Metaweb的公司,它的产品的Freebase。 从它所展现的形式来看,Freebase只是一个基于RDF的更结构化的wikipedia翻版。但是Freebase的目标是建立一个像 wikipedia那样的世界信息库,这个信息库的强大之处在于它可以进行精确的查询(就像关系型数据库那样)。所以它的前景依然是更好的搜索。但问题在 于,Freebase怎样保持与世界信息同步俱进?google每天对网络文档进行索引,可以随着网络发展而发展。Freebase现在的信息仅来自于个 人编辑及从wikipedia或其它数据库中抓回的数据。如果要扩展这个产品,就必须完善从全网络获取非结构化信息、解析并更新数据库这一处理流程。

保持与世界同步这一问题对所有数据库方法都是一种挑战。对于Twine来说,需要有不断的用户数据加入,而对于Freebase来说,则需要有来自不断的来自网络的数据加入。这些问题解决起来并不简单,在真正实用之前都必须要有一个妥善的处理。

8、 结论

所 有新技术的出现都需要定义一些概念和得到一些类别。语义网提供了一个很激动人心的前景:提高信息的可发现性,实现复杂的搜索,新颖的网络浏览方式。此外语 义网对不同的人有不同的意义,它对于企业和对于消费者的定义是不同的,在自顶向下VS自底向上,microformats VS RDF等不同类型中也有不同的含义。除了这些模式,我们也看到了语义API与文本浏览工具的发展。所有的这些都还处于其早期发展阶段,但都承载着改变我们 与网络信息交互方式的期望。

没有评论:

发表评论