Calais 模块介绍
Calais?我一天就可以收到关于它的12,238封电子邮件。快点把它关掉(Buzz off)。
不不,不是 Cialis (西力士:伟哥2代),看清楚是 Calais。它是一种免费的(就成本而言)对自然语言的处理程序,一种富语义的元数据(rich semantic metadata),一种网络服务,等等诸如此类的东西(thingy: 东西)。切入正题(cut to the chase),它主要从您的网站读取文字信息,基于同样使用这项服务的人从其它多得数不清(bazillions)的网站读到的文字,它能为您通过计算自动得出(figure out)一些敏感的标签(sensible tags),这样您的编辑人员就可以省去这项工作。
但是,Calais 不是仅仅生成一组简单的没有层次的自由标签组,它会按小组生成标签到 Drupal 中意思相近(analogous)的分类词库(taxonomy vocabularies),而这些分类词库和“实体”(人、公司、城市等)、“事实”(某人的职位或者实体之间的关系)和“事件”(体育赛事)有关。而传回的格式是一种开发的、有语义的、并且与互联网相兼容的格式(Resource Description Framework or RDF),这种格式可以帮助您基于某个主题在文章与文章之间生成一个智能的联系。这个技术可以用来辅助 SEO ,获得更好的搜索结果,或者创建一个区块功能类似于“相关文章”,从同样使用 RDF 的资源中获得外部数据,又或者是一切您能想象地到的使用这些信息的应用。
它是如何工作的?
要了解一下它是如何工作的,可以在 http://viewer.opencalais.com 复制些文字。本例使用的文章来自于 Wikinews teaser about President Obama:
它能正确地分辨出文章的主题“Politics(政治)”、文章涉及的城市“Washington,United States(华盛顿,美国)”,人名“Barack Obama”和“George W. Bush”,甚至还有 George W. Bush 的原画。非常棒(Pretty nifty)!
So, 想要把这个功能和 Drupal 连起来?让我们一探究竟!
您所需的模块和其它 Stuff you will need
- Calais 模块:http://drupal.org/project/opencalais 。原作者使用的是 6.x-3.2
- Resource Description Framework (RDF) 模块: http://drupal.org/project/rdf 。原作者使用的是 6.x-1.0-alpha7
- ARC 2 RDF classes for PHP: http://arc.semsol.org/download. 原作者使用的是 ARC 2 from 2009-03-05.
- A Calais API key from http://opencalais.com/ (这个网站也是用 Drupal 做的,相信使用起来不会有什么问题 ;))
模块安装 Installation
- 下载 Calais 模块和 RDF 模块并解压到 Drupal 站点的 sites/all/modules/calais 和 sites/all/modules/rdf。
- 下载 ARC 2 库并解压到 sites/all/modules/rdf/vendor 。
- 开启下列模块:
- Calais 安装包
- Calais
- Calais API
- RDF 安装包
- RDF
- Calais 安装包
设置 Configuration
- 打开页面 Administer › Site configuration › Calais Configuration 并输入 Calais API key。
- 点击 Calais Node Settings tab (admin/settings/calais/calais-node)。这里有几个收起来的 fieldsets :“Global” 和站内其他针对每个内容类型的选项。
- 下一步,您需要对一个或多个内容类型设置 Calais Processing (处理方式)。可以选择用 Calais 仅仅提示术语(点击 tab 查看),还是自动添加发现的术语(term),是在第一次添加文章是添加属于还是每次更新时都更新术语。
您还可以设置 Relevancy Threshold(关联度的阈值——界限)。通过设置这个选项来规定(dictate)关联度多少的属于会被加入这个节点(node),范围从0% (给任何 Calais 提出的(comes up with)术语加标签)到100% (只标记高度关联的术语为标签)。

- 如果您展开 "Global" fieldset, 您会看到一大串 Calais 知道的词库(vocabulary)。每一个选项都对应一个 Drupal 的分类词库(taxonomy vocabulary),您可以在 Administer › Content management › Taxonomy (admin/content/taxonomy)页面看到。这些词库将会保存 Calais 在您内容中发现的术语。
您能选择或者取消这些选项;例如, 如果您的网站有许多和Windows相关的内容,您可能会取消“MedicalCondition”(医疗条件)和“MedicalTreatment”(药物治疗),这样“virus”和“inoculate”就不会发生歧义(misinterpreted)。(Cityreader注:virus 在windows 操作系统中是程序病毒,如果没有取消“MedicalCondition”和“MedicalTreatment”词库,那么可能会被划入生物含义上的病毒)。
Calais 所有词库连同一些例子,请点击 Calais documentation 访问。

Ok,让我们给内容添加一些标签,准备好了吗!
- 假设您的网站有“Story”内容类型,打开 Create content › Story 并输入写内容,下面的文章内容我是从 Wikipedia's article on Nintendo DS 摘取来的。您会注意到 Calais 模块添加了 200 个左右的词库幸好都被隐藏在表单里。

- 一旦递交内容,您会注意到在 node 上方有一个新的“Calais” tab。您可以看到它抓取到的所有标签,诸如公司名字(Nintendo and Nintendo of America)、地址(Australia、Canada、Europe、Japan等),常见的话题(Technology(技术))。

- 如果您点击 Calais tab,您可以看到下面的界面,它可以根据您之前选择的话题展示给你大量的话题,所有发现的术语都用绿色高亮显示。
这些术语会基于它和文章谈及的话题的关联度来设置权重。像“Technology”和“Nintendo”这样的单词权重最高,而像“Canada”和“Australia”这样的其他术语权重相对较低。您可以通过点击蓝色的术语来移除这个术语,你也可以添加您自己的标签来修正信息,这样可以帮助 Calais 变得更只职能。例如,我可以关闭所有与国家有关的词库,再添加一个产品词库对应术语“Nintendo DS”。

注意您可能也想安装类似 Pathauto 的模块来为您的分类术语生成更加直观的 URLs (例如: products/nintendo-ds 而不是 taxonomy/term/1234)。并且如果您例行公事时对一些术语感到困惑,您可以使用 Calais Tag Modifier 模块(Calais 安装包中的一个子模块)来设置术语的黑名单(例如,忽略“Other”这个术语)和术语替换(Color => Colour)。
酷毙了!还能用它干什么?
- 利用 Calais 的 Views 模块整合功能创建 Calais 术语的列表, 用 Calais 术语过滤的 node 列表等等。
- 有大量的(loads of)老的内容(legacy content)?用 Calais 批量处理的特点 (Bulk Processing feature) (admin/settings/calais/bulk-process) 来为全部的历史数据添加标签(back-tag)。
- U使用 Calais Geo 模块 (Calais 模块的子模块) 来根据 Calais 的 country、city 和 state/province 标签来为内容添加地理标签(geocode content) 并通过 GMap 模块显示在地图上。
- 使用 More Like This 模块建立基于 Calais 添加的标签相关的站内和站外的内容列表。它可以从YouTube 视频、Flickr 照片等获得内容。
- Topic Hubs 模块也可以用来基于您创建的表达式自动聚合内容(例如,“所有有关于任天堂(Nintendo)或Wii的内容”)。内容可以显示在地图上、列表中,或者通过 Panels 模块重新排版。
- 使用 Calais Marmoset 模通过 RDF 标记您的内容,这样帮助搜索引擎的爬虫理解。
太棒了(Awesome)! 我想学得更多!
很好!下面是本文中用到的资源。尽情享受吧(Go nuts)!
- How does Calais work? A conceptual overview.
- Using Intelligent Web Services for Semantic Drupal Sites Drupalcon DC video Includes lots of screenshots and examples from the Calais suite of modules by the author himself. Highly recommended.
- Calais module demo screencast (slightly outdated) Demonstrates Calais module in action.
- OpenPublish A Drupal installation profile with the various modules already pre-configured.
- DBPedia, an example of an external data source with structured data from Wikipedia which your site can pull from.
- Resource Description Framework (RDF) module handbook
- Calais module handbook
文章说明
- 参考文章地址:Introduction to Calais
- Cityreader 对原文进行翻译,结合了自己的理解和注释。
- 转载本文请留言,请保留作者名和网页地址:)
- Petal SEO 为您提供更多精彩的 Drupal 文章
- Printer-friendly version
- Login or register to post comments


