美国专利                                     5,920,859
李                                         1999年7月6日


超文本文档检索系统和方法(超链分析)


摘要

一个与根据超链指向的查询索引文档相关,用于检索文档的搜索引擎。它的索引器遍历超文本数据库并寻找包括超链指向的文档地址与每个超链锚文本在内的超文本信息。超文本信息是贮存在一个倒排索引文件里,这个倒排索引文件亦可用于计算对于各超链指向的特定文档链接向量。输入查询时候,搜索引擎找到锚文本里含有查询词的全部文档向量。与此同时计算了查询向量,然后算出查询向量跟每个文档链接向量的点积。锚文本里含有查询词的全部文档相关点积的加总决定了每一个文档的相关性排名。


说明书



发明畛域

本发明涉及超文本文档检索,更具体地说是分布在譬如万维网之类的广域网的搜索数据库的超文本文档检索系统和方法。


技术背景

超文本是个提供一种使用节点与链接处理信息的独特和非连续方法的数据库系统。节点,即文档或文件,包含文本、制图、音频、视频、动画、图像等。而链接使节点或文档与其它节点或文档相连。最普及的超文本抑或超媒体系统是万维网,它使用超链接使各式各样的节点或文档链接在一起,由此允许以非线性组织网络上的文本。
超链是两个被称为超链头和尾的锚点间的关联。头锚点是目标的节点或文档,而尾锚点是从那个链接而来的文档或节点。在网络上,超链通常被认定为在尾锚点文档里彰显或凸显的某几个文本或制图。当一名用户览阅尾文档突显的“点击”或“锚文本”质料时,超链自动与用户电脑连接或对那个特定超链“指向”头锚点文档。
当用户已经找到他感兴趣的相关主题的尾部文档时,该超文本系统通常是有效的。尾部文档的超链接是由文档的作者创建的,他通常已经检查过超链接头部文档的资料了。因此,用户点击超链接的行为,在一定程度上保证了该超链接的头部文档的资料与尾部文档的锚文本之间的相关性。 当一名用户已经找到了尾文档有关的对那个用户感兴趣的标的物,这个超文本系统一般很管用。超链在尾文档被创建来自文档的作者他通常将审视质料在超链的头文档里。因此,一位用户点击一个超链有一个高度数的确认那质料在头文档有一些有关的对锚文本在超链的尾文档里。
随着互联网和网络的流行度增长,查找相关文档的难度越来越大。如果用户找不到第一个感兴趣主题的相关文件,他自然也不会用超链接找到其它的相关文件了。此外,如果相关文件的作者没有创建其它相关网站的话,单一相关文档的位置可能就无法导向其它文档。因此,信息的增加促进了各种搜索引擎的发展,帮助用户更容易找到所需要的信息。现在,网络上可用的搜索引擎有很多,如Excite,Infoseek和Yahoo!等。
搜索引擎通常把用户查询看作输入,并试图找到与其相关的文件。查询通常表现为几个描述用户感兴趣主题的词。为了确定得到的文档是否与查询匹配,搜索引擎通常把用户的查询看作是文档集合的索引来进行运算。由于多数的临时用户不喜欢输入过多的文字,及特定的查询更倾向于流行的主题,可能会出现许多与查询不习惯的结果。当搜索引擎已经索引了一个大的文档集合时,比如网络,很有可能会找到大量与查询相关的文档。因此,大多数搜索引擎会列出一张文档的清单,该清单的文档排名由与查询的相关性决定,相关性相对低的文档将不会被识别给用户。所以,为了限制用户需要浏览的文档的数量并满足用户的信息需求,搜索引擎决定(具有满足用户需求的)文档检索能力的排名的方法极其重要。
几乎所有的搜索引擎排名技术都取决于给出的文档中查询关键词出现的频率。当其它相关因素一样时,关键词在给出的文档中出现的频率越高,该文档的相关分数就越高。在确定相关分数时,除了词频,也可能会考虑到其它影响因素,如文档频(即包含该关键词的文档数量)。一旦各种因素,如词频或文档频,确定了,例如向量空间模型、概率模型、模糊逻辑模型等的各种模型将会被用来开发数值(具有满足用户需求的)文档检索能力的排名。参考Harman, D., "Ranking Algorithms," Chapter 14, Information Retrieval, (Prentice Hall, 1992).
比如说,在向量空间模型中,查询关键词qt是查询向量的维度,那用户查询q则是向量。
Q = <qt1, qt2, ..., qtm> 数据库的文档也用关键词表现为向量,关键词dt在文档中则表现为向量维度。
D = <dt1, dt2, ..., dtn> 那么,(具有满足用户需求的)文档检索能力的分数就被计算为Q和D的点积了。 向量Q或D的评估价值会以各种方式进行加权。最为流行的关键词加权公式是:
Weight (t) = TF*IDFt
文档或查询中给出的关键词词频为TF,其反向文档频IDF代替t。反向文档频是指文档集合中包含该关键词的文档的反向数量。

数学公式4
使用反向文档频以确保如“这”、“的”、“和”等无用词没有高的权重。此外,当查询多重关键词时,如果其中一个关键词出现在许多文档中,使用IDF加权,就会使得含有该关键词的文档获得较低的排名,而含有其它关键词的文档则获得更高的排名。

标准化的关键词加权也会考虑到包含特定关键词的文档的长度。假设在一定量的文本中,关键词出现得越频繁,文档与包含该关键词的查询的相关性就越高。但是,在很多情况下,这个设想是不正确的。例如,如果查询的是“Java tutorial”,文档J中有100行只含有“Java tutorial”这个词,那J将获得非常高的(具有满足用户需求的)文档检索能力的分数,并被搜索引擎作为相关性最高的文档呈现给用户。可是,对于用户来说,该文档是无用的,因为它并没有提供任何关于“Java tutorial”的信息。用户真正需要的是一个好的Java程序设计语言指南,像在Sun's Java指南网(http://Java.sun.com/tutorial)上找到的那样。不幸的是,短语“Java tutorial”并没有在Sun’s网上出现100次,因此多数搜索引擎会不正确地认为Sun’s网的相关性低,从而获得的(具有满足用户需求的)文档检索能力的排名就低于文档J。

像J这样的文档不会出现在传统的数据库中,因为传统数据库中文档的选取或制作是为了其内容而不是重复某个关键词。网络中,每个人都可以成为发布人,没有人会选择像J这样的文档的。但事实上,为了使自己的文档能被检索到搜索引擎提交的排名表的顶部,有些人会考虑到词频或标准化词频而故意这样构建自己的文档。比如说,以文本的前五行含有关键词“性”来的方式来设计一个网页。该网站可能会是低质的或是与性无关的,但是搜索引擎却会上当给它一个好的排名,因为网页中关键词“性”出现的频率较高。

在超文本环境中,长度标准化也可能出现问题。如果文档中含有多媒体而不是文本的话,可能会增加精确计算文档相关长度的困难。

传统的搜索引擎使用关键词可能不能检索包含这些关键词的同义词的相关文档。因此,为了查找到包含关键词“attorney”的文档但用户只查询“lawyer”,很多搜索引擎都需要有广泛的同义词词汇,建造这个词库是非常昂贵和困难的。如果相关文档使用的语言与搜索引擎用户输入查询的语言不一样,传统的搜索引擎也不能查找到。翻译工具可以解决这个问题,但是也困难和昂贵。

此外,传统的搜索引擎困难无法识别非文本资料,即使该资料与查询相关。例如,当搜索引擎只能搜索文档中包含关键词“莫扎特”的文本时,一个包含莫扎特图片或音乐示例的网页,可能不会被搜索引擎识别为相关。

发明概要

索引文档的方法包括获取指向文档的超链接清单,其中每个超链接含有一个或多个关键词。用在指向文档的超链接中的关键词来索引该文档。许多含有特定关键词的超链接,可能会指向同一个文档。用该文档来索引其包含特定关键词的超链接数目。
特定的关键词可能出现在指向许多文档的超链接中,用该关键词索引被含有特定关键词的超链接指向的文档的数目。索引可能包括创建一个列有每个关键词的文件,含有该关键词的超链接指向的文档的数量,含有该关键词的超链接指向的文档的标识符,和含有指向的被识别文档的关键词的超链接数量。
用含有特定关键词的超链接指向的文档的标识符来索引含有特定关键词超链接指向的文档数量。在指向文档的超链接上的特定关键词的索引可能与被含有特定关键词的超链接指向的反向文档数量一致。
一个关键词可能会在一个指向文档的超链接中出现若干次,用被该超链接指向的文档索引该关键词出现的次数。
关键词可以是词干。本发明中的方法可以在设备中操作,也可以作为可读计算机的指令集储存起来。
依据本发明的另一方面,文档排名的方法是基于文档与查询的(具有满足用户需求的)文档检索能力的,其中查询中至少有一个关键词,而超链接要包含关键词并指向相应的文档。方法包括将查询的单词比作在一个超链里的单词,为每个超链取得一个(具有满足用户需求的)文档检索能力的排名,包括合计指向特定文档的每个超链接的(具有满足用户需求的)文档检索能力的排名来获取该文档的(具有满足用户需求的)文档检索能力的分数。
查询可以表现为一个查询向量,该向量包含每个关键词的维度。由于每一超链接指向一个文档,该文档可以表现为文档链接向量,该向量包含在指向该文档的相应超链接上的关键词的维度。把查询中的词看作超链接中的词,包含用文档链接向量计算该查询向量的点积。合计指向文档的超链接的(具有满足用户需求的)文档检索能力的排名,包括计算用特定文档的文档链接向量得到的点积来获取该文档的(具有满足用户需求的)文档检索能力的总分。该总分可以被看作是文档获得的排名。
查询向量中的关键词维度可能与被含有该关键词超链接指向的反向文档数量相关。同样地,文档链接向量中的关键词维度与许多被含有该关键词超链接指向的反向文档相关。
超文本文档检索系统和方法的其它固有的特征和优点已经被公开,或对于熟悉这方面技术的人来说,从以下的详细说明及与之对应的附图可以看出其逐渐明显化。


制图简述


附图

附图1是包含本发明中超文本检索系统的分散式计算机网络方块图;
附图2是本发明的索引与检索系统的方块图;
附图3是两个超文本文档的方块图
附图4是包含文件间超链接表示的超文本系统的例子;
附图5是本发明的索引编制程序的流程图;
附图6是本发明的检索过程流程图。

优选方案的详细说明

附图1

附图1是典型的分散式超文本系统,其包括连接着服务器12、13、14、15和16的客户端计算机10。虽然客户端计算机10显示为直接连接服务器12,但它也可以通过服务供应商及一个或多个其它服务器来间接与服务器12连接。服务器13、14、15和16分别包含文档17、18、19、和20里的文件。文件17、18、19和20里的文档对网络用户有效。服务器12包含下面讨论得更详细的索引文件21。为了创建索引文件21,服务器12横贯于整个网络,查找存在于其它服务器13-16中文件17-20的超文本文档。
附图2

附图2描述本发明的索引与检索系统30的通用结构。系统30外的用户通过用户界面34输入一个查询32,该界面是通常存在于用户的计算机,例如客户端计算机10(图1)。该查询通过网络发送到存在于如服务器12(图1)的服务器上的索引与检索系统30。该系统包括检索引擎36,索引文件38和索引引擎40。以下将会描述检索引擎36和索引引擎40的运行及索引文件38的创建。像在万维网上那样,索引引擎40横贯文档数据库42,创建索引文件38。文档数据库42可能包括文件17-20(图1)。由索引引擎40创建的索引文件38会采取多种方式与本发明一致,可能包括链接文件44,倒排文件46和文档向量文件48,上述的以下都会详细描述到。检索引擎36使用索引文件38以便确定文档的(具有满足用户需求的)文档检索能力的排名,及通过用户界面34在49上输出搜索结果。
附图3

附图3是文档A和B的超链接以箭头50标出的图解,他们分别是尾部锚点和头部锚点。文档A的地址是URL1,文档B的地址是URL2。地址是以统一资源定位符的形式,它是头部和尾部锚地址的一种统一资源标识符。URL的典型格式是:http://www.w3.org/hypertext/book.html

URL后可以选择性地接着磅符号和字符序列,它被称为片段标识符以便识别文档中的片段,即http://www.w3.org/hypertext/book.html#Chapter1

文档A中包含标题52,摘要54和文本或多媒体56。同样,文档B中包含标题58,摘要60和文本或多媒体62。
文本或多媒体中可能包含像文档A中的锚文本64那样的锚文本。文档A中也包含指令66,它充当着超链接50的指令。表示超链接50中的指令66,显示在超文本标记语言上,它包括指令“href”并确定头部锚点的地址,在这种情况下,文档B的地址为URL2。指令66包含语句“good tutorial on Java”,它识别超链接50的锚文本。通过识别语句“good tutorial on Java”为指令66的锚文本,从而使该语句被突出显示在文档A的文本56中。当强调像文本64这样的文本时,也提醒了文档A的读者超链接的存在。当用户点击锚文本64时,指令66指向文档B,从而引导用户的计算机向地址URL2发送信息,索要文档B的副本。
当然,文档A的作者必须创建指令66并确定锚文本64。通常,按照该作者的看法,创建类似这些文档的作者需要用锚文本的语言(案例中的锚文本64)来描述头部锚文档(案例中的文档B)。因此,如果许多作者像文档A的作者那样用锚文本64做文档B的链接指令,那么查找Java指南的用户非常有可能对文档B中的信息感兴趣。
附图4

附图4是一副简单超文本系统制图,它只包含四个文档,文档A,B,C和D。如附图4所示,该系统只有3条超链接,超链接50(也显示在附图3中),超链接68和70。如附图3所示,文档A的锚文本“good tutorial on Java”是从文档A到B的超链接的尾部。文档C包含两组锚文本“Java tutorial”和“Sun’s Java site”。文档C的锚文本72通过超链接68指向文档B。锚文本74通过超链接70指向文档D。附图4所显示超文本系统在下面将被用来描述包括索引引擎、检索引擎和被索引引擎创建的索引文件在内的超文本系统。
附图5

附图5将描述附图2中的索引引擎40的运行。在区块100,索引引擎横贯数据库的每个文档。穿过数据库有多种方法,但通常使用被称为蜘蛛的程序。请参考Cheong, F.C. Internet Agents. Spiders, Wanderers, Brokers, and Bots, (McMillan, 1997)。蜘蛛开始获取不同的URL地址,发信息到这些地址索要位于它们包含文档。这些地址可以识别服务器,储存在服务器山的文档,和文档组。依靠获得的文档或被URL识别的文档,蜘蛛检验这些文档查找识别其它地址的超链接指令。蜘蛛记录这些地址并寻找地址上的文档。
遍历于区块100的每个文档时,系统也获取区块102相关文档的超链接信息。这样的超链接信息可能包括文档的URL,文档中超链接的锚文本的关键词和含有该锚文本的超链接指向的文档的URL。系统也可能会收集各种各样关于文档的信息,包括它的标题和文档正文。如果有需要的话,系统甚至会创建一个摘要。

在区块104,系统全家一个或多个链接文件,文件的词条的格式是:

<doc.ID, anchor-text>,

其中doc.ID是有相应锚文本的超链接的头部文档的标识符。
doc.ID可能是URL的一种形式,也可能是用文档URL以某种方式来索引的另一种标识符。框104A是链接文件的一个样本,如附图2所提到的,是为文档的数据库而创建的(显示在附图4中)。由于附图4的数据库有3个超链接,就有3个词条在文件104A中。系统可能也储存了关键词在某特定链接的锚文本出现的次数。如例子所示,每个关键词只出现一次在特定的链接中。
虽然附图5显示,穿过区块100的文档比在区块104创建链接文件早,但是有可能一些待创建的链接文件会优先穿过数据库中文档。事实上,一旦数据库被彻底穿过,可能需要更新链接文件和其它穿过文档的索引文件,这是为了确定数据库是否增加了补充文件或者文档是否增加了超链接。
在区块106,不同超链接的锚文本可能被截止了。截词是把词从不同的构形附加成分简化为精简词干的一种方法。在截词时,单词是不分大小写的,如“Tutorial”和“tutorial”是一样的。“Sun’s”被截为“Sun”,“documents”被截为“document”等等。

然后操作方式传递到区块108,它创建一个反文件,所用的词条格式是

<term, doc.>,

其中term是从超链接的锚文本中摘取的一个词,doc.是该超链接的头部文档的标识符。区块108的反文件显示在文件108A中。由于锚文本“good tutorial on Java”有四个词,则该超链接导致四个词条在文件108A中。
在区块110,反文件以关键词的方式排序,同时计算文档频。文档频被定义为被锚文本中含有特定关键词的超链接指向的文档的数量。例如,附图4中的数据库,关键词“Java”出现在3个超链接的锚文本上,这3个超链接总共指向两个不同的文档。因此,关键词“Java”的文档频是2。关键词“good”只在指向唯一一个文档的超链接上出现一次,那么关键词“good”的文档频率为1。

操作方法其次传递到区块112,创建最终反文件显示在112A中。词条在最终反文件的格式是

<term, DF, doc1, lf1, doc2, lf2, . . . , doci, LFi>,

其中,term 是锚文本中的关键词,DF是该关键词的文档频,doci是文档i的文档标识符,而LFi则是doci的链接关键词词频。链接关键词词频是指向doci的超链接的数量,其中doci的锚文本是由特定关键词组成。例如,关键词good在指向文本B的超链接中只出现一次,所以它的链接关键词词频是1。关键词Java出现在指向文档B的两个超链接上,所以其链接关键词词频是2。本发明中,检索引擎的实现得依靠获取与用户查询相关的文档。

doc.id, v1, v2, . . . , vi
<w(t1), w(t2), . . . , w(ti)>

框114中的索引引擎也可能会生成一个文档链接向量,其词条的格式是:doc.id, v1, v2, . . . , vi,其中doc.id是某一特定文档的标识符,vi是链接文件的超链接的向量表示法。每个向量vi的格式表现为1), w(t2), . . . , w(ti)>,其中w(ti)是关键词i在给出的锚文本中表现为向量的超链接的权重。文档链接向量的维度(w(ti))是由TFi *IDF计算的,其中TFi是关键词i的词频,即关键词在给出的锚文本中出现的次数,IDF是关键词的反文档频(1/DF)属于链接向量的特定维度。计算维度时,用文档的总数划分文档频可获得标准化的文档频,使用反向文档频的对数也可以满足需要。
文件114A是文档链接文件的一个例子,它已经生成在区块114中。由于有两超链接指向文档B,则文档B中有两个向量连同其标识符被输入到文件114中。在指向文档B的首个超链接的锚文本中,有四个不同的词“good tutorial on Java ”,那么文档B的首个向量则有四个维度。因为指向文档B的第二个超链接只有两个词(Java,tutorial)在锚文本中,用文档B索引的第二个向量也就只有两个维度。
如下面所描述的,文档链接向量文件114A被用来计算关于特定查询的的(具有满足用户需求的)文档检索能力的分数。不是自动地创建文档链接向量文件,而是在收到查询时再创建文档链接向量文件,这更符合需要。因此,在需要创建的链接向量文件中,唯一的词条与文档有关,这些文档含有查询关键词在指向该文档的超链接的锚文本中。

TF*IDF = 1*1 = 1

在文档B的第一个向量中,前三个维度是“one”,这是因为关键词“good”、“tutorial”和“on”只出现在指向一个文档的锚文本中,并且只出现一次。因此,无论如何,关键词“Java”的词频是1,文档频是2,反文档频是0.5。得出“Java”的TF*IDF是0.5,文档B中首个向量的最后一个维度是0.5,剩下的其它在第二个向量的维度和文档D的向量也是根据TF*IDF的公式计算的。
据附图2显示,链接文件104A、反文件108A、最后的反文件112A和文档链接向量文件114被认为是索引文件。虽然附图5中的文件是首选,但是还有很多索引技术可以和本发明中的系统一起使用的,它们依靠锚文本和链接频来索引文档。例如,可以压缩文件,文件中或文件间可能存在数据的各种关系结构。

附图6

现在引用附图6,检索程序通过向量空间模型和链接向量投票来实现(具有满足用户需求的)文档检索能力的排名。如文件120A所显示的,在框120中,该程序以用户查询的输入为开端。然后,在框122,系统搜索反文件或最后一个反文件,在框124,它用查询关键词找到了所有的文档。如果文档有与其对应的超链接,且超链接的锚文本含有查询关键词,那么该文档有可能与该查询相关。如框124A所示,系统中有B和D这两个文档,每个文档相对应的超链接的锚文本中都含有一个或多个查询关键词。
再次,在框126进行操作,系统在此可以找到框124A中已被识别的文档的链接向量。文档链接向量与基于文档内容的传统的文档向量形成对照。系统可以简单地通过文件114(附图5)找到文档链接向量,或者可以从反文件和链接文件创建文档链接向量。由于指向文档的每个超链接都与查询相关,框126A可以把文档链接向量连同锚文本一起显示出来。
在框128获取文档链接向量时,系统如框128A所显示那样,也创建了一个查询向量。查询关键词向量维度为TFq*IDF,其中TFq是关键词词频或关键词在查询中出现的次数。IDF是附图5的框110中计算出来的关键词的反文档频。查询中的Java和tutorial的TFq都是1。之前在附图5框110中计算得知,Java的IDF是0.5,tutorial的IDF是1。
一旦找到或计算出查询向量和所有相关文档向量,就可以进行区块130的操作了,即计算每个文档的(具有满足用户需求的)文档检索能力的分数。先通过查询向量计算出文档链接向量,再由此找到每个文档链接向量的点积。向量的点积 <a, b, c> 和 <d, e, f> 被称为。
数学公式6

如果两个向量的维度不同,则每个没有出现在向量中的维度均为0。 例如,文档B的首个向量被说成是:

<1, 1, 1, 0.5>.

在这样的例子中,查询向量将表现为:

<0, 1, 0, 0.5>

所以,每个向量中,代表tutorial的维度和Java的维度相匹配。用文档B的首个文档链接向量来计算,得到查询向量的点积:

数学公式5

同样地,计算文档B的第二个向量得到的点积为1。
框131中,计算特定文档的文档链接向量的点积,可以得到该文档的得票数或总分。文档B的(具有满足用户需求的)文档检索能力的总分是该文档的文档链接向量的点积总和,即1.620。同样的,可以用文档D的唯一文档链接向量来计算查询向量的点积,结果是0.149。
在框132,排序结果显示在框132A中。结果是经过排序的,所以(具有满足用户需求的)文档检索能力的排名总分高的文档排在低的上面。比起列出所有非0的(具有满足用户需求的)文档检索能力的分数,只列出预设的数量更为合适,比如只列出前100个文档,或者只列出(具有满足用户需求的)文档检索能力的分数大于某个数量的文档。
在此描述的程序可以在很多设备上进行操作,包括使用操作系统的Sun Sparc Station。该程序可以当作指令组储存在计算机系统的存储器中。指令组也可以被储存在磁盘之类的电脑可读记忆体中,还可以通过网络发送到另一台计算机。
上述的例子中,没有指向文档A和C的超链接,所以他们的(具有满足用户需求的)文档检索能力的分数都为0,尽管他们都含有查询关键词中的Java和tutorial。常见的索引和检索引擎可以和基于本发明中的索引和检索系统的超链接组合起来一起使用。在基于链接的(具有满足用户需求的)文档检索能力的分数一样的情况下,可以使用该组合,或仅仅用来补充基于链接的信息。例如,以惯例和(具有满足用户需求的)文档检索能力的排名为基础,假设文档A和C的(具有满足用户需求的)文档检索能力的分数分别为0.6和0.8。利用传统排名的方法去打破基于链接排名的平局,查询的最终(具有满足用户需求的)文档检索能力的排名将会是文档B,文档D,文档C和文档A。
使用组合排名方法的另一个原因是指向文档的超链接太少(如只有一个链接)。在这种情况下,基于一条链接的(具有满足用户需求的)文档检索能力的分数可能并不精确,需要为基于链接的(具有满足用户需求的)文档检索能力的分数设立一个门槛。如果基于链接的(具有满足用户需求的)文档检索能力的分数低于此门槛,就要使用其它的(具有满足用户需求的)文档检索能力的排名方法,或与前者组合起来使用。
因为本发明的索引文件只使用超链接信息,(具有满足用户需求的)文档检索能力的排名并不取决于出现在文档中的词本身,或者,即便与传统的(具有满足用户需求的)文档检索能力的排名结合使用,也不仅仅取决于出现在文档中的词。反而,(具有满足用户需求的)文档检索能力的排名取决于指向文档的超链接的锚文本中的文档描述。文档,譬如上述的文档J,不会获得很高的(具有满足用户需求的)文档检索能力的总分,因为创建该超文本文档的作者并没有把指向文档J的超链接列入文档中。
文档的大小不再是影响(具有满足用户需求的)文档检索能力的排名的因素,因此,避免了关于文档大小的问题。
使用词典 的重要性减少了,这是因为,即使lawyer这个词从不在文档标题“California Immigration Attorneys”中出现,但可能有人创建的指向该文档的超链接的锚文本中含有lawyer这个词。
不能被传统的信息检索方法搜索的图像、图形和音效,如果有指向他们的超链接,就可以被搜索到了。锚文本也可能会以图像、图形等的形式出现,索引引擎可以用诸如尾部文档标题的信息来代替非文字的锚文本。
根据本发明的方法进行索引,用外语创建的文档也可以被检索到。如果用英语写的文档中包含的锚文本指向外语文档,根据本发明,该外语文档将会收到一个(具有满足用户需求的)文档检索能力的分数。
因此,当文档的数据库足够大,如同在万维网,搜索结果是建立在投票的基础上的,投票的决定因素是看别人怎么描述这个文档,而不是该文档的自我描述。从而,上述的例子显示,即使关键词Java tutorial在文档中只出现一次,Sun's Java tutorial网也会获得较高的总(具有满足用户需求的)文档检索能力的排名。
使用基于指向给出文档的超链接的排名方法,用特征词或该领域的描述作为查询来挑选某个领域最新的文档。
前述事项的详细描述只是为了更清晰易懂,不需要理解多余的限制,因为任何的变动对于熟悉这方面的人来说都是显而易见的。


权利要求书


我要求:
1. 索引文档的方法,该方法包括:
获取一系列指向每个文档的超链接,其中每个超链接都包含一个或多个关键词;以这些关键词来索引每个文档,其中许多包含特定关键词的超链接可能会指向某一文档;然后用该文档索引这些超链接数目。
2. 如权利要求 1 中的方法所述:
特定的关键词可能出现于指向许多文档的超链接中;索引以该关键词这些文档的数目。
3. 如权利要求 2 中的方法所述,该索引包含创建的一个文件清单:

关键词;包含该关键词的超链接指向的文档数目;文档标识符,因为每个文档都有包含该关键词指向该文档的超链接;以及包含指向被识别的文档的关键词的超链接数目。
4. 如权利要求 1 中的方法所述:
特定的关键词可能出现于指向许多文档的超链接中;然后以文档标识符索引这些文档的数目。
5. 如权利要求 4 的方法所述,每个文档拥有包含特定关键词的被指向该文档的超链接,它以其反向文档被检索。
6. 如权利要求 1 中的方法所述:
一个关键词可能会在指向文档的超链接中出现若干次;用被超链接指向的文档索引该关键词出现的次数。
7. 如权利要求 1 所述,关键词是词干。
8. 一个设备包括执行权利要求 1 方法的手段。
9. 一个可读计算机储存设备包括一组执行权利要求 1 方法的指令。
10. 文档的排名方法是以文档的(具有满足用户需求的)文档检索能力的为基础的,其中查询至少包括一个关键词,以及超链接含有关键词和相应的文档,该方法包括:
将查询的单词比作在一个超链里的单词,为每个超链取得一个(具有满足用户需求的)文档检索能力的排名;合计指向特定文档的超链接的(具有满足用户需求的)文档检索能力的排名来取得该文档的(具有满足用户需求的)文档检索能力的分数总和。
11. 如权利要求 10 的方法所述:
许多超链接,各自含有特定的关键词,可能会指向同一文档;以该文档索引这些超链接的数目。
12. 如权利要求 11 的方法所述:
一个特定的关键词可能会出现在指向许多文档的超链接中;以该关键词索引这些文档的数目。
13. 权利要求 12 的方法包括建立一个列表,其中列表索引:
关键词;被超链接指向的文档数目;文档的标识符;包含指向每个文档的关键词的超链接数目。
14. 如权利要求 10 的方法所述:
一个特定的关键词可能会出现在指向许多文档的超链接中;由于每个文档包含特定的关键词在指向该文档的超链接中,以该文档的标识符索引这些文档的数目。
15. 如权利要求 14 的方法所述,每个文档拥有特定的关键词在指向该文档的超链接上,用包含特定关键词的超链接指向的反向文档的数目来索引该文档。
16. 如权利要求 10 的方法所述:
一个关键词可能会在指向文档的超链接中出现若干次;用被指向的文档索引该关键词出现的次数。
17. 如权利要求 10 的方法所述,关键词是词干。
18. 如权利要求 10 的方法所述:
查询被表现为查询向量,其中查询向量包含查询中的每个关键词的维度;文档被表现为每个指向文档的超链接的文档链接向量,其中每个文档链接向量包含在指向该文档的相应超链接中每个关键词的维度。
19. 如权利要求 18 的方法所述,把查询的词比作超链接中的词,它包括用超链接的文档链接向量计算的查询向量点积。
20. 如权利要求 19 的方法所述,总结每个指向文档的超链接的(具有满足用户需求的)文档检索能力的排名,包括计算点积获得的使用特定文档链接向量来获得该文档的(具有满足用户需求的)文档检索能力的总和。
21. 如权利要求 20 的方法所述,比较文档的(具有满足用户需求的)文档检索能力的总和,以获得文档的排名。
22. 如权利要求 18 的方法所述,查询向量中的关键词维度与反向文档的数目有关,反向文档有各自的超链接,它包含指向那些文档的关键词。
23. 如权利要求 18 所述,文档链接向量中的关键词维度与反向文档的数目有关,反向文档有各自的超链接,它包含指向那些文档的关键词。
24. 一个设备包括执行权利要求 10 的方法的手段。
25. 一个可读计算机储存设备包括一组执行权利要求 10 的方法的指令。



注释
relevance(相关性) 在信息科学与信息检索圈子中, relevance 表示被检索文档或文档集满足用户的信息需求的程度。relevance 可能包括诸如结果时效性,权威性或新颖性的程度。
node(节点) 即文档或文件,包含文本、制图、音频、视频、动画、图像等。
hypertext(超文本) 是个提供一种使用节点与链接处理信息的独特和非连续方法的数据库系统。
hyperlink(超链) 是两个被称为超链头和尾的锚点间的关联。

作者 李彦宏

以下内容已过滤百度推广
  普通
  普通
  普通
  百度文库
  普通
  普通
  普通
  普通
  普通
< 1 2 3 4 6 7 8 9 10 >
周推荐电影 - Twitter 周推荐电影 - 微博