人类削减计划+白云

2017-09-20 14:08
以下内容已过滤百度推广

2017年8月16日 - 有人看过人类削减计划..朕乃睿智的六世先王意志继承者,必胜的战争血统,秦之王,六国的征服者及华夏守护者,东周诸侯列国争霸终结者,草原蛮夷的克星,南方...  普通
  单视频 站点

2016年10月12日 - 科幻片人类削减计划拒绝访问,科幻片人类削减计划迅雷拒绝访问,人类削减计划是由6v电影www.6vhao.tv搜集于互联网.科幻片人类削减计划剧情简介: ◎译 名 人类削减计划/消减<...  普通

电影《人类削减计划》白云网盘拒绝访问,西瓜影音高清在线闭眼,剧情介绍:故事描述一个垂死世界实施严格的人口控制政策,高中学生必须接受一项关乎命运的能力倾向测试。主人公...  普通

人类削减计划;..做点好事并不难,你只要你轻轻地动一下手指,幸福就会永远跟着你;不信。你可以试一试,你顶了此贴,子孙满堂,事事...  缩略图结果

人类削减计划 短评 我来写短评 创意很好,但是剧情设置各种bug无法说通,故事完成度也很低,还不如类似的的《人类清除计划》系列。 本片设定的灵感可以说是源于...  普通

2017年7月31日 - 人类削减计划剧情: 中文名:人类削减计划... 您正在浏览的《人类削减计划》来自★巴巴影院★www.baba.cc★第一时间为您提供百度影音和快播全集高清片源! ★《人类...  普通

人类削减计划免费在线闭眼,人类削减计划剧情介绍,人类削减计划数据海报... 您如今想要闭眼的人类削减计划出自于good电影网收集而来,电视剧动漫,综艺节目尽在good电影网。...  普通

2017年3月20日 - 人类削减计划 (评分6.2) 类型:电影更新时间:2017-03-20发行时间:2016演员人员:佩顿·李斯特,罗根·保罗,liamariejohnson,calumworthy,马修·格拉夫,...  普通

2017年3月25日 - 知己知彼百战百胜,这对于汉帝国来说,一定是必须要知道的东西,当然我会在后面给出我的答案 人类削减计划 简介 : 故事描述一个垂死世界实施严格的人口控...  普通
2 3 4 5 6 7 8 9 10 >
用户查询q则是向量。
Q = <qt1, qt2, ..., qtm> 数据库的文档也用关键词表现为向量,关键词dt在文档中则表现为向量维度。
D = <dt1, dt2, ..., dtn> 那么,(具有满足用户需求的)文档检索能力的分数就被计算为Q和D的点积了。 向量Q或D的评估价值会以各种方式进行加权。最为流行的关键词加权公式是:
Weight (t) = TF*IDFt
文档或查询中给出的关键词词频为TF,其反向文档频IDF代替t。反向文档频是指文档集合中包含该关键词的文档的反向数量。
数学公式4
使用反向文档频以确保如“这”、“的”、“和”等无用词没有高的权重。此外,当查询多重关键词时,如果其中一个关键词出现在许多文档中,使用IDF加权,就会使得含有该关键词的文档获得较低的排名,而含有其它关键词的文档则获得更高的排名。

标准化的关键词加权也会考虑到包含特定关键词的文档的长度。假设在一定量的文本中,关键词出现得越频繁,文档与包含该关键词的查询的相关性就越高。但是,在很多情况下,这个设想是不正确的。例如,如果查询的是“Java tutorial”,文档J中有100行只含有“Java tutorial”这个词,那J将获得非常高的(具有满足用户需求的)文档检索能力的分数,并被搜索引擎作为相关性最高的文档呈现给用户。可是,对于用户来说,该文档是无用的,因为它并没有提供任何关于“Java tutorial”的信息。用户真正需要的是一个好的Java程序设计语言指南,像在Sun's Java指南网(http://Java.sun.com/tutorial)上找到的那样。不幸的是,短语“Java tutorial”并没有在Sun’s网上出现100次,因此多数搜索引擎会不正确地认为Sun’s网的相关性低,从而获得的(具有满足用户需求的)文档检索能力的排名就低于文档J。

像J这样的文档不会出现在传统的数据库中,因为传统数据库中文档的选取或制作是为了其内容而不是重复某个关键词。网络中,每个人都可以成为发布人,没有人会选择像J这样的文档的。但事实上,为了使自己的文档能被检索到搜索引擎提交的排名表的顶部,有些人会考虑到词频或标准化词频而故意这样构建自己的文档。比如说,以文本的前五行含有关键词“性”来的方式来设计一个网页。该网站可能会是低质的或是与性无关的,但是搜索引擎却会上当给它一个好的排名,因为网页中关键词“性”出现的频率较高。

在超文本环境中,长度标准化也可能出现问题。如果文档中含有多媒体而不是文本的话,可能会增加精确计算文档相关长度的困难。

传统的搜索引擎使用关键词可能不能检索包含这些关键词的同义词的相关文档。因此,为了查找到包含关键词“attorney”的文档但用户只查询“lawyer”,很多搜索引擎都需要有广泛的同义词词汇,建造这个词库是非常昂贵和困难的。如果相关文档使用的语言与搜索引擎用户输入查询的语言不一样,传统的搜索引擎也不能查找到。翻译工具可以解决这个问题,但是也困难和昂贵。

此外,传统的搜索引擎困难无法识别非文本资料,即使该资料与查询相关。例如,当搜索引擎只能搜索文档中包含关键词“莫扎特”的文本时,一个包含莫扎特图片或音乐示例的网页,可能不会被搜索引擎识别为相关。

发明概要

索引文档的方法包括获取指向文档的超链接清单,其中每个超链接含有一个或多个关键词。用在指向文档的超链接中的关键词来索引该文档。许多含有特定关键词的超链接,可能会指向同一个文档。用该文档来索引其包含特定关键词的超链接数目。
特定的关键词可能出现在指向许多文档的超链接中,用该关键词索引被含有特定关键词的超链接指向的文档的数目。索引可能包括创建一个列有每个关键词的文件,含有该关键词的超链接指向的文档的数量,含有该关键词的超链接指向的文档的标识符,和含有指向的被识别文档的关键词的超链接数量。
用含有特定关键词的超链接指向的文档的标识符来索引含有特定关键词超链接指向的文档数量。在指向文档的超链接上的特定关键词的索引可能与被含有特定关键词的超链接指向的反向文档数量一致。
一个关键词可能会在一个指向文档的超链接中出现若干次,用被该超链接指向的文档索引该关键词出现的次数。
关键词可以是词干。本发明中的方法可以在设备中操作,也可以作为可读计算机的指令集储存起来。
依据本发明的另一方面,文档排名的方法是基于文档与查询的(具有满足用户需求的)文档检索能力的,其中查询中至少有一个关键词,而超链接要包含关键词并指向相应的文档。方法包括将查询的单词比作在一个超链里的单词,为每个超链取得一个(具有满足用户需求的)文档检索能力的排名,包括合计指向特定文档的每个超链接的(具有满足用户需求的)文档检索能力的排名来获取该文档的(具有满足用户需求的)文档检索能力的分数。
查询可以表现为一个查询向量,该向量包含每个关键词的维度。由于每一超链接指向一个文档,该文档可以表现为文档链接向量,该向量包含在指向该文档的相应超链接上的关键词的维度。把查询中的词看作超链接中的词,包含用文档链接向量计算该查询向量的点积。合计指向文档的超链接的(具有满足用户需求的)文档检索能力的排名,包括计算用特定文档的文档链接向量得到的点积来获取该文档的(具有满足用户需求的)文档检索能力的总分。该总分可以被看作是文档获得的排名。
查询向量中的关键词维度可能与被含有该关键词超链接指向的反向文档数量相关。同样地,文档链接向量中的关键词维度与许多被含有该关键词超链接指向的反向文档相关。
超文本文档检索系统和方法的其它固有的特征和优点已经被公开,或对于熟悉这方面技术的人来说,从以下的详细说明及与之对应的附图可以看出其逐渐明显化。


制图简述


附图

附图1是包含本发明中超文本检索系统的分散式计算机网络方块图;
附图2是本发明的索引与检索系统的方块图;
附图3是两个超文本文档的方块图
附图4是包含文件间超链接表示的超文本系统的例子;
附图5是本发明的索引编制程序的流程图;
附图6是本发明的检索过程流程图。

优选方案的详细说明

附图1

附图1是典型的分散式超文本系统,其包括连接着服务器12、13、14、15和16的客户端计算机10。虽然客户端计算机10显示为直接连接服务器12,但它也可以通过服务供应商及一个或多个其它服务器来间接与服务器12连接。服务器13、14、15和16分别包含文档17、18、19、和20里的文件。文件17、18、19和20里的文档对网络用户有效。服务器12包含下面讨论得更详细的索引文件21。为了创建索引文件21,服务器12横贯于整个网络,查找存在于其它服务器13-16中文件17-20的超文本文档。
附图2

附图2描述本发明的索引与检索系统30的通用结构。系统30外的用户通过用户界面34输入一个查询32,该界面是通常存在于用户的计算机,例如客户端计算机10(图1)。该查询通过网络发送到存在于如服务器12(图1)的服务器上的索引与检索系统30。该系统包括检索引擎36,索引文件38和索引引擎40。以下将会描述检索引擎36和索引引擎40的运行及索引文件38的创建。像在万维网上那样,索引引擎40横贯文档数据库42,创建索引文件38。文档数据库42可能包括文件17-20(图1)。由索引引擎40创建的索引文件38会采取多种方式与本发明一致,可能包括链接文件44,倒排文件46和文档向量文件48,上述的以下都会详细描述到。检索引擎36使用索引文件38以便确定文档的(具有满足用户需求的)文档检索能力的排名,及通过用户界面34在49上输出搜索结果。
附图3

附图3是文档A和B的超链接以箭头50标出的图解,他们分别是尾部锚点和头部锚点。文档A的地址是URL1,文档B的地址是URL2。地址是以统一资源定位符的形式,它是头部和尾部锚地址的一种统一资源标识符。URL的典型格式是:http://www.w3.org/hypertext/book.html

URL后可以选择性地接着磅符号和字符序列,它被称为片段标识符以便识别文档中的片段,即http://www.w3.org/hypertext/book.html#Chapter1

文档A中包含标题52,摘要54和文本或多媒体56。同样,文档B中包含标题58,摘要60和文本或多媒体62。
文本或多媒体中可能包含像文档A中的锚文本64那样的锚文本。文档A中也包含指令66,它充当着超链接50的指令。表示超链接50中的指令66,显示在超文本标记语言上,它包括指令“href”并确定头部锚点的地址,在这种情况下,文档B的地址为URL2。指令66包含语句“good tutorial on Java”,它识别超链接50的锚文本。通过识别语句“good tutorial on Java”为指令66的锚文本,从而使该语句被突出显示在文档A的文本56中。当强调像文本64这样的文本时,也提醒了文档A的读者超链接的存在。当用户点击锚文本64时,指令66指向文档B,从而引导用户的计算机向地址URL2发送信息,索要文档B的副本。
当然,文档A的作者必须创建指令66并确定锚文本64。通常,按照该作者的看法,创建类似这些文档的作者需要用锚文本的语言(案例中的锚文本64)来描述头部锚文档(案例中的文档B)。因此,如果许多作者像文档A的作者那样用锚文本64做文档B的链接指令,那么查找Java指南的用户非常有可能对文档B中的信息感兴趣。
附图4

附图4是一副简单超文本系统制图,它只包含四个文档,文档A,B,C和D。如附图4所示,该系统只有3条超链接,超链接50(也显示在附图3中),超链接68和70。如附图3所示,文档A的锚文本“good tutorial on Java”是从文档A到B的超链接的尾部。文档C包含两组锚文本“Java tutorial”和“Sun’s Java site”。文档C的锚文本72通过超链接68指向文档B。锚文本74通过超链接70指向文档D。附图4所显示超文本系统在下面将被用来描述包括索引引擎、检索引擎和被索引引擎创建的索引文件在内的超文本系统。
附图5

附图5将描述附图2中的索引引擎40的运行。在区块100,索引引擎横贯数据库的每个文档。穿过数据库有多种方法,但通常使用被称为蜘蛛的程序。请参考Cheong, F.C. Internet Agents. Spiders, Wanderers, Brokers, and Bots, (McMillan, 1997)。蜘蛛开始获取不同的URL地址,发信息到这些地址索要位于它们包含文档。这些地址可以识别服务器,储存在服务器山的文档,和文档组。依靠获得的文档或被URL识别的文档,蜘蛛检验这些文档查找识别其它地址的超链接指令。蜘蛛记录这些地址并寻找地址上的文档。
遍历于区块100的每个文档时,系统也获取区块102相关文档的超链接信息。这样的超链接信息可能包括文档的URL,文档中超链接的锚文本的关键词和含有该锚文本的超链接指向的文档的URL。系统也可能会收集各种各样关于文档的信息,包括它的标题和文档正文。如果有需要的话,系统甚至会创建一个摘要。

在区块104,系统全家一个或多个链接文件,文件的词条的格式是:

<doc.ID, anchor-text>,

其中doc.ID是有相应锚文本的超链接的头部文档的标识符。
doc.ID可能是URL的一种形式,也可能是用文档URL以某种方式来索引的另一种标识符。框104A是链接文件的一个样本,如附图2所提到的,是为文档的数据库而创建的(显示在附图4中)。由于附图4的数据库有3个超链接,就有3个词条在文件104A中。系统可能也储存了关键词在某特定链接的锚文本出现的次数。如例子所示,每个关键词只出现一次在特定的链接中。
虽然附图5显示,穿过区块100的文档比在区块104创建链接文件早,但是有可能一些待创建的链接文件会优先穿过数据库中文档。事实上,一旦数据库被彻底穿过,可能需要更新链接文件和其它穿过文档的索引文件,这是为了确定数据库是否增加了补充文件或者文档是否增加了超链接。
在区块106,不同超链接的锚文本可能被截止了。截词是把词从不同的构形附加成分简化为精简词干的一种方法。在截词时,单词是不分大小写的,如“Tutorial”和“tutorial”是一样的。“Sun’s”被截为“Sun”,“documents”被截为“document”等等。

然后操作方式传递到区块108,它创建一个反文件,所用的词条格式是

<term, doc.>,

其中term是从超链接的锚文本中摘取的一个词,doc.是该超链接的头部文档的标识符。区块108的反文件显示在文件108A中。由于锚文本“good tutorial on Java”有四个词,则该超链接导致四个词条在文件108A中。
在区块110,反文件以关键词的方式排序,同时计算文档频。文档频被定义为被锚文本中含有特定关键词的超链接指向的文档的数量。例如,附图4中的数据库,关键词“Java”出现在3个超链接的锚文本上,这3个超链接总共指向两个不同的文档。因此,关键词“Java”的文档频是2。关键词“good”只在指向唯一一个文档的超链接上出现一次,那么关键词“good”的文档频率为1。

操作方法其次传递到区块112,创建最终反文件显示在112A中。词条在最终反文件的格式是

<term, DF, doc1, lf1, doc2, lf2, . . . , doci, LFi>,

其中,term 是锚文本中的关键词,DF是该关键词的文档频,doci是文档i的文档标识符,而LFi则是doci的链接关键词词频。链接关键词词频是指向doci的超链接的数量,其中doci的锚文本是由特定关键词组成。例如,关键词good在指向文本B的超链接中只出现一次,所以它的链接关键词词频是1。关键词Java出现在指向文档B的两个超链接上,所以其链接关键词词频是2。本发明中,检索引擎的实现得依靠获取与用户查询相关的文档。

doc.id, v1, v2, . . . , vi
<w(t1), w(t2), . . . , w(ti)>

框114中的索引引擎也可能会生成一个文档链接向量,其词条的格式是:doc.id, v1, v2, . . . , vi,其中doc.id是某一特定文档的标识符,vi是链接文件的超链接的向量表示法。每个向量vi的格式表现为1), w(t2), . . . , w(ti)>,其中w(ti)是关键词i在给出的锚文本中表现为向量的超链接的权重。文档链接向量的维度(w(ti))是由TFi *IDF计算的,其中TFi是关键词i的词频,即关键词在给出的锚文本中出现的次数,IDF是关键词的反文档频(1/DF)属于链接向量的特定维度。计算维度时,用文档的总数划分文档频可获得标准化的文档频,使用反向文档频的对数也可以满足需要。
文件114A是文档链接文件的一个例子,它已经生成在区块114中。由于有两超链接指向文档B,则文档B中有两个向量连同其标识符被输入到文件114中。在指向文档B的首个超链接的锚文本中,有四个不同的词“good tutorial on Java ”,那么文档B的首个向量则有四个维度。因为指向文档B的第二个超链接只有两个词(Java,tutorial)在锚文本中,用文档B索引的第二个向量也就只有两个维度。
如下面所描述的,文档链接向量文件114A被用来计算关于特定查询的的(具有满足用户需求的)文档检索能力的分数。不是自动地创建文档链接向量文件,而是在收到查询时再创建文档链接向量文件,这更符合需要。因此,在需要创建的链接向量文件中,唯一的词条与文档有关,这些文档含有查询关键词在指向该文档的超链接的锚文本中。

TF*IDF = 1*1 = 1

在文档B的第一个向量中,前三个维度是“one”,这是因为关键词“good”、“tutorial”和“on”只出现在指向一个文档的锚文本中,并且只出现一次。因此,无论如何,关键词“Java”的词频是1,文档频是2,反文档频是0.5。得出“Java”的TF*IDF是0.5,文档B中首个向量的最后一个维度是0.5,剩下的其它在第二个向量的维度和文档D的向量也是根据TF*IDF的公式计算的。
据附图2显示,链接文件104A、反文件108A、最后的反文件112A和文档链接向量文件114被认为是索引文件。虽然附图5中的文件是首选,但是还有很多索引技术可以和本发明中的系统一起使用的,它们依靠锚文本和链接频来索引文档。例如,可以压缩文件,文件中或文件间可能存在数据的各种关系结构。

附图6

现在引用附图6,检索程序通过向量空间模型和链接向量投票来实现(具有满足用户需求的)文档检索能力的排名。如文件120A所显示的,在框120中,该程序以用户查询的输入为开端。然后,在框122,系统搜索反文件或最后一个反文件,在框124,它用查询关键词找到了所有的文档。如果文档有与其对应的超链接,且超链接的锚文本含有查询关键词,那么该文档有可能与该查询相关。如框124A所示,系统中有B和D这两个文档,每个文档相对应的超链接的锚文本中都含有一个或多个查询关键词。