查重网站开发,做网站源代码需要买吗,手机网站变灰,兰州论坛网站建设目录
#x1f4da;词项频率及权重计算
#x1f407;词项频率
#x1f407;逆文档频率
#x1f407;tf-idf权重计算
#x1f4da;向量空间模型
#x1f407;余弦相似度
#x1f407;查询向量
#x1f407;向量相似度计算
#x1f4da;其他tf-idf权值计算方法 …目录
词项频率及权重计算
词项频率
逆文档频率
tf-idf权重计算
向量空间模型
余弦相似度
查询向量
向量相似度计算
其他tf-idf权值计算方法
tf的亚线性尺度变换方法
基于最大值的tf归一化
文档权值和查询权重机 我们需要一种方法分配一个分数如果查询项不出现在文档分数应该是0更频繁的查询项的文档分数越高。 在文档集规模很大的情况下满足布尔查询的结果文档数量可能非常多往往会大大超过用户能够浏览的文档数目。因此对搜索引擎来说对文档进行评分和排序非常重要。
词项频率及权重计算
词项频率
首先我们对于词项t根据其在文档d中的权重来计算它的得分。最简单的方式是将权重设置为t在文档中的出现次数。这种权重计算的结果称为词项频率term frequencey记为 其中的两个下标分别对应词项和文档。对于文档 d利用上述 tf 权重计算方式或者任意一个将 tf 映射成实数的权重计算函数得到的权重集合可以看成是文档的一个经过量化以后得到的浓缩版本。在这种通常称为词袋模型bag of words model的文档视图的情况下词项在文档中的出现次序被忽略但是出现的次数非常重要这和布尔检索形成了鲜明对比。需要指出的是这里我们只保留了词项在文档中出现的次数。
逆文档频率
原始的词项频率会面临这样一个严重问题即在和查询进行相关度计算时所有的词项都被认为是同等重要的。实际上某些词项对于相关度计算来说几乎没有或很少有区分能力。例如在一个有关汽车工业的文档集中几乎所有的文档都会包含 auto此时auto就没区 分能力。为此我们提出一种机制来降低这些出现次数过多的词项在相关性计算中的重要性。一个很直接的想法就是给文档集频率collection frequency较高的词项赋予较低的权重其中文档集频率指的是词项在文档集中出现的次数。这样便可以降低具有较高文档集频率的词项的权重。一个更常用到的因子是文档频率document frequency它表示的是出现 t 的所有文档的数目。由于 df 本身往往较大所以通常需要将它映射到一个较小的取值范围中去。为此假定所有文档的数目为 N词项 t 的 idfinverse document frequency, 逆文档频率的定义如下 tf-idf权重计算
对于每篇文档中的每个词项可以将其tf和idf组合在一起形成最终的权值。如下 当 t 只在少数几篇文档中多次出现时 对应的df小idf大 权重取值最大 此时能够对这些文档提供最强的 区分能力 当 t 在一篇文档中出现次数很少或者在很多文档中出现权重取值次之此时对最后 的相关度计算作用不大 如果 t 在所有文档中都出现那么权重取值最小。 这样就可以把文档看成是一个向量vector其中的每个分量都对应词典中的一个词项。分量值为上述公式计算出的权重值。当某词项在文档中没有出现时其对应的分量值为 0。 重合度评分指标overlap score measure文档d的得分是所有查询词项在文档中的出现次 数 tf 之和。当然我们可以对这种方法进行修正即不采用 tf 而采用 tf-idf 权重求和 向量空间模型 余弦相似度 假设文档 d 对应的向量用 表示其中每个分量对应一个词项。 针对两篇文档的相似度计算考虑采用两个文档向量差向量的大小进行计算。但这种计算方式会受文档长度影响。 计算两篇文档相似度的常规方法是求 余弦相似度 上述公式除以分母的效果实际上相当于将向量进行长度归一化欧式归一化得到单位向量。因此公式可以重写为 以上可以看作是两个归一化以后的文档向量的内积也就是计算两个向量的夹角余弦。 我们考虑在给定文档 d也许是文档集中的某篇文档 di的前提下在文档集中搜索与之相近的文档的过程。文档相似度计算就非常有用。 很自然地将一个包含 N 篇文档的文档集看成向量的集合相当于将整个文档集看成一个 M × N 的 词项—文档矩阵 term-document matrix 其中矩阵的每行代表一个词项每列代表一篇 文档。
查询向量
将文档表示成向量的一个令人信服的理由是也可以将查询表示成向量。将查询和文档看成两个向量然后通过计算两者间的余弦相似度来衡量查询Q与文档D之间的相关性。文档或查询向量定义如下 假设语料库中包含N个词项 那么文档与查询向量的维数就是N每一维度对应一个词项。我们将查询看成词袋那么就可以将查询当成一篇极短的文档来表示成向量进而通过计算查询向量与文档向量的余弦相似度来对所有文档进行排名。这样即使一篇文档不包含所有的查询词项也可能会获得较高的余弦得分。总结下来整个检索过程就是计算查询向量和文档集中每个文档向量的余弦相似度结果按照得分排序并选择得分最高的 K 篇文档。实际这个过程的代价很大因为每次相似度计算都是数万维向量之间的内积计算具体计算方法后续进行讨论。
向量相似度计算
通常情况下一个典型检索系统的配置包括一批文档组成的文档集其中每篇文档表示成一个向量一个自由文本查询也表示成一个向量正整数 K。检索系统的目标是给定查询从文档集合中返回得分最高的 K 篇文档。向量相似度的基本算法 其他tf-idf权值计算方法
tf的亚线性尺度变换方法 即使一个词项在文档中出现了 20 次它所携带信息的重要性也不可能是只出现1 次的词项的 20 倍。也就是说在把一个文档复制20次之后该文档的重要性也不应该说是比原文档大。 因此可对原始的词项频率进行修改而不仅仅是计算词项出现的次数。 采用原始词项频率的对数函数 基于上述方式tf就可以用wf来替代于是就可以得到 基于最大值的tf归一化 采用文档中最大的词项频率对所有词项的频率进行归一化。 阻尼系数a是一个0到1之间的数通常取0.4而在一些早期的工作中使用的是 0.5。a 主要起平滑smoothing作用。 这里进行平滑的基本思路是当 tf 适度变化时如从 1 变到 2 使用平滑技术来保证因其引起的 ntf 的波动不会非常剧烈。 我们发现由于长文档中词项反复出现的可能性大所以长文档中的词项频率倾向于取更大的值。这显然是不公平的而 最大 tf 归一化方法的主要思路就是 减轻这种不公平所带来的影响 。 文档权值和查询权重机制 SMART系统给不同的tf,idf实现方式命名 文档向量和查询向量权重计算方法的组合字母表示为 ddd.qqq。前 3 位字母代表文档向量的权重计算方法而后 3 位字母代表查询向量的权重计算方法。每个 3 位字母组合中的第 1 位字母表示权重计算中的 tf 因子第 2 位表示 df 因子第 3 位表示归一化形式。 比如一个普遍使用的权重计算机制是 lnc.ltc 这表明文档向量采用了对数 tf 计算方法、没有采用 idf 因子同时基于效 率和效果的考虑及采用余弦归一化方法而此时查询向量则采用了对数 tf 计算方法、 idf 权重因子 及余弦归一化方法。