蓝风游戏账号交易代售平台源码 - 专业的游戏账号交易代售平台源码

资讯热点
搜索引擎自动提取关键词技术TF-IDF与余弦相似性的应用

发布时间:2022-4-2 分类: 电商动态

题目《TF-IDF与余弦相似性的应用》,搜索引擎自动提取关键词的技术,似乎很复杂。其实我想说的是一个很简单的问题。有一篇很长的文章,我想用电脑提取它的关键词(自动关键词搜索),没有人工干预,怎么做才正确?

这个问题涉及到计算机的许多前沿领域,如数据挖掘、文本处理、信息检索等。但出乎意料的是,有一个非常简单的经典算法可以给出相当满意的结果。很简单,不需要高等数学,普通人只用10分钟就能理解。这就是我今天要介绍的TF-IDF算法。

让我们从一个例子开始。假设有一篇长文章《中国的蜜蜂养殖》,我们要用计算机提取它的关键词。

一个简单的想法是找到出现频率最高的单词。如果一个词很重要,它应该在这篇文章中出现很多次。因此,我们进行“术语频率”(缩写为TF)统计。

因此,你一定猜到了最常用的词是“得”、“是”和“在”,这是最常用的词。它们被称为“stopwords”,这意味着对查找结果没有帮助的单词必须被过滤掉。

假设我们把它们过滤掉,只考虑剩下的有实际意义的词。这样,我们就会遇到另一个问题。我们可能会发现“中国\',\'蜜蜂”和“繁殖”这两个词出现的次数一样多。这是否意味着作为关键词,它们同样重要?

显然不是。因为“中国\'”是一个非常常见的词,“蜜蜂”和“繁殖”相对不常见。如果这三个词在一篇文章中出现的次数一样多,那么有理由认为‘蜜蜂’和‘养殖’比‘中国\',’更重要也就是说‘蜜蜂’和‘养殖’在关键词排名上应该排在‘中国\'’之前。

因此,我们需要一个重要性调整系数来衡量一个词是否常见。如果一个词很少见,但在这篇文章中出现了很多次,那大概反映了这篇文章的特点,这是我们需要的关键词。

用统计语言表示意味着根据词频给每个词赋予一个“重要性”的权重。最常见的词(\'得\',\'时\',\'在\')权重最小,较常见的词(\' 中国\')权重较小,不太常见的词(\'蜂\',\'育\')权重较大。权重叫做‘inverseddocumentfrequency’(简称IDF),其大小与一个词的常用度成反比。

在知道单词频率(TF)和逆文档频率(IDF)后,将这两个值相乘,得到一个单词的TF-IDF值。一个词对一篇文章的重要性越高,它的TF-IDF值就越大。所以,前几个字是本文的关键词。

下面是这个算法的细节。

第一步是计算词频。

考虑到文章的长度,为了便于不同文章的比较,“词频”是标准化的。

或者.

第二步是计算逆文档频率。

此时,需要一个语料库来模拟语言使用环境。

如果一个字比较常见,分母,越大,逆文档频率越小,越接近0。分母应该加1的原因是为了避免分母为0(也就是说,所有的文档都不包含这个词)。Log表示取所得值的对数。

第三步是计算TF-IDF。

可以看出,TF-IDF与文档中某个单词的出现次数成正比,与该单词在整个语言中的出现次数成反比。因此,自动提取关键词的算法非常明确,即计算文档中每个单词的TF-IDF值,然后以前几个单词为单位,按降序排列。

以《中国的蜜蜂养殖》为例,假设文章长度为1000字,“中国\',\'蜂”和“育种”各出现20次,这三个词的词频(TF)为0.02。然后,在搜索谷歌后,我们发现有250亿个网页包含“得”字,这应该是中文的网页总数。有62.3亿个网页包含“中国\',”4840万个网页包含“蜜蜂”,9730万个网页包含“繁殖”。那么它们的反向文档频率(IDF)和TF-IDF如下:

从上表可以看出,‘蜜蜂’的TF-IDF值最高,其次是‘繁殖’和‘中国\'’最低。(如果你也计算“de”这个词的TF-IDF,它将是一个非常接近0的值。因此,如果只选择一个词,‘蜜蜂’就是本文的关键词。

除了自动提取关键词,TF-IDF算法还可以在很多其他地方使用。例如,在信息检索中,可以为每个文档计算一组搜索词(\' 中国\'、\' bee \'、\' breeding \')的TF-IDF,通过相加得到整个文档的TF-IDF。具有最高值的文档是与搜索词最相关的文档。

TF-IDF算法的优点是简单快速,结果符合实际情况。缺点是单纯用‘词频’来衡量一个词的重要性是不全面的,有时重要的词可能很少出现。而且这种算法不能反映单词的位置信息,把前面位置的单词和后面位置的单词视为同等重要,这是不正确的。(一种解决方案是对全文的第一段和每段的第一句给予更大的权重。)

文章来源:微信官方账号SEO营(ID: ilottecn),原创链接:/s/jKNsaEUXseubcSopehHWwQ

« 肚子饿了吗?邮递员威胁,女子破坏门进房间。取消不好的评价吗?我要杀了你 | 网站的关键词怎么写? »