TF-IDF基本概念
作用:提取文本关键词;计算查询内容与不同文本的相关程度等。
TF(Term Frequency):词频。也就是,如果一个词很重要,它应该在这篇文章中多次出现。
IDF(Inverse document Frequency):逆文档频率。说人话,也就是出现频率高的词可能是一些过于常用的词,例如“的”,“是”,“我”,如果仅仅根据TF来作为衡量指标,那么结果会没有意义,所以我们需要设定IDF这个指标,它的大小与一个词的常见程度成反比。
TF-IDF:词频(TF)和逆文档频率(IDF)两个值相乘,得到了一个词的TF-IDF值。某个词对文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是这篇文章的关键词。
计算公式
- 词频(TF) = 某个词在文章中的出现次数
- 逆文档频率(IDF) = log10(语料库的文档总数/包含该词的文档总数)
- TF-IDF = 词频(TF) * 逆文档频率(IDF)
例题
根据路透社的806791份文档中“car”、“auto”、“insurance”和“best”这四个单词的频次,
以及下表中这四个词在Doc1、Doc2和Doc3这3个文档的频次。
计算关于这四个单词的三个文件的TF-IDF的值以及TF-IDF的权重向量。
Step 1.
计算四个单词的idf值,如下表:
Step 2.
计算四个单词在三个文档中的tf-idf值,如下表: