文本分析 ※文本转向量+TF-IDF提取关键词+cosine相似度计算+word2vec

文本分析 ※文本转向量+TF-IDF提取关键词+cosine相似度计算+word2vec

2024-10-31 21:35

①文本转向量代码：

②统计按需词频（根据业务需求不同，统计条件不同）
具体情况：
文本单一词在不同类型文本出现次数和
-“我爱你我爱你我爱你” “我爱你”算一次
-“我爱你我爱你我爱你” “我爱你”算三次

文本单一词出现总次数：
-“我爱你我爱你我爱你” 这句话出现40次 “我爱你”算（1*40）次
-“我爱你我爱你我爱你” 这句话出现40次 “我爱你”算（3*40）次

③TF-IDF（Term Frequency-Inverse document Frequency）提取关键词。
TF-IDF模型中
TF为词频 IDF为逆文档频率计算公式：
在这里插入图片描述

④cosine相似度判断函数：
余弦相似度的值越接近1，两个向量之间的夹角就越小
余弦相似度为0表示两个向量之间没有共享任何分量
示例：

简化：

调包：

⑤过滤停用词

齐普夫定律：任何一个词的频率与它在频率表的排名成反比。

关键词搜索：

word2vec
输入词项的独热向量表示与权重的点积代表 词向量嵌入。
1.skip-gram方法
中心词预测周围词如果使用skip-gram窗口大小为2来训练word2vec模型，则需要考虑每个目标词前后的两个词。
适应：小型语料库和一些罕见的词项比较适用。
2.CBOW
周围词预测中心词
计算技巧：
①高频2-gram：
②高频词条降采样：为了减少像停用词这样的高频词的影响，可以在训练过程中对词进行与其出现频率成反比的采样。
③负采样：只在输出向量中选取少量的负样本进行权重更新，而不去更新词窗口以外所有其他词的权重。

生成定制化词向量表示：
模型接收的输入是一个句子列表，其中每个句子切分为词条。
①预处理阶段
②训练面向特定领域的word2vec模型
#首先加载word2vec模块：
Word2vec模型训练参数:

以上就是本篇文章【文本分析 ※文本转向量+TF-IDF提取关键词+cosine相似度计算+word2vec】的全部内容了，欢迎阅览！文章地址：http://dfvalve.xrbh.cn/quote/3469.html
行业资讯企业新闻行情企业黄页同类资讯网站地图返回首页迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多