最新动态
文本分析 ※文本转向量+TF-IDF提取关键词+cosine相似度计算+word2vec
2024-10-31 21:35

①文本转向量代码

文本分析 ※文本转向量+TF-IDF提取关键词+cosine相似度计算+word2vec

②统计 按需词频 (根据业务需求不同,统计条件不同
具体情况
文本单一词 在不同类型文本 出现次数和
-“我爱你 我爱你 我爱你” “我爱你”算一次
-“我爱你 我爱你 我爱你” “我爱你”算三次

文本单一词 出现总次数
-“我爱你 我爱你 我爱你” 这句话出现40次 “我爱你”算(1*40)次
-“我爱你 我爱你 我爱你” 这句话出现40次 “我爱你”算(3*40)次

③TF-IDF(Term Frequency-Inverse document Frequency)提取关键词。
TF-IDF模型中
TF为词频 IDF为逆文档频率 计算公式
在这里插入图片描述在这里插入图片描述

④cosine相似度判断函数
余弦相似度的值越接近1,两个向量之间的夹角就越小
余弦相似度为0表示两个向量之间没有共享任何分量
示例

简化

调包

⑤过滤停用词

齐普夫定律:任何一个词的频率与它在频率表的排名成反比。

关键词搜索

word2vec
输入词项的独热向量表示与权重的 点积 代表 词向量嵌入
1.skip-gram方法
中心词预测周围词 如果使用skip-gram窗口大小为2来训练word2vec模型,则需要考虑每个目标词前后的两个词。
适应:小型语料库和一些罕见的词项比较适用。
2.CBOW
周围词预测中心词
计算技巧
①高频2-gram
②高频词条降采样:为了减少像停用词这样的高频词的影响,可以在训练过程中对词进行与其出现频率成反比的采样。
③负采样:只在输出向量中选取少量的负样本进行权重更新,而不去更新词窗口以外所有其他词的权重。

生成定制化词向量表示
模型接收的输入是一个句子列表,其中每个句子切分为词条。
①预处理阶段
②训练面向特定领域的word2vec模型
#首先加载word2vec模块
Word2vec模型训练参数:

    以上就是本篇文章【文本分析 ※文本转向量+TF-IDF提取关键词+cosine相似度计算+word2vec】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/3469.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多