①文本转向量代码:
②统计 按需词频 (根据业务需求不同,统计条件不同)
具体情况:
文本单一词 在不同类型文本 出现次数和
-“我爱你 我爱你 我爱你” “我爱你”算一次
-“我爱你 我爱你 我爱你” “我爱你”算三次
文本单一词 出现总次数:
-“我爱你 我爱你 我爱你” 这句话出现40次 “我爱你”算(1*40)次
-“我爱你 我爱你 我爱你” 这句话出现40次 “我爱你”算(3*40)次
③TF-IDF(Term Frequency-Inverse document Frequency)提取关键词。
TF-IDF模型中
TF为词频 IDF为逆文档频率 计算公式:
④cosine相似度判断函数:
余弦相似度的值越接近1,两个向量之间的夹角就越小
余弦相似度为0表示两个向量之间没有共享任何分量
示例:
简化:
调包:
⑤过滤停用词
齐普夫定律:任何一个词的频率与它在频率表的排名成反比。
关键词搜索:
word2vec
输入词项的独热向量表示与权重的 点积 代表 词向量嵌入。
1.skip-gram方法
中心词预测周围词 如果使用skip-gram窗口大小为2来训练word2vec模型,则需要考虑每个目标词前后的两个词。
适应:小型语料库和一些罕见的词项比较适用。
2.CBOW
周围词预测中心词
计算技巧:
①高频2-gram:
②高频词条降采样:为了减少像停用词这样的高频词的影响,可以在训练过程中对词进行与其出现频率成反比的采样。
③负采样:只在输出向量中选取少量的负样本进行权重更新,而不去更新词窗口以外所有其他词的权重。
生成定制化词向量表示:
模型接收的输入是一个句子列表,其中每个句子切分为词条。
①预处理阶段
②训练面向特定领域的word2vec模型
#首先加载word2vec模块:
Word2vec模型训练参数: