图3-2 多重隐马尔科夫分词算法流程图
首先,采取N-best方法,快速地N个最好的粗切分结果;接着,在此结果集上,又采用隐马尔科夫算法识别出普通无嵌套的人名、地名,以及存在嵌套的专业词汇。然后将计算出来的结果概率加入下一步骤当中,此时,未登录词与普通词一起参与竞争,进而完成词性标注。 最小粒度切分主要任务是将原始字符串切分为不可分序列。不可分序列包括单个汉字,标点以及由单字节、字符、数字等组成的非汉字串。如“2016.9人民网蓬勃发展”应切分为:2016.9人民网蓬勃发展。 在分词歧义问题上我们采取两个策略,一个是N-最短路径的切分排歧策略,另一个是通过粗分类再优先匹配专业词库策略。前者的基本思想是在保留切分概率P( W)最大的N个结果,作为分词结果的候选集合。实际上,N-最短路径方法的效果是介于最少切分方法和全切分之间的。 在未登录词识别问题上,我们参考对初始切分得到的各个词按照其在未登录词识别中的作用进行分类,并将词所起的不同作用称为角色。如图4-4中所示。 复杂地名和机构名往往嵌套了普通无嵌套的人名、地名等未登录词,如“张自忠路”、“周恩来和邓颖超纪念馆”。对于这种嵌套的未登录词,我们的做法是:在低层的HMM识别过程中,先识别出普通不嵌套的未登录词,然后在此基础上,通过相同的方法采取高层隐马模型,通过角色标注计算出最优的角色序列,在此基础上,进一步识别出嵌套的未登录词。 四、结语 以上就是本篇文章【基于关键词的文本内容过滤算法【2】】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/5580.html 行业 资讯 企业新闻 行情 企业黄页 同类资讯 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多基于关键词的文本内容过滤算法【2】
2024-10-31 23:39
三、网页文本过滤关键技术的研究