推广 热搜: 公司  快速  上海  中国  未来    企业  政策  教师  系统 

scrapy 搜索关键字_基于scrapy框架输入关键字爬取有关贴吧帖子

   日期:2024-11-01     作者:xinet    caijiyuan   评论:0    移动:http://dfvalve.xrbh.cn/mobile/news/9202.html
核心提示:基于scrapy框架输入关键字爬取有关贴吧帖子站点分析首先进入一个贴吧,要想达到输入关键词爬取爬取指定贴吧,必然需要利用搜索引

基于scrapy框架输入关键字爬取有关贴吧帖子

scrapy 搜索关键字_基于scrapy框架输入关键字爬取有关贴吧帖子

站点分析

首先进入一个贴吧,要想达到输入关键词爬取爬取指定贴吧,必然需要利用搜索引擎

点进看到有四种搜索方式,分别试一次,观察url变化

我们得知:

搜索贴吧:http://tieba.baidu.com/f/search/fm?ie=UTF-8&qw=dfd

搜索帖子:http://tieba.baidu.com/f/search/res?ie=utf-8&qw=dfd

其中参数qw是搜索关键词,由此我们可以构建搜索贴吧的url

搜索得到的页面,可以得到我们需要的贴吧url

我们就可以轻而易举的得到我们搜索的相关贴吧

下面对贴吧主页进行分析

进入贴吧F12查看

显然我们知道#thread_list这个列表,观察看到这就是每个贴在,注意li标签里的data-field字段有我们需要的信息, 不过我们只需要得到帖子的url,之后对帖子进一步提取,其中data-tid就是贴子的id,通过这个我们可以定位唯一的帖子

如data-tid="6410699527", 则帖子的url为teiba.baidu.com/p/6410699527具体的探索过程就不一一阐述了。。。

对帖子分析

直接源码省去很多字、、、的寻找过程,我们在源码找到了一段Javascript代码,其中firstpost就是楼主发的帖子。。为什么不在HTML便签中提取?因为你试试就知道了,开始我就是在HTML便签中提取的,部分贴吧标题提取不出来。firstpost有着很详细的信息,标题,内容,时间

现在对贴吧的回复贴吧提取:

本文地址:http://dfvalve.xrbh.cn/news/9202.html    迅博思语资讯 http://dfvalve.xrbh.cn/ , 查看更多
 
标签: 关键字 输入 贴吧
 
更多>同类行业资讯
0相关评论

新闻列表
企业新闻
推荐企业新闻
推荐图文
推荐行业资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号