本文主要为大家介绍使用后羿采集器的流程图模式,采集网站上多关键词的数据。
步骤一:新建采集任务
1、复制官网的网页地址(需要搜索结果页的网址,而不是首页的网址)
如何正确地输入网址。
2、新建流程图模式采集任务
您可以在软件上直接新建采集任务,也可以通过导入规则来创建任务。
如何导入和导出采集规则。
步骤二:配置采集规则
1、设置多个关键字循环任务
在流程图模式输入网址新建任务之后,我们点击搜索框,然后在左上角出现的操作提示框内输入要采集的文字。
输入文字组件的介绍,请参考以下教程:
流程图组件介绍。
由于我们需要输入多个关键词的数据,因此我们选择点击操作框上的“批量输入文本”按钮。
接着选择”批量输入单个文本”。
然后在弹出的文本列表中输入我们需要设置的文本,这里我们输入“设置”、“采集”、“数据”这几个关键词。
点击“确定”按钮后,软件会自动生成一个循环关键词的列表。
然后我们点击页面上的”搜索”按钮,在操作框内选择“点击一次该元素”按钮,跳转到搜索结果页。
2、设置提取字段数据
输入多个关键字循环设置好之后,我们设置需要提取的字段数据,点击网页上的字段,在左上角的操作提示框内选择”提取列表中的数据”。接着软件会自动识别到分页,用户按照软件提示去设置分页。
然后我们可以在这个基础上对采集字段进行设置,用户可以按照自己的需求去设置。
如何对采集字段进行配置
3、设置深入采集
如果我们需要采集详情页的数据,可以使用深入采集功能。
如何实现深入采集
4、设置详情页数据
详情页的采集和单页类型的采集方式是一样的。我们点击页面上需要采集的数据,然后在操作提示框内点击“提取该元素中的数据”按钮,之后数据设置可参考列表页的设置。
如何采集单页类型的网页
5、完整组件图
步骤三:设置并启动采集任务
1、启动采集任务
点击“开始采集”按钮,可在弹出的启动设置页面中进行一些高级设置,包括“定时启动、防屏蔽、自动导出、文件下载、加速引擎、数据去重、开发者设置”功能,本次操作没有用到以上功能,直接点击启动按钮开始采集。
更多关于定时启动,自动导出,图片下载的详情内容,请参考以下教程:
如何设置定时采集
如何设置自动导出
如何设置文件下载
【温馨提示】免费版本可以使用非周期性定时采集功能,下载图片功能是免费的;专业版及以上用户可使用定时启动功能;旗舰版用户可以使用自动导出功能及加速引擎功能。
2、运行任务提取数据
任务启动之后便开始自动采集数据,我们从界面上可以直观的看到程序运行过程和采集结果,采集结束之后会有提醒。
以上就是本篇文章【【流程图模式】如何通过批量输入关键字采集数据】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/5259.html 行业 资讯 企业新闻 行情 企业黄页 同类资讯 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多