爬数据都是设置好参数,软件自己来跑的,这期用cosplay的关键词来搜coser小姐姐 ,爬到931位的数据,最后两个晚上,经过人手查看网页内容,精选制作了一份我们“值男”喜爱的列表。
爬数据的软件是八爪鱼,后附有详细教程
进入大数据时代,跟别人聊天大数据是什么你都不知道,这就尴尬,日常我们接触到的大数据都是掌握在电商、快递、微博等地方,我们能从他们手上爬点数据吗?是可以的,自己学了一下八爪鱼采集器,是一个免费的工具,下载了注册帐号就可以用。
打开浏览器,我们要搜Cosplay博主,就在微博高级查找里面的标签输入cosplay这个关键词,然后选小姐姐, 看看粉丝最多的小姐姐们为什么可以吸粉无数
先看看爬到哪些小姐姐,节选了20w-100w粉丝的几位小姐姐,都是美美哒,喜欢吧,喜欢就开始我们的爬数据之旅(后面有小姐姐们的微博的传送门)
打开软件,这里有一个爬微博的现成模板,点进去有搜博主信息的预设模板,
但是要输入个人的微博登陆名字和密码,呃这个是大数据软件,输入进去还是不很放心,就有用了另外一个途径
首先我们在微博网页里面高级搜索,用cosplay,和小姐姐作为关键词
按搜索完,会出现一个地址和结果,还需要翻页,有好多页,点搜索结果的第二页,将看到完整网址复制好备用。
新建任务,选批量生成,然后吧刚才的网址粘贴进去,把page=2的2删除,点添加参数,把2的位置用参数1替换,测试生成网址,
在点添加参数的时候会出现下面的对话框,设置从第一页开始搜,每次翻一页,共50页,微博默认50
确定后会生成50个页面的网址,等下就爬这些搜索结果页了,最后点保存
保存后,会自动对第一页进行分析网页数据,看看那些是可以生成结果表格的
分析完毕可以看到第一页每个博主的信息已经可以生成一个表格了,这里选择生成采集设置
生成之后点击左侧的菜单,会出现一个数据列表,信息4就是我们要的粉丝数量,这里我们可以都不管,因为数据不多,可以全部采集,直接采集
点采集,选启动本地采集
启动后,软件就会对每页19个博主信息,50个结果网页进行数据采集,一会儿就爬完了
最后采集到931条,
选Excel导出,方便我们后面处理想要的结果
打开excel表格,其实我们就要把粉丝进行排列,然后按排名靠前,粉丝多的小姐姐的微博进行访问和默默关注就行了
这里也是有教程的
打开ecxel表格,先把微博粉丝XX万这个字段进行处理,
接着按粉丝数量来进行排序,我们这次爬到的博主排名第一的有万粉丝挺厉害的啊,
有了列表,链接还不能直接点击,要对第二列对应的网址进行处理,在右侧新建一列,输入“=HYPERlink(B2)”这个函数,就可以把第二列的文字网址转换为超链接,然后另存为htm文件,就可以拖到顺手的浏览器打开访问了
这个就是我处理后的网页文件,直接点击就直达购买页面,呃。。。是博主的微博
这次的关键词不够多,肯定没有对所有的玩cosplay的小姐姐全部网罗进来,大数据就是要不断挖掘不断收集,形成一个数据库,慢慢完善。
最后还对对采集到的数据,粉丝数量排名前100的还经过人工评鉴,优化了列表,形成了赏心悦目的精华部分, 灰色的可以不用看了,红色的是精华所在。
最后,看看爬到哪些漂亮的小姐姐呢,我爬到数据,一共931位,未删除不是COSER博主,按931位博主的粉丝来排名,下面是一部分的coser小姐姐的微博
最后来张一位粉丝只有2.7万的coser @萌萌哒阿晗,我认为是被低估了,还没宣传好,感觉是混血儿
微博地址:传送门
以上就是本篇文章【大数据分析,爬取微博Cosplay博主粉丝量,看看哪位小姐姐值得关注(第一期)】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/4291.html 行业 资讯 企业新闻 行情 企业黄页 同类资讯 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多