百度指数数据是一种常用的互联网数据,在城市规划学、地学、经济学等众多领域里都被广泛使用。那么到底什么是百度指数数据,它有什么用,又该如何获取呢?让我们一起来了解一下吧!
一.什么是百度指数数据
想知道到什么是百度指数数据,我们得先了解一下百度指数。百度指数是以百度海量网民行为数据为基础的数据分享平台,该平台是当前互联网乃至整个数据时代最重要的统计分析平台之一。
百度指数的官网为:https://index.baidu.com/
官网界面如下:
在该平台内,搜索一个关键词后会出现该关键词在不同时间段内的搜索指数与资讯指数的折线图,而这些折线图表所对应的数值就是百度指数数据。
其中搜索指数是以网民在百度的搜索量为数据基础,以关键词为统计对象,科学分析并计算出各个关键词在百度网页搜索中搜索频次的加权和。根据搜索来源的不同,搜索指数分为PC搜索指数和移动搜索指数。
资讯指数是以百度智能分发和推荐内容数据为基础,将网民的阅读、评论、转发、点赞、不喜欢等行为的数量加权求和得出资讯指数。
这里,我们以百度搜索指数为例,输入'上海市'这个关键词,就可以得到近30天内,全国PC+移动端对'上海市'这个关键词的搜索指数折线图,鼠标移动至折线图上,则可以显示出每一天的搜索指数。比如图中显示的就是2021年10月17日,全国PC+移动端对'上海市'的搜索指数为1253。
需要注意的是,这里的搜索指数代表着网民的用户关注度,并不是实际的搜索次数。
那么,我们通过调整折线图右上角的时间段、搜索方式和搜索范围,就可以得到不同时间段内不同城市通过PC、移动端或PC+移动端对关键词'上海市'的搜索指数。
这里,PC端的搜索指数最早可以搜索到2006年6月,而移动端最早可以搜索到2011年1月。当我们将查询的时间段设定在一年以内,则折线图返回的是该时间段内每日的指数数据,而当我们将查询的时间段设置超过一年时,则返回的是该时间段内每周的指数数据。
上面例子介绍的是百度搜索指数,百度资讯指数也是相同的道理。除此之外,该平台还支持多种关键词检索、需求图谱、相关词热度、人群画像、最新动态、行业排行等功能,在这里就不多赘述,大家可以自行探索。
二.百度指数数据有什么用
在学术上,百度指数数据的运用范围相当广泛,在各个领域都有相关的研究。在城市相关的领域内,百度指数数据作为研究网络关注度的有力工具,被用于网络舆情相关的研究,如刘嘉毅、陈玲、陶婷芳《旅游舆情网络关注度城市差异——来自289个城市百度指数的实证研究》,毛通、谢朝德《基于舆情大数据的城市信用治理满意度评价——来自17个GDP超万亿元大城市的实证》,滕文杰《突发公共卫生事件网络舆情网民关注度区域分布研究》等。
同时它也被用于旅游、消费意愿等与网络关注度之间关系的研究,比如黄先开、张丽峰、丁于思《百度指数与旅游景区游客量的关系及预测研究——以北京故宫为例》,林志慧、马耀峰、刘宪锋、 高楠《旅游景区网络关注度时空分布特征分析》,蒯步青、史春云、吴睿怡《淮海经济区城市旅游网络关注度时空动态分析》,李清光《消费者对食品安全信息搜寻行为的特征分析——基于微博指数与百度指数的分析》等。
利用百度指数数据模拟城市、城市群之间的信息流,可以对城市、城市群之间的信息联系网络格局以及层级结构进行研究。比如刘伟、魏嘉彬《基于百度指数的城市群网络层次与结构分析——以成渝城市群为例》,李秋丽《长江中游城市群城市空间联系及网络结构研究 ——基于信息流视角》,安俞静、刘静玉、乔墩墩《中原城市群城市空间联系网络格局分析——基于综合交通信息流》等。
三.百度指数数据如何获取
知道了百度指数是什么,百度指数有什么用之后,就到了大家关心的数据获取的问题了。目前来说,百度指数还没有相关的公开渠道可以免费获取,想要获取到它,需要我们会一定的代码基础。比较简单的,我们可以利用gopup包获取某个关键词的指数。
首先我们需要安装gopup包:
pip install gopup --upgrade
而后运行如下代码即可获取一定时间段内,某关键词每日的搜索指数。
import gopup as gp
cookie = '此处输入您在网页端登录百度指数后的 cookie 数据'
index_df = gp.baidu_search_index(word='你的关键词',type='可选',start_date='2020-10-20', end_date='2021-10-20', cookie=cookie)
print(index_df)
比如我们以'新冠疫情'为例,搜索一下该关键词在一年内的搜索指数:
该包也支持获取百度资讯指数、百度需求图谱与百度人群画像等在内的众多指数数据。我们可以参考它在GitHup上的代码和使用文档来进行使用与获取数据。
GitHub:https://github.com/justinzm/gopup
使用文档:http://doc.gopup.cn/#/README
通过这种方法,我们就可以获取到一年内某关键词的百度指数数据。当然,如果想获取到多个关键词或多年的数据,只需要简单写一个循环就好了。
需要补充的是,该方法不支持获取分城市的百度指数数据,当我们想去获取某个城市里某个关键词的百度指数时,这个方法就无能为力了。那么,这里我们就需要自行去编写代码进行获取,可以参考CSDN上的文章:
https://blog.csdn.net/CY19980216/article/details/107650145?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163480379216780357294191%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_id=163480379216780357294191&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~first_rank_ecpm_v1~rank_v29_name-3-107650145.first_rank_v2_pc_rank_v29&utm_term=%E7%99%BE%E5%BA%A6%E6%8C%87%E6%95%B0&spm=1018.2226.3001.4187。
通过文章里的方法,理论上只要cookie足够多,我们甚至可以获取到不同日期内不同城市与不同城市之间的指数矩阵。简单一点的如下图:
好的,那么本篇文章就介绍到这里,不知道对小伙伴们有没有帮助呢?
END>
最新新闻
宫崎骏的时代结束了
在《你想活出怎样的人生》之前,宫崎骏一直是著名的退休诈骗犯。七次退休又七次复出,年过八旬,创作欲还是旺盛到令人害怕。然而