近年来,大数据已经成为了信息技术最为关注的热点之一,各行各业都在探讨如何利用大数据创造商业价值,一时间众说纷纭,各种关于大数据的应用方案接踵而来。作为全球最大的中文搜索引擎,百度每天响应来自138个国家和地区的60亿次搜索请求,它是一家真正拥有大数据的企业,在这个数据为王的信息时代,百度搜索如何应用大数据?大数据在搜索引擎效果测试和优化中有哪些应用价值?
在百度第二届开放研究计划中,百度网页搜索测试部的阮星华和南开大学的张建忠合作,共同承担了“机器学习在搜索引擎效果测试和改进中的应用”这一IT主题研究项目。据了解,这个项目就是百度利用大数据分析搜索引擎缺陷并优化搜索引擎的成功案例之一。
据阮星华介绍,参与“机器学习在搜索引擎效果测试和改进中的应用”这一项目的成员,主要是来自百度网页搜索测试部的张鑫、李卓、张敏等,以及南开大学的研究生张文、朱晓曦,他和南开大学的张建忠教授作为合作双方的接口人,对项目实施具体负责。
“互联网上的网页数量巨大,内容样式多种多样,少量网页还存在内容作弊,用户的需求表达方式也各有不同。因此难免会出现一些检索结果不好,不能满足用户需求的情况,这种情况我们称之为Bad Case,也就是产品缺陷。而我们这个项目所做的,就是通过机器学习的方法自动或半自动挖掘Bad Case,进而推动产品做有针对性的改进;其次是通过对海量数据的分析发现改进产品的思路和方案,并推动实现从而提高产品的效果和体验。”谈起项目的出发点,阮星华表示,搜索引擎并不是对每一个查询都能给出最好的结果,存在一些用户需求没有满足、体验不好的情况(Bad Case),他们需要基于海量搜索数据进行分析发现这些Bad Case,推动产品升级改进,使搜索引擎更加精准。
研究过程中,他们发现了多类Bad Case,如不出官网结果、搜索结果摘要差甚至无摘要、相关性差、搜索词纠错错误等,对此,他们针对大搜索建立十多个缺陷挖掘模型,建立起“用户满意度挖掘模型”、“寻址类搜索挖掘模型”、“纠错词Bad Case挖掘模型”等不同Bad Case类型的挖掘方法。在过去的一年时间中累计挖掘各类产品缺陷超过5万个,有效推动产品的升级和改进,成为产品升级决策的一个重要参考依据。
例如,当用户使用搜索引擎查找某个网址的时候,有可能会因为查询词不合适、网页未收录或者相关性排序不合理等原因导致搜索结果中没有出现用户想要的网址或者想要的网址比较靠后,阮星华和他的团队所做的一部分工作就是找出这样的信息,精确展现真实的官网,仅这一部分工作,就为产品线挖掘了大量精确官网数据,大大提高了寻址类需求的满足度,为用户提供更加准确的搜索结果。
“为了让搜索结果更准确、用户体验更好,我们在这个项目中通过数据分析,做了很多优化工作。比如用户在百度中搜索刘德华,搜索结果不仅展现刘德华的相关资料,还会在网页右侧‘其他人还搜’中展现于刘德华关系密切的人物,更贴心的是,在网页底端的‘相关搜索’中,还有各类与刘德华相关的搜索热词。我们通过数据分析提出针对“其他人还搜”和“相关搜索”两个区域的改进措施,有效提升了这两个区域的点击率。根据我们的数据统计,在‘知心百科“其他人还搜”卡片内实体入退场策略优化’中,我们的项目研究成果给“其他人还搜”带来了11.4%的点击率提升;在‘相关搜索’结果优化后,我们带来了约17%的“相关搜索”结果点击收益,这些数据充分说明在我们在大数据挖掘中得到的价值判断是正确的,对网民的需求分析比较到位。”
以上就是本篇文章【智能精准 大数据助力百度搜索优化】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/3142.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多