原创 城室科技 城室科技
大数据采集技术就是对数据进行ETL操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值,然后提供给用户解决方案或者决策参考。数据采集位于数据分析生命周期的重要一环,它通过传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。
在现实生活中,数据产生的种类很多,并且不同种类的数据产生的方式不同,所以大数据采集的方法和所用的工具分为以下几种:一
采集方法
通过系统日志采集大数据:用于系统日志采集的工具常见的有Hadoop Chukwa、Cloudera Flume、Facebook Scribe和linkedIn Kafka等。这些工具是分布式架构,满足每秒数百MB的日志数据采集和传输需求。
通过网络采集大数据:主要指通过网络爬虫或者网站公开API等方式从网站上获取大量数据信息方式,将网站上非结构化的数据抽取出来,采用结构化的方法,同意储存在本地,支持图片、音频、视频、文字等多种形式的素材采集。网络爬虫的工具主要分为3类:分布式网络爬虫工具(Nutch)、Java网络爬虫工具(Crawler4j、WebMagic、WebCollector)、非Java网络爬虫工具(Scrapy)。
通过其他数据采集方法:生产和业务数据或学术研究数据,如更高数据的保密性要求,可以通过与企业或者研究机构合作,使用特定系统接口等相关方式采集数据。
二
采集工具
以下根据所采集的不同数据类型分别进行介绍。
地图数据
01.高德地图、百度地图、腾讯地图等的API
发布公司
各地图所属的母公司
功能介绍
可以实现定位、标记、地图、导航(公交驾车步行)、POI位置搜索、周边检索、地理编码及逆地理编码、实时路况等丰富功能。
使用场景
需要收集地图相关的数据。
使用方式
一般开发需求免费,若需要更高的额度则需要升级。
02. Google, Bing, OpenStreetMap等的API
发布公司
各地图所属的母公司,其中OpenStreetMap遵循开源协议。
功能介绍
与国内地图软件功能类似,提供定位、标记、地图、导航(公交驾车步行)、POI位置搜索、周边检索、地理编码及逆地理编码、实时路况等功能。
使用场景
需要收集地图相关的数据。
使用方式
一般开发需求免费,若需要更高的额度则需要升级。
03.城室科技CityEye
发布公司
上海城诗信息科技有限公司
功能介绍
CityEye是一款微信小程序,可通过设置项目组让多用户协同完成城市景象和街景照片的收集和上传到云空间,还能实时完成行人数量、车辆数量、视觉建筑密度、街道比例、天空开敞度和绿视率的指标的计算和地理信息的可视化呈现,在线导出图片压缩包,实现图像数据的收集和整理。此外,还可以通过收集公众对不同图像的偏好数据,实现对街景的情感指标量化评估。
使用场景
收集街景图像和公众对街景的感知认识。
使用方式
免费体验。
04.国家地球系统科学数据中心
发布公司各地图所属的母公司
功能介绍
可以实现定位、标记、地图、导航(公交驾车步行)、POI位置搜索、周边检索、地理编码及逆地理编码、实时路况等丰富功能。
使用场景
需要收集地图相关的数据。
使用方式
一般开发需求免费,若需要更高的额度则需要升级。
05.政府数据开放平台
访问链接公开
政府数据开放平台及对应链接
上海市政府数据服务网
北京市政务数据资源网
天津市信息资源统一开放平台
厦门市大数据开放平台
深圳市政府数据开放平台
台湾
功能介绍
提供各种政务公开数据。
使用场景
科学研究。
使用方式
免费。
06.北京大学开放研究数据平台
访问链接()
功能介绍
提供截止到2018年9月30日的全量数据,地域覆盖全国,数据总量为6530万余条。
使用场景
科学研究
使用方式
免费需申请
07.资源环境数据云平台
访问链接()
功能介绍
提供截止到2018年,覆盖全国的一共22个一级类,262个二级类,831个三级类,超过6530万条POI数据,此外还有其他遥感、气象、土地使用类型、植被覆盖等各种数据。
使用方式
科学研究。
收费方式
非免费,需申请。
08.美国政府公开数据
访问链接()
功能介绍
提供关于农业、气候、生态、能源、海洋等多方面的公开数据,共计230,256个数据集、14个数据目录。
使用场景
科学研究。
使用方式
免费。
09.亚马逊公开数据
访问链接()
功能介绍
提供包括卫星遥感地图、地理信息、天气、生物等多方面的公开数据。
使用场景
科学研究。
使用方式
免费。
10.谷歌公开数据
访问链接()
功能介绍
提供多种语言、多种类型的数据集。
使用场景
科学研究。
使用方式
免费。
11.水经注
访问链接()
功能介绍
导入导出GIS矢量文件、栅格数据,GIS坐标相互转换,专业GIS功能(点线面及CAD绘制、图层批量设置、全国卫星图像&行政区划&道路路网&水系&POI&矢量建筑轮廓下载、面积计算、线路查询、矢量数据套合配准、批量新建下载任务、剖面图生成、高程等高线提取等等)。
使用场景
几乎大部分GIS相关的服务都可以使用。
使用方式
免费。
12.小O地图
访问链接()
功能介绍
提供数据挖掘、处理及分析软件【小O地图】和与Office表格结合使用的【小O图标】插件,可以获取POI数据、行政区数据、公交线路、驾车线路、各种地图元素矢量数据,提供地址解析、坐标转化和坐标计算,提供地图分析,可以爬取商超的商品信息、二手房信息、餐饮酒店等常用信息,绘制各种展示数据的地图。
使用场景
需要使用GIS相关的服务。
使用方式
7天免费试用,30天68元,1年298元。
图像数据
01.百度街景
访问链接()
功能介绍
根据图片的尺寸、经纬度坐标、全景角度等信息,通过全景静态图API请求参数自动在网站爬取图片链接,返回相应的图片数据。该方法使用的是百度坐标系。
使用场景
城市街景分析需要收集大量街景图片。
使用方式
免费,有次数限制。
02.谷歌街景
访问链接()
功能介绍
根据size、location或panoid、fov,key等信息,构建相应的URL,随后自动在网站爬取图片链接,最终返回相应的图片数据。
使用场景
城市街景分析需要收集大量街景图片。
使用方式
免费。
03.公共机构
:提供有多座城市多种类别的街景语义分割结果。
()
:每组图片是在马萨诸塞州波士顿市使用DSC-F717相机拍摄,之后对图片中的9类物体进行手工标注。9类物体包括汽车,行人,自行车,建筑物,树木,天空,道路,人行道,店铺,每类物体使用相同的方式进行标注。
()
:提供了6大洲,152类共计25000张高分辨率已进行语义分割的图片,下载需要申请授权。
()
综合数据
01.ForeSpider
访问链接()
功能介绍
通过关键词检索,在需要登录的数据/系统内网、含验证码的网站等各类APP/Ajax网页上自动抓取图片/视频/PDF文件等资源。
使用场景
需要分析电商消费、金融财经动态、网络评论等信息等场景。
使用方式
02.八爪鱼访问链接深圳视界信息技术有限公司()
功能介绍
高效自动采集各种类型数据,满足各种需求。
使用场景
适合产品、运营、销售、数据分析、政府机关、电商从业者、学术研究等多种身份职业。
使用方式
八爪鱼不同使用版本及对应服务内容与收费标准
_
任务数
本地采集导出上限
年费
免费版
30
1W条/次
0
专业版
100
10W条/次
399
旗舰版
300
100W条/次
1999
旗舰+版
1000
500W条/次
3999
私有云版
不限
不限
29800
03.火车采集器
发布公司合肥乐维信息技术有限公司
功能介绍
支持各种类型数据的无限级采集,支持多数据库,多线程高速并行采集,全自动操作,支持拓展。
使用场景
政府机构采集业务数据,企业采集商业数据、电商数据,网站采集运营数据(访问数据、用户行为等),科研所需的数据等。
使用方式
分为旗舰版、企业版、集团版收费
关注公众号回复“大数据分析”、“大数据表达”关键词,查看《大数据技术的方法与工具—分析篇》、《大数据技术的方法与工具—表达与监测评估篇》
以上就是本篇文章【大数据技术的方法与工具1-采集篇】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/news/2322.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多