推广 热搜： 公司快速上海中国未来金企业政策教师系统

【大数据】大数据OLAP查询引擎选型对比

日期：2024-11-11 作者：xinet caijiyuan 评论：0 移动：http://dfvalve.xrbh.cn/mobile/news/9886.html

核心提示：目前大数据比较常用的OLAP查询引擎包括：Presto、Impala、Druid、Kylin、Doris、Clickhouse、GreenPlum等。不同引擎特点不尽相

目前大数据比较常用的OLAP查询引擎包括：Presto、Impala、Druid、Kylin、Doris、Clickhouse、GreenPlum等。

【大数据】大数据OLAP查询引擎选型对比

不同引擎特点不尽相同，针对不同场景，可能每个引擎的表现也各有优缺点。下面就以上列举的几个查询引擎做简单介绍。

Presto是 Facebook 推出的一个开源的分布式SQL查询引擎，数据规模可以支持GB到PB级，主要应用于处理秒级查询的场景。Presto 的设计和编写完全是为了解决像 Facebook 这样规模的商业数据仓库的交互式分析和处理速度的问题。虽然 Presto 可以解析 SQL，但它不是一个标准的数据库。不是 MySQL、Oracle 的代替品，也不能用来处理在线事务（OLTP）。

Presto 支持在线数据查询，包括 Hive，关系数据库（MySQL、Oracle）以及专有数据存储。一条 Presto 查询可以将多个数据源的数据进行合并，可以跨越整个组织进行分析（跨库执行）。Presto 主要用来处理响应时间小于 1 秒到几分钟的场景。

Presto 是一个运行在多台服务器上的分布式系统。完整安装包括一个 Coordinator 和多个 Worker。由客户端提交查询，从 Presto 命令行 CLI 提交到 Coordinator。Coordinator 进行解析，分析并执行查询计划，然后分发处理队列到 Worker 。

Presto也是一个master-slave架构的查询引擎。其架构图如下图所示：

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和Hbase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。

是一个（大规模并行处理）查询引擎：

是一个用和编写的开源软件；
用于处理存储在集群中大量的数据；
性能最高的引擎（提供类似的体验），提供了访问存储在分布式文件系统中的数据的最快方法。
使用impala，用户可以使用传统的SQL知识以极快的速度处理存储在HDFS、Hbase和Amazon s3中的数据中的数据，而无需了解Java（MapReduce作业）。
由于在数据驻留（在Hadoop集群上）时执行数据处理，因此在使用Impala时，不需要对存储在Hadoop上的数据进行数据转换和数据移动。

但是：

不提供任何对序列化和反序列化的支持；
只能读取文本文件，而不能读取自定义二进制文件；
每当新的记录/文件被添加到中的数据目录时，该表需要被刷新；
不支持text域的全文搜索；
不支持Transforms;
对内存要求高；

本文地址：http://dfvalve.xrbh.cn/news/9886.html 迅博思语资讯 http://dfvalve.xrbh.cn/ , 查看更多

标签： 数据大数选型

更多>同类行业资讯

0 条相关评论

新闻列表

企业新闻

推荐企业新闻

推荐图文

推荐行业资讯

点击排行

• 个人大数据信用查询平台哪个更准确一些？蘑菇画	• 传视频号月均大盘数据超100亿！
• 小红书｜千瓜2022年5月服饰行业数据洞察报告	• 你最爱哪类抖音短视频？数据显示“生活技能类”
• 叮咚快评｜直播数据造假，各大网络平台难辞其咎	• 【活动回顾】带你了解一站式开源大数据平台套件
• 大数据平台CDH的介绍和5.16／6.3版本的搭建	• 数据平台竞技场 2024：AI 或成为必杀技，但面临
• 前庭电刺激（GVS）的数据分析及在神经康复中的	• 地方金融｜用好大数据，强金融惠民生