百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 编程网 > 正文

大数据入门:Impala框架基础简介 大数据框架基础教程

yuyutoo 2024-10-12 00:49 7 浏览 0 评论

在大数据处理当中,核心的数据分析处理环节,衍生出了非常多的框架组件工具,基于不同场景下的需求,给出了更多可选的技术方案。比如说在交互式查询场景下,Impala就是一个不可忽视的重要选择。今天的大数据入门分享,我们就来讲讲Impala框架入门的一些基础知识。

Impala背景

Impala的出现,追溯其源头,是来自于Google的“新三篇论文”(Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具)之一的交互式分析工具Dremel。

根据实验环境下的测试,Impala进行数据查询,可以实现比Hive快10-100倍,其中SQL查询性能也超过了SparkSQL,号称是大数据领域当前最快的SQL查询工具。

在实际场景下,Impala提供的针对于HDFS、Hbase数据的高性能、低延迟的交互式SQL查询,基于Hive并使用内存进行计算,兼顾数据仓库,具有实时、批处理、多并发等优点,也确实性能优良,因此得到企业级用户的青睐。

Impala与Hive的关系

Impala基于Hive进行大数据分析查询,直接使用Hive的元数据库metadata,意味着Impala元数据都存储在Hive的metastore当中,并且Impala兼容Hive的绝大多数SQL语法。

在实际应用当中,要保证Impala的正常使用,需要先安装Hive,保证Hive安装成功,并且还需要启动Hive的metastore服务才行。

Impala对比Hive所使用的优化策略

Impala把整个查询分成一执行计划树,在分发执行计划后,Impala使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,减少的了把中间结果写入磁盘的步骤,再从磁盘读取数据的开销。

使用LLVM产生运行代码,针对特定查询生成特定代码,同时使用Inline的方式减少函数调用的开销,加快执行效率。

充分利用可用的硬件指令(SSE4.2)。

更好的IO调度,Impala知道数据块所在的磁盘位置能够更好的利用多磁盘的优势,同时Impala支持直接数据块读取和本地代码计算checksum。

通过选择合适的数据存储格式可以得到最好的性能(Impala支持多种存储格式)。

最大使用内存,中间结果不写磁盘,及时通过网络以stream的方式传递。

Impala的优点

1、Impala比较快,非常快,特别快,因为所有的计算都可以放入内存当中进行完成,只要你内存足够大;

2、摈弃了MR的计算,改用C++来实现,有针对性的硬件优化;

3、具有数据仓库的特性,对Hive的原有数据做数据分析;

4、支持ODBC,JDBC远程访问。

Impala的缺点

1、基于内存计算,对内存依赖性较大;

2、改用C++编写,意味着维护难度增大;

3、基于Hive,与Hive共存亡,紧耦合;

4、稳定性不如Hive,不存在数据丢失的情况。

关于大数据入门,Impala框架基础,以上就为大家做了一个简单的介绍了。Impala这个框架,现如今也同样是Hadoop生态当中的得力干将,学习当中应该予以相应的重视。

相关推荐

网站建设:从新手到高手

现代化网站应用领域非常广泛,从个人形象网站展示、企业商业网站运作、到政府公益等服务网站,各行各业都需要网站建设。大体上可以归结四类:宣传型网站设计、产品型网站制作、电子商务型网站建设、定制型功能网站开...

JetBrains 推出全新 AI 编程工具 Junie,助力高效开发

JetBrains宣布推出名为Junie的全新AI编程工具。这款工具不仅能执行简单的代码生成与检查任务,还能应对编写测试、验证结果等复杂项目,为开发者提供全方位支持。根据SWEBench...

AI也能写代码!代码生成、代码补全、注释生成、代码翻译轻松搞定

清华GLM技术团队打造的多语言代码生成模型CodeGeeX近期更新了新的开源版本「CodeGeeX2-6B」。CodeGeeX2是多语言代码生成模型CodeGeeX的第二代模型,不同于一代CodeG...

一键生成前后端代码,一个36k星的企业级低代码平台

「企业级低代码平台」前后端分离架构SpringBoot2.x,SpringCloud,AntDesign&Vue,Mybatis,Shiro,JWT。强大的代码生成器让前后端代码一键生成,无需写任...

Gitee 代码托管实战指南:5 步完成本地项目云端同步(附避坑要点)

核心流程拆解:远程仓库的搭建登录Gitee官网(注册账号比较简单,大家自行操作),点击“新建仓库”,建议勾选“初始化仓库”和“设置模板文件”(如.gitignore),避免上传临时文件。...

jeecg-boot 源码项目-强烈推荐使用

JEECGBOOT低代码开发平台...

JetBrains推出全新AI编程工具Junie,强调以开发者为中心

IT之家2月1日消息,JetBrains发文,宣布推出一款名为Junie的全新AI编程工具,官方声称这款AI工具既能执行简单的代码生成与检查等基础任务,也能应对“编写测试、验证结...

JetBrains旗下WebStorm和Rider现已加入“非商用免费”阵营

IT之家10月25日消息,软件开发商JetBrains今日宣布,旗下WebStorm(JavaScript开发工具)和Rider(.NET开发工具)现已加入“非商用免费”阵营。如果...

谈谈websocket跨域

了解websocketwebsocket是HTML5的新特性,在客户端和服务端提供了一个基于TCP连接的双向通道。...

websocket调试工具

...

利用webSocket实现消息的实时推送

1.什么是webSocketwebSocket实现实现推送消息WebSocket是HTML5开始提供的一种在单个TCP连接上进行全双工通讯的协议。以前的推送技术使用Ajax轮询,浏览器需...

Flutter UI自动化测试技术方案选型与探索

...

为 Go 开发的 WebSocket 库

#记录我的2024#...

「Java基础」Springboot+Websocket的实现后端数据实时推送

这篇文章主要就是实现这个功能,只演示一个基本的案例。使用的是websocket技术。...

【Spring Boot】WebSocket 的 6 种集成方式

介绍...

取消回复欢迎 发表评论: