大数据入门:Impala框架基础简介 大数据框架基础教程
yuyutoo 2024-10-12 00:49 7 浏览 0 评论
在大数据处理当中,核心的数据分析处理环节,衍生出了非常多的框架组件工具,基于不同场景下的需求,给出了更多可选的技术方案。比如说在交互式查询场景下,Impala就是一个不可忽视的重要选择。今天的大数据入门分享,我们就来讲讲Impala框架入门的一些基础知识。
Impala背景
Impala的出现,追溯其源头,是来自于Google的“新三篇论文”(Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具)之一的交互式分析工具Dremel。
根据实验环境下的测试,Impala进行数据查询,可以实现比Hive快10-100倍,其中SQL查询性能也超过了SparkSQL,号称是大数据领域当前最快的SQL查询工具。
在实际场景下,Impala提供的针对于HDFS、Hbase数据的高性能、低延迟的交互式SQL查询,基于Hive并使用内存进行计算,兼顾数据仓库,具有实时、批处理、多并发等优点,也确实性能优良,因此得到企业级用户的青睐。
Impala与Hive的关系
Impala基于Hive进行大数据分析查询,直接使用Hive的元数据库metadata,意味着Impala元数据都存储在Hive的metastore当中,并且Impala兼容Hive的绝大多数SQL语法。
在实际应用当中,要保证Impala的正常使用,需要先安装Hive,保证Hive安装成功,并且还需要启动Hive的metastore服务才行。
Impala对比Hive所使用的优化策略
Impala把整个查询分成一执行计划树,在分发执行计划后,Impala使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,减少的了把中间结果写入磁盘的步骤,再从磁盘读取数据的开销。
使用LLVM产生运行代码,针对特定查询生成特定代码,同时使用Inline的方式减少函数调用的开销,加快执行效率。
充分利用可用的硬件指令(SSE4.2)。
更好的IO调度,Impala知道数据块所在的磁盘位置能够更好的利用多磁盘的优势,同时Impala支持直接数据块读取和本地代码计算checksum。
通过选择合适的数据存储格式可以得到最好的性能(Impala支持多种存储格式)。
最大使用内存,中间结果不写磁盘,及时通过网络以stream的方式传递。
Impala的优点
1、Impala比较快,非常快,特别快,因为所有的计算都可以放入内存当中进行完成,只要你内存足够大;
2、摈弃了MR的计算,改用C++来实现,有针对性的硬件优化;
3、具有数据仓库的特性,对Hive的原有数据做数据分析;
4、支持ODBC,JDBC远程访问。
Impala的缺点
1、基于内存计算,对内存依赖性较大;
2、改用C++编写,意味着维护难度增大;
3、基于Hive,与Hive共存亡,紧耦合;
4、稳定性不如Hive,不存在数据丢失的情况。
关于大数据入门,Impala框架基础,以上就为大家做了一个简单的介绍了。Impala这个框架,现如今也同样是Hadoop生态当中的得力干将,学习当中应该予以相应的重视。
相关推荐
- 网站建设:从新手到高手
-
现代化网站应用领域非常广泛,从个人形象网站展示、企业商业网站运作、到政府公益等服务网站,各行各业都需要网站建设。大体上可以归结四类:宣传型网站设计、产品型网站制作、电子商务型网站建设、定制型功能网站开...
- JetBrains 推出全新 AI 编程工具 Junie,助力高效开发
-
JetBrains宣布推出名为Junie的全新AI编程工具。这款工具不仅能执行简单的代码生成与检查任务,还能应对编写测试、验证结果等复杂项目,为开发者提供全方位支持。根据SWEBench...
- AI也能写代码!代码生成、代码补全、注释生成、代码翻译轻松搞定
-
清华GLM技术团队打造的多语言代码生成模型CodeGeeX近期更新了新的开源版本「CodeGeeX2-6B」。CodeGeeX2是多语言代码生成模型CodeGeeX的第二代模型,不同于一代CodeG...
- 一键生成前后端代码,一个36k星的企业级低代码平台
-
「企业级低代码平台」前后端分离架构SpringBoot2.x,SpringCloud,AntDesign&Vue,Mybatis,Shiro,JWT。强大的代码生成器让前后端代码一键生成,无需写任...
- Gitee 代码托管实战指南:5 步完成本地项目云端同步(附避坑要点)
-
核心流程拆解:远程仓库的搭建登录Gitee官网(注册账号比较简单,大家自行操作),点击“新建仓库”,建议勾选“初始化仓库”和“设置模板文件”(如.gitignore),避免上传临时文件。...
- jeecg-boot 源码项目-强烈推荐使用
-
JEECGBOOT低代码开发平台...
- JetBrains推出全新AI编程工具Junie,强调以开发者为中心
-
IT之家2月1日消息,JetBrains发文,宣布推出一款名为Junie的全新AI编程工具,官方声称这款AI工具既能执行简单的代码生成与检查等基础任务,也能应对“编写测试、验证结...
- JetBrains旗下WebStorm和Rider现已加入“非商用免费”阵营
-
IT之家10月25日消息,软件开发商JetBrains今日宣布,旗下WebStorm(JavaScript开发工具)和Rider(.NET开发工具)现已加入“非商用免费”阵营。如果...
- 谈谈websocket跨域
-
了解websocketwebsocket是HTML5的新特性,在客户端和服务端提供了一个基于TCP连接的双向通道。...
- websocket调试工具
-
...
- 利用webSocket实现消息的实时推送
-
1.什么是webSocketwebSocket实现实现推送消息WebSocket是HTML5开始提供的一种在单个TCP连接上进行全双工通讯的协议。以前的推送技术使用Ajax轮询,浏览器需...
- 为 Go 开发的 WebSocket 库
-
#记录我的2024#...
- 「Java基础」Springboot+Websocket的实现后端数据实时推送
-
这篇文章主要就是实现这个功能,只演示一个基本的案例。使用的是websocket技术。...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- mybatis plus (70)
- scheduledtask (71)
- css滚动条 (60)
- java学生成绩管理系统 (59)
- 结构体数组 (69)
- databasemetadata (64)
- javastatic (68)
- jsp实用教程 (53)
- fontawesome (57)
- widget开发 (57)
- vb net教程 (62)
- hibernate 教程 (63)
- case语句 (57)
- svn连接 (74)
- directoryindex (69)
- session timeout (58)
- textbox换行 (67)
- extension_dir (64)
- linearlayout (58)
- vba高级教程 (75)
- iframe用法 (58)
- sqlparameter (59)
- trim函数 (59)
- flex布局 (63)
- contextloaderlistener (56)