一、产品介绍
OpenBI
Redoop平台首发产品OpenBI,多引擎混合动力、高效稳定完备的数据分析功能。 分析型数据仓库场景,支持结构化、非结构化,半结构化数据的可视化处理。
二、安装集群
创建集群,点击Launch Install Wizard进行创建进入集群创建向导。
集群安装向导:开始
为集群取一名字:hadoop进入选择安装包
集群安装向导:选择软件包
选择系统默认的软件包CRH2.3,选择OS为redhat6,
BaseUrl:源路径
集群安装向导:安装选项
输入主机列表的全域名和安装的服务器的ssh私钥;
点击下一步进入确认主机界面。
点击OK
集群安装向导:确认主机
点击下一步
点击OK继续
集群安装向导:选择服务
选择需要安装的服务,选择服务时会根据服务间的依赖自动添加依赖的服务。确认选择的服务无误后点击下一步
点击OK继续
集群安装向导:分配Masters
分配Master角色
集群安装向导:分配Slaves和Clients,点击下一步
集群安装向导:定制服务
点击继续执行
集群安装向导:检查,部署
集群安装向导:安装、启动并测试
启动成功,点击下一步
集群安装向导:概要
集群安装完成
三、hive
1、hive功能
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。
2、hive特性
提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
3、hive应用场景
日志分析:多维度数据分析,海量结构化数据离线分析,低成本进行数据分析。
4、hive使用
hive> create database tc;
OK
Time taken: 0.665 seconds
hive> use tc
OK
hive> create table gjl_test0(id varchar(20),name varchar(20),age varchar(20),addr varchar(20));
OK
hive> show tables;
OK
gjl_test0
Time taken: 0.246 seconds, Fetched: 1 row(s)
四、生成数据
1、mysql
# mysql
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 882
Server version: 5.1.73 Source distribution
Copyright (c) 2000, 2013, Oracle and/or its affiliates. All rights reserved.
Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.
Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.
2、创建数据库
Mysql>create database tc;
Query OK, 1 row affected (0.08 sec)
Mysql>use tc;
Database changed
3、创建表
为数据库tc创建表tc_test1
mysql>create table gjl_test0(id varchar(20),name varchar(20),age varchar(20),addr varchar(20));
Query OK, 0 rows affected (0.33 sec)
4、插入数据
为数据表tc_test1插入10000条数据
将a3.txt脚本文件中的内容粘贴至mysql中
五、Kettle过程——数据转换设计
1、Kettle功能
ETL工具,数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
2、Kettle 应用场景
可在Window、Linux、Unix上运行,数据分析平台中作业流设计和调度必备功能。支持power和x86。功能强大,可视化程度高,大大降低大数据平台使用门槛。
3、Kettle 特性
纯java编写,数据抽取高效稳定,有易于使用的GUI,可连接广泛的数据库,文件,可通过插件扩展。数据转换灵活,可以手工编写SQL语句、java代码、正则表达式等。有监控和日志管理功能,方便排错。Azkaban集成Kettle,进一步增强调度能力。
4、Kettle安装
1)将Kettle的包拷贝到当前机器下/mnt/data-integration/lib目录下,解压至当前目录
2)安装图形化界面
[root@wxb-2 data-integration]# yum groupinstall “X Window System”
Complete!
安装成功。
5、Kettle 使用
1)、建立本地资源库
点击+号
添加一个Kettle File Repository
选择File System中的Kettle_repository,点击OK完成本地资源库的创建
2)、连接数据库
(1)新建转换
新建一个Transformation
(2)连接hive数据库
建立一个数据库连接
CC为hive数据库链接,DD为mysql数据库链接
3)、设计转换
(1)Mysql--->HDFS--->Hive
(1)表输入
在input中选择Table input,将其拖入Transformation 1界面中
双击Table input,选择mysql连接的DD数据库链接,通过sql语句查询数据
点击Previes可以设置预览的数据数量,我们当前设置预览数量为5,
(2)表输出
在Output中选择Table output,将其拖入Transformation 1界面中:
双击Table output 进行hive数据库选择配置
将Table input 与 Table output 连接
点击run运行
进入hive查询数据
六、Spark
1、Spark功能
Spark是一个为速度和通用目标设计的集群计算平台。
2、Spark特性
Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
3、Spark优势
Spark 是一种可扩展的数据分析平台,它整合了内存计算的基元,因此,相对于 Hadoop 的集群存储方法,它在性能方面更具优势。Spark 是在 Scala 语言中实现的,并且利用了该语言,为数据处理提供了独一无二的环境。
七、Azkaban
1、Azkaban 功能
Azkaban是工作流调度器,为解决hadoop生态圈的任务调度而开发。
2、Azkaban 特性
1.Web用户界面,简单易用,节约了学习成本。
2.方便上传工作流,工作流可以在windows中编写,只要存为.job,打成zip包上传,就可以自动显示出工作流图。
3.方便设置任务之间的关系,任务只需要在job文件中配置dependencies即可。
4.有执行权限设定,只要简单配置即可。
5.模块化和可插拔机制
6.工作流和任务的日志记录和审计
3、Azkaban 优势
手动安装azkaban是一个很复杂的过程,需要配置mysql,jetty ssl,还需要安装Webserver与Execute,安装之后还需要更改大量的初始化的配置。才可以正常使用。集成到redoop平台之后,用户可以自动安装,可以在ambari中配置、控制azkaban,同时azkaban运行时所产生的日志,也会固定的写在azkaban的目录中,方便用户管理查看。
4、Azkaban 使用
创建文件夹,用来放测试用的脚本目录。
# mkdir test
将上面kettle中操作的命令写在脚本gjl.sh中
八、HBase
1、HBase功能
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
2、HBase特性
强一致性
水平伸缩
支持有限查询方式和一级索引
高性能随机写
和Hadoop无缝集成
3、HBase应用场景
存储大量的数据
需要高写吞吐量
在大型数据集需要有效的随机存取
结构化和半结构化数据
九、Phoenix
1、Phoenix功能
Phoenix,这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询
2、Phoenix优势
根据项目创建者所述,对于10M到100M的行的简单查询来说,Phoenix要胜过Hive。对于使用了HBase API、协同处理器及自定义过滤器的Impala与OpenTSDB来说,进行相似的查询Phoenix的速度也会更快一些。
3、Phoenix特性
1)嵌入式的JDBC驱动,实现了大部分的java.sql接口,包括元数据API可以通过多部行键或是键/值单元对列进行建模
2)完善的查询支持,可以使用多个谓词以及优化的扫描键
3)DDL支持:通过CREATE TABLE、DROP TABLE及ALTER TABLE来添加/删除列
4)版本化的模式仓库:当写入数据时,快照查询会使用恰当的式
5)DML支持:用于逐行插入的UPSERT VALUES、用于相同或不同表之间大量数据传输的UPSERT SELECT、用于删除行的DELETE
十、Zeppelin
1、Zeppelin 功能
Zeppelin提供了web版的类似ipython的notebook做数据分析和可视化。
2、Zeppelin 应用场景
数据分析可视化领域,可实现数据采集,数据发现,数据分析,数据可视化和协作。
支持基本图表,如:表格,柱状图,饼图,折线图等。可根据自己业务选择适合的可视化图表。
3、Zeppelin 特性
CRH Ambari中可以快速进行部署,可接入不同的数据处理引擎,包括spark,hive,hbase,tajo等,原生支持scala, java, shell, markdown等。Redoop平台集成Zeppelin,用户可轻松安装与配置Zeppelin,完全交给redoop平台维护,用户直接开始使用zeppelin进行业务开发。
4、Zeppelin使用
1)启动zeppelin服务
2)前台访问
前台访问Zeppelin,
3)Hive访问
创建新的node(hive)
取名为mysql-kettle-azkban-hive
即可在可视化的页面中输入sql语句查询,查询出的数据通过图形显现,使其更加的客观,拖动我们的属性至我们需要显示的keys、Groups、values
Select * from tc.gjl_test0,查询显示数据
通过树状图显示信息
折线图显示信息
4)Spark Sql访问
创建新的node(Spark Sql)
取名为:mysql-kettle-azkban-sparkSql
通过Spark处理数据
即可在可视化的页面中输入sql语句查询,查询出的数据通过图形显现,使其更加的直观,拖动我们的属性至我们需要显示的keys、Groups、values
Select count(*) from tc.gjl_test0,查询显示数据
Sllect * from tc.gjl_test0 limit 20
树状图显示数据
5)Phoenix访问
创建新的node(Phoenix)
取名为:mysql-kettle-azkban-phoenix
Phoenix在可视化的页面中输入sql语句查询, Select * from test.Person查询显示数据