Hive和Hbase数据整合交互

文章及测试案例均来自于参考文档，参考文档写的很详细，想了解更多的可以看下参考文档。

使用Ambari+HDP安装的hive3.1.0和hbase

hive3.1.0下面已经存在hbase的jar包

无需像网上说的拷贝jar包或者配置环境变量，什么都不用配置，直接进入hive和hbase的客户端操作

hive和hbase对比

1、通过 Hive 与 HBase 整合，可以将 HBase 的数据通过 Hive 来分析，让 HBase 支持 JOIN、GROUP 等 SQL 查询语法。

2、Hive和Hbase是两种基于Hadoop的不同技术，Hive是一种类SQL的引擎，并且运行MapReduce任务，Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。这两种工具是可以同时使用的。就像用Google来搜索，用FaceBook进行社交一样，Hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以从Hive写到HBase，或者从HBase写回Hive。

3、面对大量的企业数据，HBase可以直线单表大量数据的存储，同时提供了高效的数据访问速度。

Hbase表映射成hive中

Hive内部表，语句如下

1、hive中建表

CREATE TABLE member(m_id string ,address_contry string ,address_province string ,address_city string ,info_age string ,info_birthday string ,info_company string)STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'    WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,address:contry,address:province,address:city,info:age,info:birthday,info:company")   TBLPROPERTIES("hbase.table.name" = "member");

2、hbase中表会自动创建, 然后向hbase中插入数据

put'member','scutshuxue','info:age','24'put'member','scutshuxue','info:birthday','1987-06-17'put'member','scutshuxue','info:company','alibaba'put'member','scutshuxue','address:contry','china' put'member','scutshuxue','address:province','zhejiang' put'member','scutshuxue','address:city','hangzhou' put'member','zhangsan','info:age','25'put'member','zhangsan','info:birthday','1997-06-17'put'member','zhangsan','info:company','alibaba'put'member','zhangsan','address:contry','china' put'member','zhangsan','address:province','sichuan' put'member','zhangsan','address:city','chendu'

3、hive中就可以查询数据了

select * from member;

Hive外部表，语句如下

先在hbase建好表，然后在hive中建表，如果hive drop掉表，hbase表不会变

1、Hbase中建表

create 'student','m_id','address','info'

2、hbase中插入数据

put'student','scutshuxue','info:age','24'put'student','scutshuxue','info:birthday','1987-06-17'put'student','scutshuxue','info:company','alibaba'put'student','scutshuxue','address:contry','china' put'student','scutshuxue','address:province','zhejiang' put'student','scutshuxue','address:city','hangzhou' put'student','zhangsan','info:age','25'put'student','zhangsan','info:birthday','1997-06-17'put'student','zhangsan','info:company','alibaba'put'student','zhangsan','address:contry','china' put'student','zhangsan','address:province','sichuan' put'student','zhangsan','address:city','chendu'

3、hive中建表（外部表）

CREATE EXTERNAL TABLE student(m_id string ,address_contry string ,address_province string ,address_city string ,info_age string ,info_birthday string ,info_company string)STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'    WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,address:contry,address:province,address:city,info:age,info:birthday,info:company")   TBLPROPERTIES("hbase.table.name" = "student");

:key,是hbase的rowkeyaddress:contry,是hbase的列族和列名 多列时：data:1，data:2；多列族时：data1:1,data2:1；

4、hive中就可以查询数据了

select * from student;

hive表映射成Hbase中

创建外部表

CREATE EXTERNAL TABLE hive_table (hbase_key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")TBLPROPERTIES ("hbase.table.name" = "default:hbase_table");

SERDEPROPERTIES中的 :key 是固定写法，必须有， TABLE hive_table (hbase_key int, value string)中的hbase_key对应 :key

这里简单说一下建表时的参数：

hbase.columns.mapping 是必须的，这将会和 HBase 表的列族进行验证。

hbase.table.name 属性是可选的，默认指定 HBase 表名与 Hive 表名一致。

此时，hive_table 与 hbase_table 都是空的。我们准备一些数据插入到hive表中

insert into hive_table (hbase_key, value) values(1, "www.ymq.io");

任务完成之后，Hive 与 HBase 表中就都存在数据了。

# hive_table 表数据+-----------------+-------------------+| hive_table.hbase_key  | hive_table.value  |+-----------------+-------------------+| 1               | www.ymq.io        |+-----------------+-------------------+# hbase_table表数据hbase(main):002:0> scan 'hbase_table'ROW                                    COLUMN+CELL                                                                                                   1                                     column=cf1:val, timestamp=1558710260266, value=www.ymq.io                                                    1 row(s)Took 0.2400 seconds

当将 hive_table 表删除，对应的 hbase_table 表不受影响，里面依旧有数据。当删除 hbase_table 表后，再查询 hive_table 表数据，会报错：Error: java.io.IOException: org.apache.hadoop.hbase.TableNotFoundException: hbase_table (state=,code=0)，这是正常的。

需要一个临时表 通过load加载数据到临时表 然后再通过hive sql查询该表数据插入到最终目标表**注意！注意！注意：** 在上述示例中，我们使用的 insert 命令向 Hive 表中插入数据。对于批量数据的插入，还是建议使用 load 命令，但对于 Hive 外部表来说，不支持 load 命令。我们可以先创建一个 Hive 内部表，将数据 load 到该表中，最后将查询内部表的所有数据都插入到与 HBase 关联的 Hive 外部表中，就可以了，相当于中转一下。

创建有分区的表

create table hbase_table_1(key int, value string) partitioned by (day string)stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'with serdeproperties ("hbase.columns.mapping" = ":key,cf1:val")tblproperties ("hbase.table.name" = "xyz");

不支持表的修改

会提示不能修改非本地表。

hive> ALTER TABLE hbase_table_1 ADD PARTITION (day = '2012-09-22');FAILED: Error in metadata: Cannot use ALTER TABLE on a non-native table FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask