Hive存储过程HQL/SQL（二）– 在Hive存储过程中读写MySQL表

关键字：Hive存储过程、PL/HQL、HQL/SQL、MySQL

通过PL/HQL可以在一个脚本中同时访问多个数据库系统。在实际业务场景中，经常会有需要将Hive和RDBMS中的数据结合分析，比如：

往RDBMS中写入Hive分析的审计信息；
从RDBMS中获取一些维表的数据，和Hive表进行关联；
从RDBMS中读取一些配置数据；
往RDBMS中保存Hive的分析结果；

在PL/HQL中提供了这个功能，它允许在一个PL/HQL脚本中访问多个数据库系统。下面以一个简单需求为例：

在PL/HQL脚本中执行Hive分析任务，并将本次执行的审计信息记录到MySQL，其中，审计信息包括Hive分析任务的开始时间，结束时间和最终完成状态。

MySQL中建立审计信息表

CREATE TABLE hive_task_log (
seq INT PRIMARY KEY auto_increment,
start_time VARCHAR(20),
end_time VARCHAR(20),
return_code INT
);

配置hplsql-site.xml

在hplsql-site.xml中的主要配置如下：

<name>hplsql.conn.default</name>

<description>The default connection profile</description>

</property>

<name>hplsql.conn.hive2conn</name>

<value>org.apache.hive.jdbc.HiveDriver;jdbc:hive2://172.16.212.17:10000/liuxiaowen;liuxiaowen;</value>

<description>HiveServer2 JDBC connection</description>

</property>

<name>hplsql.conn.mysql.conn</name>

<value>com.mysql.jdbc.Driver;jdbc:mysql://172.16.212.102:3306/test;test;test1234</value>

<description>MySQL connection</description>

</property>

其中，

参数hplsql.conn.default表示默认的连接器为hive2conn；

参数hplsql.conn.hive2conn表示hive2conn的具体链接串；

参数hplsql.conn.mysql.conn表示mysql的具体链接串。

特别注意：原始的hplsql-site.xml给出的是hplsql.conn.mysqlconn，经过测试有bug，这里的链接名称中必须包含”mysql.”，才会被正确解析成MYSQL的链接类型，否则，全被解析成HIVE，其他非Hive的数据库链接名称也是如此。

开发PL/HQL脚本

PL/HQL脚本1.sql中的内容如下：

MAP OBJECT log TO test.hive_task_log AT mysql.conn;

DECLARE
  start_time VARCHAR(20);
  end_time VARCHAR(20);
  return_code INT;
BEGIN
  start_time = SYSDATE || '';
  SELECT COUNT(1) FROM liuxiaowen.lxw1234;
  return_code = SQLCODE;
  end_time = SYSDATE || '';
  INSERT INTO log (`start_time`,`end_time`,`return_code`) 
     VALUES(start_time,end_time,return_code);
EXCEPTION WHEN OTHERS THEN
  return_code = SQLCODE;
  end_time = SYSDATE || '';
  INSERT INTO log (`start_time`,`end_time`,`return_code`) 
     VALUES(start_time,end_time,return_code);
  DBMS_OUTPUT.PUT_LINE('SQL execute error,return code : ' || return_code);
END

其中：

MAP OBJECT log TO test.hive_task_log AT mysql.conn;

这句是使用mysql.conn链接器，将test.hive_task_log表映射到log对象上，后面直接使用log即可。

SELECT COUNT(1) FROM liuxiaowen.lxw1234;

这句是执行Hive的分析任务。

return_code = SQLCODE;

这句是获取Hive分析任务的结果状态码，0表示正常，非0表示错误；

另外，在Hive分析任务开始前和结束后，使用SYSDATE获取当前时间。

使用PL/HQL的异常处理，当执行有问题时候，同样需要往审计表中记录开始和结束时间，以及返回的错误码。

执行PL/HQL并查看结果

在命令行执行hplsql -f 1.sql

hplsql

从执行的打印信息中可以看出，本次执行有两个数据库链接，第一个是链接到Hive，第二个是链接到MySQL。

在MySQL中查看表test.hive_task_log的数据：

hplsql

修改1.sql文件，使Hive的分析任务出错：

SELECT COUNT(1) FROM liuxiaowen.lxw1234.com;

再执行一遍：

hplsql

已经报错了，查看MySQL中的审计信息：

hplsql

遗憾的是，目前还不支持直接将Hive中的表和MySQL中的表关联起来查询，只能通过类似游标的方式去实现关联。

更多关于Hive中使用存储过程的文章，阅读《Hive存储过程系列文章》。

您可以关注 lxw的大数据田地，或者加入邮件列表，随时接收博客更新的通知邮件。

如果觉得本博客对您有帮助，请赞助作者。

转载请注明：lxw的大数据田地 » Hive存储过程HQL/SQL（二）– 在Hive存储过程中读写MySQL表

lxw的大数据田地 Hadoop/Hive/HBase/Spark/Java

Hive存储过程HQL/SQL（二）– 在Hive存储过程中读写MySQL表

MySQL中建立审计信息表

配置hplsql-site.xml

开发PL/HQL脚本

执行PL/HQL并查看结果

您可以关注 lxw的大数据田地，或者加入邮件列表，随时接收博客更新的通知邮件。

Hi，您需要填写昵称和邮箱！

MySQL中建立审计信息表

配置hplsql-site.xml

开发PL/HQL脚本

执行PL/HQL并查看结果

您可以关注 lxw的大数据田地 ，或者 加入邮件列表 ，随时接收博客更新的通知邮件。

Hi，您需要填写昵称和邮箱！

您可以关注 lxw的大数据田地，或者加入邮件列表，随时接收博客更新的通知邮件。