4.1 Hive的二次开发流程

常数据进入Hadoop的处理流程大概如下:

  1. 导入原始数据到HDFS:

原始业务的数据可能是在FTP服务器上,可能在本地磁盘上,可能在网络共享存储上, 可以通过Loader组件,HDFS API,HDFS 命令行工具将原始数据导入HDFS,或者通过Kafka,Flume等直接写入HDFS。

  1. 格式转换(可选):

如果HDFS的数据格式不是列格式,建议通过Hive的SQL语句转换成列存储格式,如ORC格式,这样可以优化IO访问,合并小文件。

  1. 针对性分析数据:

调用JDBC接口或者Beeline执行SQL语句对数据进行处理和转换,这里就是业务自己编写SQL语句,进行分析数据,生成结果。

  1. 输出结果数据:

一般将结果数据导出到Relation Database,供其它的报表工具进一步使用,可以通过JDBC或直接从HDFS导出将数据转移到其它地方。

results matching ""

    No results matching ""