Powered by GitBook

4.1 Hive的二次开发流程

常数据进入Hadoop的处理流程大概如下：

导入原始数据到HDFS：

原始业务的数据可能是在FTP服务器上，可能在本地磁盘上，可能在网络共享存储上，可以通过Loader组件，HDFS API，HDFS 命令行工具将原始数据导入HDFS，或者通过Kafka，Flume等直接写入HDFS。

格式转换（可选）：

如果HDFS的数据格式不是列格式，建议通过Hive的SQL语句转换成列存储格式，如ORC格式，这样可以优化IO访问，合并小文件。

针对性分析数据：

调用JDBC接口或者Beeline执行SQL语句对数据进行处理和转换，这里就是业务自己编写SQL语句，进行分析数据，生成结果。

输出结果数据：

一般将结果数据导出到Relation Database，供其它的报表工具进一步使用，可以通过JDBC或直接从HDFS导出将数据转移到其它地方。

results matching ""

No results matching ""