ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Apache Drill 살펴보기
    기타 2017. 2. 24. 09:00
    반응형
    Apache Drill이란?
    schema-free SQL Query Engine for Hadoop, noSQL and Cloud Storage

    설치해보자

    압축 풀기
    tar zxvf apache-drill-1.9.0.tar.gz
    cd apache-drill-1.9.0

    로컬모드로 간단하게 실행해보기
    bin/drill-embedded
    SELECT * FROM cp.`employee.json` LIMIT 5;

    분산모드 실행하기
    Drillbit라는 데몬을 실행하면 된다. 분산모드를 이용하기 위해서는 주키퍼가 필요하다.

    drillbit 실행
    bin/drillbit.sh start
    실행에 필요한 설정파일(drill-override.conf)은 conf 디렉토리에 있다.
    drill-override.conf 파일 내용
    drill.exec: {
      cluster-id: "drillbits1",
      zk.connect: "zookeeperhost:2181"
    }
    drillbit이 실행되면 http://hostname:8047 를 이용해서 웹콘솔에 접근할 수 있다.

    웹콘솔에서 상단의 Storage 메뉴에 들어가면 각 스토리지 플러그인 별로 사용설정을 할 수 있다.
    dfs를 실행하기 위해서 Update 버튼을 눌러서 설정할 수 있다.
    {
      "type": "file",
      "enabled": true,
      "connection": "hdfs://hdfshost:8020/",
      "config": null,
      "workspaces": {
        "root": {
          "location": "/",
          "writable": false,
          "defaultInputFormat": null
        },
        "tmp": {
          "location": "/tmp",
          "writable": true,
          "defaultInputFormat": null
        }
      },
      "formats": {
        "psv": {
          "type": "text",
          "extensions": [
            "tbl"
          ],
          "delimiter": "|"
        },
        "csv": {
          "type": "text",
          "extensions": [
            "csv"
          ],
          "delimiter": ","
        },
        "tsv": {
          "type": "text",
          "extensions": [
            "tsv"
          ],
          "delimiter": "\t"
        },
        "httpd": {
          "type": "httpd",
          "logFormat": "%h %t \"%r\" %>s %b \"%{Referer}i\"",
          "timestampFormat": null
        },
        "parquet": {
          "type": "parquet"
        },
        "json": {
          "type": "json",
          "extensions": [
            "json"
          ]
        },
        "avro": {
          "type": "avro"
        },
        "sequencefile": {
          "type": "sequencefile",
          "extensions": [
            "seq"
          ]
        },
        "csvh": {
          "type": "text",
          "extensions": [
            "csvh"
          ],
          "extractHeader": true,
          "delimiter": ","
        }
      }
    }


    drill 셀 실행하기
    drillbit 데몬에 붙어서 명령을 실행하기 위한 셀 실행하기
    bin/drill-conf
    !connect jdbc:drill:zk=zkhost:2181

    쿼리 실행해 보기
    SELECT * FROM dfs.root.`/filepath/test0*.json`  LIMIT 5;


    스토리지 플러그인 종류
    cp : Drill 클래스패스에 있는 JAR 파일들을 가르킨다.
    dfs : 로컬 파일시스템 또는 하둡이나 s3같은 분산 파일시스템에 사용할 수 있다.
    hbase : HBase 
    hive : Hive 메타데이터 파일과 연결해서 사용할 수 있다.
    mongo : MongoDB 데이터에 연결해서 사용할 수 있다.

    지원하는 입력 파일 포맷
    Avro
    CSV (Comma-Separated-Values)
    TSV (Tab-Separated-Values)
    PSV (Pipe-Separated-Values)
    Parquet
    MapR-DB*
    Hadoop Sequence Files


    참조



    반응형

    '기타' 카테고리의 다른 글

    오픈소스 대시보드 grafana 설치하기  (0) 2017.03.01
    CDH (Cloudera Hadoop) 설치  (0) 2017.02.22
    hadoop cluster 설치  (0) 2017.02.20
    hadoop 싱글 노드 설치  (0) 2017.02.17
    storm 개요  (0) 2015.12.23

    댓글

Designed by Tistory.