본문 바로가기

OpenSource

(12)
Spark Dataframe, Dataset Dataframes 와 Datasets 에 대해 잘 설명해놓은 글 발견한 김에 메모. A Deep Dive Into Spark Datasets and DataFrames Using Scala 글 요약은 나중으로 미루고 메모 하는 김에. 덤 1. https://phoenixnap.com/kb/rdd-vs-dataframe-vs-dataset RDD DataFrame Dataset Release version Spark 1.0 Spark 1.3 Spark 1.6 Data Representation Distributed collection of elements. Distributed collection of data organized into columns. Combination of RDD and DataF..
embulk 설정 파일에서 변수, include 사용하는 방법 embulk 설정 파일에서 include 기능, 변수 사용하는 방법에 대해 간단히 정리. You can embed environment variables in configuration file using Liquid template engine(This is experimental feature. Behavior might change or be removed in future releases). To use template engine, configuration file name must end with.yml.liquid. Environment variables are set toenvvariable. 홈페이지에 소개되었듯 Liquid 템플릿 엔진이 제공하는 기능을 이용하면 되는데 우선 include..
[java]embulk plugin 수정 사용 트릭 공개된 embulk jsonpath plugin 소스를 수정해서 로컬에서 사용하는 간단한 방법 정리. 주. 특정 플러긴 수정 경험에 한정된거라 공통 사용 가능 여부는 보장할 수 없음. 급박한 상황 아니라면 embulk plugin 개발 가이드 읽어 보고 도전하는게 정신 건강에 좋을 듯. embulk 이용한 from Rest API to DB 간단 예 1. 제목 관련 본론 들어가긴 전 사전 메모. 간단한 테스트는 해봤고 실 적용에 필요하리하 예상되는 부분을 우선 구글링해보았다. 파이프라인 in - out -> in - out -> ... embulk 만으로 파이프라인 간단히 구성하는 방법은 못 찾았다. airflow 를 이용한 방법이 몇 개 있던데 지금 과제에서는 배보다 배꼽이 더 커지는 셈이라 제외. h..
embulk 이용한 from Rest API to DB 간단 예 embulk 로 간단한 요구 사항 하나 해결해보면서 쉬운 사용법과 괜찮은 성능 맛 본 김에 또다른 작업에 활용해보려고 테스트 중. 외부 업체에서 Rest 방식으로 제공하는 데이터를 받아서 DB 에 저장하는 작업인데 Rest 클라이언트 만들어 처리하는게 그리 어려운 작업은 아니지만 별다른 추가 개발 없이 DB 저장 성능까지 충분히 보장된다는 면에서 충분히 검토해볼만 가치 있다고 판단해서 착수. github.com/takumakanari/embulk-input-http 딱히 마땅한 레퍼런스가 안 찾아져서 우선 보이는 위 플러그인을 이용해보기로 했다. % embulk gem install embulk-input-http github 에 있는 설정 파일 샘플을 이용해서 테스트 실행해보면 'ParserPlugin..
참조 라이브러리들의 라이센스 일괄 확인법(pom.xml) maven 프로젝트 시 다음 명령으로 pom.xml 로 관리하는 라이브러리들의 라이센스를 일목요연하게 확인 가능. % mvn project-info-reports:dependencies 실행 후 target/site/dependencies.html 파일 확인하면 됨.
vagrant 로 생성한 VirtualBox VM에 ssh 접속 vagrant 를 이용해서 VirtualBox 에서 VM 프로비져닝 한 후 k8s master 와 node 구성 테스트하던 중에 잠깐 메모. % vagrant ssh-config 표시되는 정보 중 port, IdentityFile 명 확인. MobaXterm 을 사용 중이라면 Tools > MobaKeyGen 클릭(물론 putty 쓴다면 puttygen 을 이용해도 되고). KeyGenerator 창 뜨면 'Load' 버튼 눌러서 앞에서 확인한 IdentityFile 을 선택. 테스트용이라 특별히 보안 신경 쓰지 않아도 된다면 그냥 'Save private key' 버튼 눌러서 생성된 키 파일 저장. MobaXterm 에서 새 세션 설정창 열고 host 는 127.0.0.1, 포트는 앞에서 확인한 포트값..
Helm chart repository deprecation 관련 메모 Kubernetes 훌훌 훑으며 오다보니 Helm 까지 왔다. 우선 공식 가이드에 나온대로 설치. $ curl -fsSL -o get_helm.sh https://raw.githubusercontent.com/helm/helm/master/scripts/get-helm-3 $ chmod 700 get_helm.sh $ ./get_helm.sh 참고하는 책('쿠버네티스 마스터 2/e')에 다음 단계로 tiller 설치하기 위해 'helm init' 실행하라고 해서 따라했더니 'init' 이 'unknwon command' 란다. 아무 생각없이 따라한거다 보니 Helm 3버전 설치한거였고 버전 3부터는 tiller, init 등 deprecated 되었단다. 번거로운 tiller 빌드/설치 단계가 없어졌으니..
[Bash]kafka 일괄 shutdown 스크립트 리눅스 박스에 kafka broker 3개 띄우고 테스트 중에 kafka 한꺼번에 내릴 일이 많아서 오랫만에 스크립트를 만들어봤다. shutdown 하는데 조금 시간이 걸려서 이왕 만드는 김에 완전히 내려갈 때까지 상태 찍어주는 것도 추가. #!/bin/bash SIGNAL=${SIGNAL:-TERM} GREP_STR=config/k PIDS=$(jps -m | grep $GREP_STR | grep -v grep | awk '{print $1}') if [ -z "$PIDS" ]; then echo "No kafka server to stop" exit 1 else echo $SIGNAL $PIDS kill -s $SIGNAL $PIDS idx=3 while [ ${idx} -ge 1 ]; do idx..