본문 바로가기
IT 와 Social 이야기

[iitp] 데이터 레이크 기술 동향과 도입 원칙 - 백현

by manga0713 2018. 8. 29.

 

[데이터 레이크 아키텍처]

 

 

 

 

*** 출처: [iitp] 데이터 레이크 기술 동향과 도입 원칙 - 백현

*** 문서:

file2104723247521410503-186102.pdf

 

 

 

 

I. 서론

 

 

■ "데이터는 21세기의 천연자원"이라는 말의 해석

 

 

○ 마이크 포터의 3가지 경쟁우위 전략(원가 우위 전략, 차별화 전략, 집중화 전략)관점

 

- 현재의 시대는 데이터를 기반으로 조직의 차별화된 경쟁 우위를 창출할 수 있고 이렇게 창출한 경쟁 우위는 다양한 전략을 수행할 수 있게 함으로써 지속적으로 경쟁력을 획득하고 유지할 수 있다.

 

 

○ 클레이튼 크리스텐슨의 파괴적 혁신 아이디어 관점

 

- 어느 날 갑자기 등장한 파괴적 혁신으로 무장한 기업들은 우리에게 익숙한 시장의 주류를 형성하고 있는 기업들을 대상으로 데이터에 기반을 둔 새로운 서비스나 제품으로 산업의 지형을 바꾸는 시장 파괴적인 변화를 만들어내고 있다.

 

 

 

■ 데이터 레이크의 정의

 

 

○ 제임스 딕슨: 처음 데이터 레이크를 언급

 

- 데이터를 물에 비유한다면, 우선 데이터 마트는 물병에 들어 있는 물이라고 생각할 수 있다. 물병의 물은 필요에 따라 쉽게 소비할 수 있도록 정제되고 포장된 형태라고 볼 수 있다. 반면, 데이터 레이크는 물병에 담긴 생수 이전에 존재하는 호수로써 훨씬 자연의 상태이며 방대한 양의 물을 의미한다.

 

- 데이터 레이크의 콘텐츠는 다양한 원천 출처로부터 유입되며, 다양한 사용자들이 콘텐츠를 조사하거나, 깊이 연구하거나 또는 샘플을 가져다가 활용하는 등의 다방면의 목적으로 활용되게 된다.

 

 

 

II. 데이터 레이크 동향 변화

 

 

■ 데이터 레이크의 핵심 기술로 통용되었던 하둡이 차지하는 위치의 변화

 

 

① 규모에 따라 다르겠지만 단일 하둡 클러스터에 데이터 레이크를 구축한다는 것은 데이터 레이크의 피크 사용 시의 용량을 계산하고 이에 따른 하둡 클러스터의 CPU, Memory, Storage 크기가 함께 증가해야 하는 비용을 고려한다면 데이터 웨어하우스와 마찬가지의 제약에 도달하게 된다. 더구나 데이터 레이크 구축을 위해서 사일로 방식과 같이 다수의 서로 다른 하둡 클러스터를 구축해야 한다면, 우리가 생각하는 단일 저장소라는 데이터 레이크의 정의를 만족시키기에도 한계가 있다.

 

② 하둡으로 구축된 데이터 레이크를 활용하기 위한 하둡 전문 분석가가 조직에 많지 않기 때문에 다양한 활용에 제약이 따른다.

 

 

 

■ 데이터 레이크 동향 변화

 

 

1. 저장과 분석이 분리된 아키텍처

 

- 데이터 레이크의 데이터를 저장하는 영역과 데이터를 분석하는 영역을 분리한 아키텍처

 

- 최근 클라우드 기반의 오브젝트 스토리지를 활용할 때 주로 논의되는 아키텍처로 "원천 형태의 단일 저장소"의 정의에 가장 충실하도록 구현이 가능한 아키텍처이며, 최신 데이터 레이크 아키텍처의 핵심이라고 할 수 있다.

 

 

 

 

[데이터 레이크 아키텍처]

 

 

 

- 데이터는 무한에 가까운 저장 전용 영역에 저장되고 R이나 Apache Spark 또는 기타 툴을 이용한 분석을 수행하는 시점에 각 분석 툴이 있는 곳으로 데이터를 이동한다는 점이 중요한 특징

 

- 분석에 가장 적합한 가상 혹은 논리적인 데이터 분석 환경을 적시에 만들어서 저장 영역으로부터 데이터를 이동 후 분석이 끝나면 바로 삭제가 가능한 효율적인 시스템을 만들 수 있는 장점이 있음

 

 

※ 스키마 온 리드(Schema on Read)

 

- 저장과 분석이 분리된 아키텍처를 백분 활용할 수 있는 아키텍처적인 개념

 

- 일반적인 데이터 웨어하우스처럼 데이터를 저장하는 시점에 데이터의 스키마를 정의하고 ETL을 수행해서 저장하는 스키마 온 라이트와 반대되는 아키텍처

 

- 데이터를 원천 형태 그대로 빠르게 저장하고 스키마의 변경은 데이터를 분석하기 위해서 읽어서 이동할 때 수행하는 아키텍처

 

 

 

2. 데이터 과학자를 위한 분석 샌드박스

 

- 데이터 레이크 구축의 핵심으로 데이터의 분석 과정에서 발생하는 다양한 형태의 데이터 가공이나 변형 등을 대비해서 격리된 데이터 분석 공간을 제공해 주는 것

 

 

 

 

[데이터 레이크에서의 분석 샌드박스]

 

 

 

 

- 프래딥 메논: 분석 샌드박스는 데이터 과학자들이 새로운 가설을 개발하고, 테스트하고, 메쉬업해서 새로운 활용 케이스를 만드는 곳이며, 이렇게 만들어진 활용 케이스를 빠른 프로토타입 구축을 통해서 가치를 검증하고 실제 실현 가능성을 검토하는 곳

 

 

 

3. 현업 사용자를 위한 데이터 셀프 서비스

 

- 고객의 변화를 빠르게 인지할 수 있는 접점에서 의사 결정을 해야 하는 직원들이 얼마나 쉽고 빠르게 데이터에 접근해서 데이터에 기반을 둔 명확한 의사 결정을 내릴 수 있는가 하는 것은 디지털 프랜스포메이션의 과정에서 가장 중요하게 인식되는 것 중 하나임

 

- 이를 위하여 데이터 레이크 프로젝트에서 현업사용자를 위한 셀프 서비스 환경을 구축하는 것은 필수적인 요소로 인식되고 있음

 

- 셀프 서비스란, 데이터를 스스로 준비하고, 준비된 데이터를 스스로 탐색하며 원하는 결과를 시각화하고 다른 사람들과 활용하는 것까지를 광의의 셀프 서비스라고 말한다.

 

① 데이터를 자유자재로 시각화하고 인사이트를 추출해 낼 수 있는 BI 셀프 서비스

 

② 전사 데이터 레이크에 존재하는 전체 데이터를 쉽게 탐색하고 조회할 수 있는 데이터 탐색 셀프 서비스

 

③ 탐색한 데이터를 목적에 맞게 스스로 가공하고 정제할 수 있는 데이터 가공 셀프 서비스

 

④ 통계분석 알고리즘, 머신러닝 알고리즘 등을 스스로 적용할 수 있는 AI 셀프 서비스 등

 

 

 

 

[데이터 레이크에서의 셀프 서비스]

 

 

 

 

III. 성공적인 데이터 레이크 프로젝트를 위한 원칙

 

 

1. Think Big but Start Small

 

2. 문제의 해결에 초점

 

3. 기술이 아닌 사용자 중심의 시스템