본문 바로가기
빅데이터 분석기획

빅데이터 처리 프로세스의 이해

by 정보돌 2023. 6. 7.

빅데이터 처리 프로세스는 대규모의 다양한 유형과 속도의 데이터를 효율적으로 수집, 저장, 처리, 분석하는 과정을 말하며, 단계별 설명은 다음과 같다.

 

빅데이터 처리 프로세스
[ 빅데이터 처리 프로세스 ]

빅데이터 수집 및 정제

  • 정형, 반정형, 비정형 데이터가 혼재되어 있어 부적확한 데이터를 수집하면 빅데이터를 처리, 분석할 때 비효율성이 발생하기 때문에 데이터 수집 및 정제에도 기술이 필요하다.
  • 데이터 정제는 데이터 품질을 향상시키기 위해 데이터의 오류 및 불일치를 감지하고 제거한다.
  • 이 단계에서는 ETL 프로세스가 데이터 추출, 변화, 로딩을 수행하며, 이를 데이터 웨어하우스에서 데이터를 관리하는데 중요한 역할을 한다.

빅데이터 저장 및 관리

빅데이터의 용량과 다양성의 속성 때문에 데이터베이스 시스템에서 확장성이 중요한 관심사가 되었다.

하지만 기존 관계형 데이터베이스 관리시스템으로는 이를 보장하는데 한계가 있기 때문에 NoSQL이나 확장성을 지원하는 RDBMS 연구가 진행되었다.

(1) NoSQL

  • NoSQL이란 관계형 데이터 모델과 SQL 문을 사용하지 않는 데이터베이스 시스템 혹은 데어터 저장소를 의미한다.
  • 기존 RDBMS가 분산 환경에 적합하지 않기때문에 이를 극복하기 위해 NoSQL이 고안된 것이다.
  •  NoSQL의 데이터베이스는 단순하게 Key와 Value의 형태로 저장하고 빠르게 조회할 수 있는 자료구조를 제공하는 저장소이다.
  • 전통적인 RDBMS처럼 복잡한 연산 기능, 데이터 무결성을 제공하지 않지만 대용량 데이터와 대규모 화장성을 제공한다.

(2) 분산파일 시스템

  • 데이터가 단일 물리머신의 저장용량을 초고하면 전체 데이터셋을 분리된 여러 머신에 나눠서 저장할 필요가 있다.
  • 이를위해 네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일시스템을 분산파일 시스템이라고 한다.

빅데이터 처리

수집 및 정제된 데이터를 효과적으로 분석하는 처리기술이 필요한 단계로, 보통 작업을 병렬 및 분산처리하려 성능을 향상시킨다.

 

분산시스템은 네트워크에서 분산된 컴퓨터르 단일 시스템형태로 구동하는 개념으로, 병렬시스템은 문제해결을 위해 CPU 등의 자원을 데이터버스나 지역 통신 시스템드으로 연결하여  분할된 작업을 동시에 처리함으로써 계산속도를 빠르게 하는 개념으로 생각할 수 있다.

(1) 하둡의 등장배경

  • 정형데이터는 RDBMS에 저장할 수 있지만, 웹 로그같은 비정형 데이터를 RDBMS에 저장하기에는 데이터의 크기가 너무 크다
  • 상용 RDBMS가 설치되는 곳은 대부분 고가의 장비인데, 데이터를 감당하기 위한 스트로지를 무한정 늘릴 수도 없다.
  • 기존 RDBMS는 데이터가 저장된 서버에서 데이터를 저치하는 방식이지만 하둡은 여러대의 서버에 데이터를 저장하고 데이터가 저장된 각 서버에서 동시에 데이터를 처리하는 방식이다.
  • 이런 분산 컴퓨팅을 통해 기존의 데이터 분석방법으로는 상상도 못했던 성과를 보여주게 된다.

빅데이터 분석

빅데이터 분석 단계에서는 데이터를 효과적으로 분석하는 기술이 필요하다.

데이터 분석은 크게 탐구요인분석(Exploratory Factor Analysis, EFA)과 확인요인분석(Confirmatory Factor Analysis, CFA)으로 구분한다.

 

EFA는 데이터 간 상호관계를 파악하여 데이터를 분석하는 방법이고, CFA는 관잘된 변수들의 집합요소의 구조를 파악하기 위한 통계적기버을 통해 데이터를 분석하는 방법이다.

 

현재 빅데이터 분석을 위한 다양한 분석기법이 개발되어 있고 상황에 맞는 적절한 분석기법의 선택이 중요한 문제이다.


빅데이터 시각화

빅데이터 표현단계에서는 빅데이터 처리 및 분석결과를 사용자에게 보여주는 기술이 필요하다.

처리 및 분석된 결과를 표, 그래프 등을 이용해 쉽게 이해할 수 있도록 표현하여 결과를 더 효과적으로 분석 할 수 있도록 해야 한다.


마치며

빅데이터 처리 프로세스는 기업의 경쟁력 향상, 비즈니스 모델 혁신, 고객 중심 전략, 효율성 향상 등 다양한 가치를 제공하게 된는데, 이러한 데이터 자산을 활용하여 인사이트를 얻고 적절한 액션을 취함으로써 기업은 지속적인 성장과 성과를 달성할 수 있다.

 

댓글