본문 바로가기
빅데이터 분석기획

데이터란 무엇인가?

by 정보돌 2023. 5. 13.

데이터의 정의

  1. 데이터는 "객관적 사실" 이라는 존재적 특성을 가진다.
    ▷ 데이터는 개별 데이터 자체로는 의미가 중요하지 않은 객관적인 사실을 의미한다.
  2. 동시에 "추론, 예측, 전망, 추정을 위한 근거(basics)"로 기능하는 당위적 특성을 가진다.
    ▷ 다른 객체와의 상호관계 속에서 가치를 갖는다.

데이터의 유형

데이터가 갖고 있는 존재론적 특징으로 정성적 데이터(Qualitative Data) 정량적 데이터(Quantitative Data)로 구분할 수 있다.

  • 정량적 데이터란 통계에 더 초점을 맞춘 데이터로 측량하거나 분석이 가능한 수량적 데이터를 의미하며 사용자의 행동과 의견을 계량화하기 위해 사용한다.
  • 정성적 데이터란 사용자의 경험 및 구매형태를 보여주는 기술적인 데이터를 의미하며 사람들이 어떻게 생각하고 느끼는지에 초점을 맞춘다.
구분 정성적 데이터 정량적 데이터
형태 비정형데이터 정형, 반정형 데이터
특징 객체에 내재된 정보 보유   속성이 모여 객체를 이룸
구성 언어, 문자 등으로 이루어짐 수치, 도형, 기호 등으로 이루어짐
저장형태 파일, 웹 데이터베이스, 스프레드시트
소스위치 SNS 데이터 관계형 데이터베이스

데이터 구조 형태에 따른 분류

  1. 정형 데이터 (Structured Data)
    ▷ 정형 데이터는 관계형 데이터베이스의 테이블과 같이 고정된 컬럼에 저장되는 데이터와 파일, 그리로 스프레드시
         트 형태의 데이터이다.
    ▷ 관계형 데이터베이스의 정형데이터에는 데이터 스키마를 지원한다.
    ▷ 스키마구조를 갖고 있는 정형 데이터의 탐색 과정은 테이블 탐색, 컬럼구조 탐색, Row 탐색 순으로 정형화 되어있
        다.
  2. 반정형 데이터 (Semi-Structured Data)
    ▷ 데이터 내부에 정형 데이터의 스키마에 해당되는 메타데이터를 갖고 있으며, 일반적으로 파일형태로 저장된다.
    ▷ 데이터 내부의 메타데이터를 파악하여 어떤 형태의 데이터인지 파악하는 것이 필요하다.
    ▷ 메타데이터 규칙성 파악을 위한 파싱규칙 적용이 필요하며 이에 해댱하는 반정형 데이터로는 주로 HTML, JSON,
         웹로그, IOT에서 제공하는 센서 데이터들이 있다.
  3. 비정형 데이터 (Unstructured Data)
    ▷ 데이터 세트가 아닌 하나의 데이터가 수집 데이터로 객체화되어 있으며, 언어분석이 가능한 텍스트 테이터, 이미지,
        동영상 같은 멀티미디어 데이터가 대표적인 지정형 데이터이다.

데이터 저장방식에 따른 분류

저장방식 특징 도구
RDBMS 관계형 데이터 저장, 수정하고 관리할 수 있는 데이터베이스 Oracle MSQL
MySQL 등
SQL 문장을 통하여 데이터베이스의 생성, 수정 및 검색 등 서비스 제공
NoSQL RDBMS와 달리 데이터 간의 관계를 정의하지 않는다. MongoDB
Cansandra
HBase
Redis

RDBMS에 비해 훨씬 더 큰 대용량의 데이터를 저장할 수 있다
분산형 구조로 고정되지 않은 테이블 스키마
비정형화된 데이터를 정형화된 형태로 저장하며, 메모리 기반의 실시간 처리가 가능하다.
하둡분산파일시스템 내트워크를 이용해 접근하는 파일 시스템을 말한다 HDFS
HDFS는 대용량 데이터를 파일 형태로 저장하기 때문에 실시간 처리에 한계가 있다.

※ 빅데이터 저장 기술은대용량, 비정형, 실시간성속성을 수용할 수 있는 저장방식이 필요함.

데이터와 지식

지식의 차원에 대한 개념은 아래와 같다.

  1. 암묵지 : 학습과 체험을 통하여 개인에게 습득되지만 겉으로는 드러나지 않는 상태와 지식이다.
       ▷ 관찰, 모방, 현장 작업과 같은 경험을 통해 습득할 수 있는 지식  
  2. 형식지 : 암묵지가 문서나 메뉴얼처럼 외부로 표출되어서, 여러사람이 공유할 수 있는 지식이다.
       ▷ 책, 설계도 등 체계화 된 재료 등을 통해서 획득할 수 있는 지식  

암묵지와 형식지의 상호작용

  • 공통화(Socialization) : 암묵지 지식 노하우를 다른 사람에게 알려줌
  • 표출화(Externalization) : 암묵지 지식 노하우를 책, 교본 형식으로 전환 함.
  • 연결화(Combination) : 책, 교본에 자신이 알고 있는 새로운 지식을 추가 함.
  • 내면화(Internalization) : 만들어진 책, 교본을 보고 다른 직원의 암묵적 지식을 습득 함.

데이터와 정보의 관계

DIKW 피라미드 (Data Information Knowlege Wisdom)에서는 데이터, 정보, 지식을 통한 지혜의 취득과정을 설명하고 있다.

 

Data Information Knowlege Wisdom
[ Data Information Knowlege Wisdom ]

  • Data : 존재형식을 불문하고, 타 데이터와 상관관계가 없는 가공하기 전의 순수한 수치나 기호
      ▷ 특정상품의 판매가격 : A 마트 (100원), B 마트 (200원)
  • Information : 데이터의 가공 및 상관관계 이해를 통한 패턴의 인식, 의미 부여
      ▷ A 마트의 판매 가격이 더 싸다
  • Knowlege : 상호연결된 정보 패턴을 이해하여 이를 토대로 예측한 결과물
      ▷ 상대적으로 저렴한 A 마트에서 상품 구매
  • Wisdom : 근본원리에 대한 깊은 이해를 바탕으로 도출되는 아이디어
      ▷ A 마트의 다른 상품들도 B 마트보다 쌀 것으로 판단

마치며

데이터는 정보를 나타내는 숫자, 문자, 이미지, 음성 등의 형태로 표현되는 값들의 집합으로, 정보를 담고 가치를 창출하는 핵심 자원이다. 데이터의 유형과 가치, 수집과 관리 방법, 데이터 품질과 보안에 대한 고려사항을 이해하고 적절히 다루는 것이 중요하다.

댓글