본문 바로가기

하둡2

빅데이터 처리 프로세스의 이해 빅데이터 처리 프로세스는 대규모의 다양한 유형과 속도의 데이터를 효율적으로 수집, 저장, 처리, 분석하는 과정을 말하며, 단계별 설명은 다음과 같다. 빅데이터 수집 및 정제 정형, 반정형, 비정형 데이터가 혼재되어 있어 부적확한 데이터를 수집하면 빅데이터를 처리, 분석할 때 비효율성이 발생하기 때문에 데이터 수집 및 정제에도 기술이 필요하다. 데이터 정제는 데이터 품질을 향상시키기 위해 데이터의 오류 및 불일치를 감지하고 제거한다. 이 단계에서는 ETL 프로세스가 데이터 추출, 변화, 로딩을 수행하며, 이를 데이터 웨어하우스에서 데이터를 관리하는데 중요한 역할을 한다. 빅데이터 저장 및 관리 빅데이터의 용량과 다양성의 속성 때문에 데이터베이스 시스템에서 확장성이 중요한 관심사가 되었다. 하지만 기존 관계.. 2023. 6. 7.
데이터 산업의 진화와 마이데이터 생성에 대하여 데이터 산업의 진화 과정에서 데이터 처리, 통합, 분석, 연결, 권리시대(My Data)로 진화하고 있으며, 마이데이터에 대하여 알아보고자 한다. 데이터 산업의 정의 데이터 산업은 데이터의 생산, 수집, 처리, 분석, 유통, 활용 등을 통해 가치를 창출하는 상품과 서비스를 생산, 제공하는 산업으로 정의한다. 데이터의 생명주기 상에 나타난 데이터와 관련된 제반활동을 포함해 데이터로부터 가치가 창출되는 일련의 모든 활동을 포함한다. 데이터 산업의 진화 데이터 산업은 데이터 처리, 데이터 통합, 데이터 분석, 데이터 연결, 데이터 권리시대로 진화하고 있다 데이터 처리시대 데이터 처리시대에는 컴퓨터 프로그래밍 언어는 이용하여 대규모 데이터를 빠르고 정확하게 처리할 수 있게 되었다. 기업들은 EDPS(Electr.. 2023. 5. 18.