본문 바로가기
IT 이야기

빅데이터란 무엇일까?

by 아임코딩 2024. 1. 18.
728x90
반응형

소개

안녕하세요 아임코딩입니다.

이번에는 빅데이터에 대해서 알아보겠습니다.

 

데이터란?

빅데이터를 알기 전에 데이터가 무엇인지 알아야겠죠?

데이터는 컴퓨터에서 정보를 구성하는 단위입니다.

예를 들어 지금 보고있는 이 글씨도 컴퓨터에서 다루는 문자 데이터 중 하나죠.

문자 데이터 말고도 숫자, 동영상, 사진 등 컴퓨터에서 보이거나 다루는 모든 것들이 데이터라고 할 수 있습니다.

 

데이터는 크게 정형 데이터와 비정형 데이터로 나눌 수 있습니다.

 

출처 : 한국정보통신기술협회

 

정형 데이터

출처 : 위키백과

 

정형 데이터는 정해진 형식이 있는 데이터입니다.

예를 들어, 표로 정리된 데이터가 정형 데이터의 예입니다.

데이터베이스에 저장되는 데이터들이 정형 데이터라고 할 수 있습니다.

 

정형 데이터는 데이터베이스에 저장되는 경우가 많습니다. 

 

 

비정형 데이터

 

 

비정형 데이터는 정해진 형식이 없는 데이터입니다. 다른 말로는 구조화 되어있지 않은 데이터를 뜻합니다.

이미지, 동영상, 음성 데이터가 대표적인 비정형 데이터입니다.

 

비정형 데이터는 정해진 형식이 없기 때문에 분석을 하거나 실생활에 적용하기가 어렵습니다.

하지만 비정형 데이터는 정형 데이터보다 더 좋은 정보를 담고있을 수도 있습니다.

 

비정형 데이터는 다양한 분야에서 활용하고 있습니다.

 

마케팅 : 고객의 행동 패턴을 분석해서 고객 개인 맞춤형 서비스를 제공할 수 있습니다.

서비스 : 고객의 피드백이나 이전에 했던 행동을 기반으로 서비스 품질을 개선하는 데 활용할 수 있습니다.

연구 : 새로운 지식을 발견하는 데 사용할 수 있습니다.

 

 

빅데이터란?

 

빅데이터는 말 그대로 big 큰 데이터 입니다.

하지만 그 크기가 얼마나 큰지가 중요합니다.

 

빅데이터는 기존의 데이터를 관리하는 도구인 데이터베이스의 능력을 넘어서는 크기의 데이터를 뜻합니다.

대량의 정형 또는 비정형의 데이터를 관리하거나 분석하여 서비스를 만드는 기술이 빅데이터 기술입니다.

 

빅데이터는 다음과 같은 특징을 가지고 있습니다.

 

규모(Volume)

빅데이터는 아주 큰 규모를 가지고 있습니다. 

출처 : 위키백과

빅데이터의 규모는 페타바이트, 엑사바이트, 제타바이트, 요타바이트 등으로 나타납니다.

우리가 일상생활에서 흔히 접할 수 있는 GB로 예시로 들면

1000 GB = 1 TB (1000 기가바이트 = 1 테라바이트) 입니다.

1000 TB = 1 PB (1000 테라바이트 = 1 페타바이트)  입니다.

1000 PB = 1 EB  (1000 페타바이트 = 1 엑사바이트)  입니다.

1000 EB = 1 ZB (1000 엑사바이트 = 1 제타바이트)  입니다.

1000 YB = 1 YB (1000 제타바이트 = 1 요타바이트)  입니다.

 

 

속도(Velocity) 

 

빅데이터는 빠른 속도로 생성되고 처리됩니다.

예를 들어서, 페이스북, 인스타그램, 유튜브를 통해서 생성되는 텍스트, 이미지, 동영상의 데이터의 양은 셀 수도 없이 많습니다.

 

다양성(Variety)

 

빅데이터는 다양한 형태로 존재합니다. 빅데이터는 다양한 정형 데이터, 비정형 데이터를 포함합니다. 

 

 

빅데이터 활용 분야

 

 

헬스케어 : 빅데이터를 분석하여 사람의 건강상태를 분석하여, 사람의 건강상태를 모니터링하고 질병을 예방하거나 치료하는 분야에 빅데이터를 활용하고 있습니다. 질병을 조기 발견하거나 치료하는 것이나, 건강한 삶을 위해 운동을 추천하는 등 다양한 헬스케어 분야에 빅데이터가 활용되고 있습니다.

 

교통 : 도로 위에서 발생하는 교통량을 분석하여 교통 체증을 완화하거나, 교통 시스템을 개편하는 데에 도움을 줍니다.

 

교육 : 학생의 학습 데이터를 분석해서 학생이 공부하는 데에 도움을 주거나, 교육 정책을 만드는 데에 도움을 줍니다.

 

 

정리

빅데이터는 아주 큰 데이터입니다.

빅데이터는 다음과 같은 특성을 갖습니다.

 

규모 : 규모가 아주 큰 데이터입니다.

속도 : 생성되는 속도가 아주 빠른 데이터입니다.

다양성 : 아주 다양한 데이터입니다.

 

728x90
반응형