일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 정기시험
- 자격증
- 대학생
- 머신러닝
- 인스타툰 #지식 #클래스101 #전자책 #인스타그램 #인스타 #만화 #웹툰 #아이패드드로잉
- 옻
- 평균
- ADSP
- 독학
- 데이터분석프로젝트
- r #데이터분석 #adsp #자격증 #대외활동 #여름방학 #취업준비
- 기술통계
- 신청
- 파이썬
- WISET
- dsa프로젝트
- 베르누이
- 기하분포
- 절사평균
- R
- 연속확률분포
- 이항분포
- 티스토리챌린지
- 오블완
- 3ㅣ
- 데이터분석
- 데이터독학
- 분위수
- 방학
- 3과목
- Today
- Total
mmings_pring_day
[e- 비즈니스] 4. 빅데이터 본문
[학습내용]
1. 빅데이터의 개념과 특징
2. 빅데이터의 주요 기술 구성
[학습목표]
1. 빅데이터란 무엇인지 규모, 다양성, 속도 등을 고려하여 설명할 수 있다.
2. 기존의 비즈니스 데이터와 비교할 때 빅데이터가 가지는 특징은 무엇인지 설명할 수 있다.
3. 빅데이터가 출현하게 된 배경을 기술적, 사회적, 경제적 측면에서 설명할 수 있다.
4. 빅데이터를 구성하는 기반 인프라, 분석 기술, 표현 기술에 대하여 설명할 수 있다.
1-1. 빅데이터란?
= 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미함
- 빅데이터의 규모 (Volume), 다양성 (Variety), 속도 (Velocity)
- 규모 (Volume)
= 어마어마한 빅데이터의 규모 => 기존 기술로는 관리할 수 없는 데이터의 양
(2011년 빅데이터 시대의 도래 이후, 증강 현실, 사물인터넷, 인공지능과 같은 새로운 기술과 더불어 데이터의 규모는 2020년에는 2011년 대비 대략 50배가 증가하게 되었음.)
[규모]
- 일반적으로 수백 테라바이트 이상 = 최첨단의 자율자동차는 1ZB 의 데이터 처리해야 (이미지, 센서 데이터)
- 어려움의 야기
-> 기존 파일 시스템에 저장하기 어려움
-> 기존 DW 같은 솔루션에서 처리 (분석)하기 어려움
- 어떻게 대응
-> 확장 가능한 방식으로 데이터를 저장하고 분석
-> 분산 컴퓨팅 솔루션- 구글의 GFS, 아파치의 하둡
-> 대용량 병렬 처리 데이터베이스- IBM 의 ESS, Dell EMC 의 파워스케일 등
- 다양성 (Variety)
=> 다양한 데이터의 형태를 처리함 (정형데이터:15%, 비정형데이터: 85%)
= 짧은 기간 동안 방대한 사이즈의 데이터가 쌓이게 된 주된 요인은 인터넷의 발전, 웹 2.0의 대두와 함께 시작된 사용자의 적극적인 웹 콘텐츠 생산에 있음. 뉴스와 포털 사이트를 돌아다니며 볼거리를 수동적으로 받아들이던 소비자 (컨슈머)가 이제 유뷰트에 자신이 만든 비디오를 올리고, 페이스북에 시시각각 자신의 근황을 뉴스피드로 제공하는 생산자의 역할을 병향하고 있는 것.
-> 이러한 프로슈머 들이 쏟아 내는 데이터는 현재 전체데이터의 90% 이상을 차지함
-> 이처럼, 웹상의 활동을 통해 다양한 형태의 데이터가 축적되다 보니, 빅데이터는 기업에서 관리하는 고객 정보, 상품 정보와 같은 테이블 형태의 정형화된 데이터 뿐만 아나라, 완전한 테이블 구조는 아니지만 HTML 파일이나 XML 파일과 같이 일정한 형식을 따는 반정형화된 데이터, 그리고 텍스트 ,오디오, 이미지, 동영상 등 비정형화된 데이터를 모두 포함하고 있음
[Variety]
정형 데이터
- 고정된 필드에 저장되는 데이터, 일정한 형식을 갖추고 있음
- RDMS의 테이블, 기업의 경우 Transaction Data (기업에서 관리하는 고객 정보, 상품 정보)
반정형 데이터
- 고정된 필드로 저장되진 않지만, XML 이나 HTML 같이 메타데이터나 태그(스키마) 등을 포함
비정형 데이터 => 80% 이상이 됨
- 고정된 필드에 저장되지 않는 데이터
- 오디오 (통화내용), 이미지, 비디오(동영상), 텍스트 (메신저로 주고 받은 대화 내용), 센서데이터, 생체데이터 등
- 속도 (Velocity)
= 데이터의 발생 빈도와 갱신 속도에 따라 수집 및 분석 속도의 증가와 이에 대한 실시간 처리 및 저장 처리 필요
1) 데이터가 생성되는 속도가 빠름 (누구나 어디서든 데이터를 만들고 스트리밍 형태로 실시간으로 웹에 쏟아 붇다 보니 그 늘어나느 속도가 종잡을 수 없을 정도)
2) 이러한 데이터를 빠르게 처리하기 위한 컴퓨팅 파워도 최근 사이에 성장하였음
(이전, 데이터 처리속도가 수 주였다면 이제는 수 분이나 수 초 이하로 단축되거나, 심지어 거의 실시간 처리가 가능해졌음
-> 게놈 프로젝트의 경우 (2003, 3조원이라는 비용과 13년이라는 긴 시간을 투자해야 완성 가능했음)
-> (2014, 100만 원 수준의 비용/ 2023, 13만 원 정도의 비용으로 1~2 일 만에 결과를 받아볼 수 있게 됨)
[속도]
1. 실시간 처리: 매우 빠른 속도로 생성되는 경우, 데이터의 수집/ 저장/ 분석이 실시간으로 처리
(예- 사기감지, 자율주행차의 사고반응 처리)
2. 장기적으로 모든 데이터의 처리
-> 모든 데이터가 실시간 처리만을 요구하는 것은 아님
-> 수집된 대량의 데이터를 다양한 분석 기법과 표현 기술로 분석해야 하는데, 이는 장기적이고 전략적인 차원에서 접근할 필요가 있음 (*인간 게놈 프로젝트)
=> 빅데이터의 3V (1. 제타바이트의 규모/ 2. 정형화, 반정형화, 비정형화된 데이터의 다양성/ 3. 빠른 속도의 데이터의 생성, 유통, 활용)
1-2. 빅데이터 vs 비즈니스 데이터
- 기존의 비즈니스 데이터) 기업의 운영과 개별 거래를 위해서 사용되는 데이터
(즉, 기업을 운영하기 위해서는 자재를 구매하고, 생산하고, 판매하는 일련의 과정을 거치게 되는데 각 과정에 필요한 정보들을 테이블 형태로 저장하고 필요 시 변경함)
-> 예: 고객 테이블에는 고객의 이름, 주소, 전화번호를 저장하는 특정 칼럼이 존재함. + 자재 테이블, 생산 계획 테이블, 매출 테이블, 자산 테이블 등 수많은 테이블들이 서로 복잡한 관계를 맺게 되는데 이를 효과적으로 관리하기 위해서 관계형 데이터베이스 시스템을 이용
* 기존의 비즈니스 데이터
1) 개개의 데이터가 중요함 ( 어떤 고객이 언제 어떤 상품을 구매하였는지와 같이 정확한 거래정보를 가입하기 떄문에)
=> 관게형 데이터베이스 이용 (RDBMS 이용)
2) 정합성에 문제가 생겨서는 안 됨 (어느 한쪽이 수정되었는데 다른 쪽은 수정되지 않는 문제 -> 재고 양 = 예상 vs 창고)
3) 유효성이 확보되어야 함 (기업의 운영과 거래를 위해서는 해당 비즈니스 데이터가 필수요소이기 떄문에)
(제품을 생산하기 위해서는 자재들이 언제 입고가 되는지에 대한 정확한 정보가 항시 참조 가능한 상태로 유지되어야만 함)
- 활용 분야: 소비자, 생산, 매출, 자산, 재고 등 EPR 나 SCM 등 내부기간 시스템에서 활용/ 운영을 위한 개별 데이터 관리
- 빅데이터
1) 테이블 형태의 저장이 어려움 (이유: 데이터의 형태가 반정형, 혹은 비정형성을 가진 데이터가 많음)
-> 유튜브의 동영상이나 페이스북 댓글 등은 비관계형 데이터베이스에 파일 형태로 저장하는 경우가 많음
=> 분산형 데이터베이스 이용
* 비즈니스 데이터의 사용목적은 '개별 거래에 대한 정확한 기입과 보존, 그리고 필요 시 변경하는 것 *
2) 빅데이터의 사용 목적: 대량의 데이터를 취합하여 새로운 정보를 예측하는 것
( '누가 무엇을 언제 샀냐' X -> '전체 고객의 동향을 볼 떄 내년에 가장 유행할 상품군은 무엇일까' O = 통합된 데이터를 이용한 고객 유형별 관심, 감성분석, 트렌드 파악 등이 중요해짐 )
2-1) 개개의 데이터의 정합성/ 유효성의 중요성이 떨어짐 (빅데이터: 통합된 관점에서 데이터를 분석하여 새로운 사실을 예측하기 때문에
2-2) 대신, 얼마나 많은 데이터를 받아들여 빠르게 수평적으로 확장할 능력을 갖추었는지, 분산 가용성 및 응답성을 가졌는지가 중요해짐
(분산 가용성 및 응답성: 네트워크 전송 중 일부 데이터를 손실하더라도 시스템은 정상적으로 동작해야 함)
1-3. 빅데이터의 출현 배경
(1) 빅데이터 인프라
- 빅데이터의 출현을 가져온 가장 중요한 요인은 '하드디스크와 같은 데이터 저장소', 이를 처리하기 위한 컴퓨터 프로세스, 데이터를 전달하기 위한 네트워크 환경 등의 가격대비 성능이 급격히 증가하였다는 점
(현재: 대부분의 모든 데이터를 저장함/ 네트워크의 성능이 발달하면서 서로 다른 컴퓨터에 데이터를 분산하여 저장하더라도 마치 하나의 저장장치에 있는 것과 같이 사용이 편리해졌으며, 이들의 처리도 대용량의 슈퍼컴퓨터가 아닌 분산된 범용 컴퓨터들을 하나로 모아 집약적으로 사용할 수 있게 됨. 이러한 인프라 기술의 발전은 빅데이터 관련 산업의 비약적인 발전을 선도하게 되었음)
- 저장용량에 따른 가격
- CPU 가격
- 네트워크 전송속도!
- Bandwidth
(2) 빅브라더의 출현 -> 개인정보 문제
- 대량의 데이터를 값싸게 저장하고 처리할 수 있는 기술 기반이 확보되다 보니, 기업들 중에는 자신의 고객들의 일거수일투족을 감시하고 정보를 수집하는 경우가 많아지고 있음 (이러한 기업들을 -> '빅브라더'라고 부름)
* 특히, 온라인상에서의 모든 활동은 웹 로그파일을 활용함으로써 거의 모든 행위에 대한 감시가 가능해졌기 때문에 개인정보의 보호라는 측면에서 사회적 문제로 제기되기도 함
* 카드를 쓰면, 빅브라더들의 감시망에 잡히고 그 결과 건강하지 못한 생황을 하는 사람으로 분류되어 각종 보험료가 인상될 수도 있음
(3) SNS의 확산
- 대중들의 빅데이터 축적 (SNS 사용자의 증가와 이를 이용한 다양한 활동 및 데이터의 생산)
* 코로나 상황에서는, 오프라인 세상이 막히면서 온라인을 통해 소통하고 자신을 드러내려는 수요가 부쩍 늘었다는 설명 *
= 매월 한 이용자당 평균 100개 이상의 콘텐츠를 생성하고, 뿐만 아니라 댓글, 선호도, 태그, 웹 로그 등과 같이 다른 활동의 부산물로 생겨나는 간접데이터를 고려하면, 순간의 생산되는 데이터의 양이 엄청나다는 것을 알 수 있음
- Exhaust Data (간접 데이터)
= 다른 활동의 부산물로 생겨나는 데이터에 대한 데이터
= 페이스북의 사진에 태그를 붙이도록 도와주는 안면 인식 루틴
= 댓글, 선호도, 웹 로그
= 사용자 (고객)의 자발적 행동으로 의미있는 데이터
- 소셜 플랫폼
= 외부 웹 사이트/ 앱들과 SNS와의 연동
= OpenGraph AI
(4) 멀티미디어 데이터의 증가
- 빅데이터의 다양성 요소에서 설명하였듯이 최근 멀티미디어 데이터가 급증하고 있음.
(대표적인 사이트 유튜브는 매 분 마다 500 시간 분량의 동영상이 업로드됨 -> 저장공간으로 환산하면 720p 비디오 화질을 기준으로 거의 1TB 에 해당함. 이러한 대용량의 데이터를 효과적으로 처리하기 위해서는 '분산저장과 분산 처리기술이 요구됨'
- HD 동영상이 전체 인터넷 트래픽의 50% 이상 차지
- 90% 이상의 의료 데이터 (X-ray, CT 스캔 등)
(5) 사물인터넷 _IoT
- 데이터를 만들어 내는 또 다른 기기 (사물인터넷, IoT)
= 주변 모든 기기들이 서로 인터넷을 통해 연결되고 통신을 하며 그 와중에 데이터를 쏟아내고 있음.
모든 사람들이 들고 다니느 스마트폰은 눈(카메라), 귀(음성인식 센서), 위치(GPS) 와 같은 다양한 센서를 장착하고 실시간 정보들을 만들어 냄.
(주행하는 자동차에 달린 감지장치들은 운전자의 폐달 밟는 방식, 회전 방식, 연료 효율 등을 실시간으로 무선 네트워크를 통해 중앙 서버에 전달함_임베디드 시스템)
-> 사물인터넷 활용 분야: 스마트 에너지 미터, 스마트 가전, 헬스 및 의료 모니터링 기기, 건출물 진동 센서, RFID 등이 있음
[IoT]
- 스마트폰= 개인 정보 + 위치 정보
- 임베디드 시스템 (M2M_Machine to Machine = 사물이 감지장치를 통해 정보를 전달 / V2X)
- IoT 클라우드 (500억 개의 사물 센서가 연결)
-> 차량 센서/ 스마트 에너지 미터/ 스마트 가전/ 헬스 및 의료 모니터링 기기/ 건축물 진동 센서/ RFID 등
[비즈니스 데이터 vs 빅데이터]
(1) 비즈니스 데이터
- 사용 데이터베이스: 관계형 데이터베이스 (RDBMS) 이용
- 데이터 저장 형태: 테이블
- 데이터의 가치: 개개의 데이터가 중요
- 주 활용 분야 예)
-> 소비자, 생산, 매출, 자산, 재고 등 ERP 나 SCM 등 내부기간 시스템에서 활용
-> 운영을 위한 개별 데이터 관리
- 요건)
-> 정합성: 모든 노드는 같은 시간에 같은 데이터를 보여줘야 함
-> 유효성: 업무처리를 위해 정확한 정보가 항시 참조가능해야 함
---------------------------------------------------------------------------------------------------------------------
(2) 빅데이터
- 사용 데이터베이스: 분산형 데이터베이스 이용
- 데이터 저장 형태: 파일
- 데이터의 가치: 개개의 데이터가 모여 새로운 정보 전달
- 주 활용 분야 예)
-> 고객 유형별 관심, 감성 분석, 트랜드 파악
-> 데이터를 통합하여 숨어 있는 가치 발견
-> 이미지 분석을 통한 제품 품질 관리
- 요건)
-> 수평적 확장의 용이성
-> 분산 가용성 및 응답성: 네트워크 전송 중 일부 데이터를 손실하더라도 시스템은 정상적으로 동작해야 함
비즈니스 데이터
= ERP (고객기본정보_상품구매/ 계좌정보/ 고객지불정보 등 혹은 기업경영정보) +
CRM (고객관리에 필요한 정형화된 데이터) +
WEB (발생 상황을 즉각적으로 모니터링하고 대응할 수 있는 데이터_Real time) +
Social Network (거래데이터 외 고객의 활동과 성향을 알 수 있는 방대한 비정형 데이터)
[Dark_Dirty Data 문제=> Verocity]
- 데이터 품질 문제이며 기존의 DB 에서도 동일한 문제
- 실시간 데이터의 폭증에 따라서 노이즈도 증가하며, 이런 데이터에서 의미있는 분석이나 패턴을 찾는 것은 어려움 (빅노이즈)
- 빅데이터 수집단계에서 검색/ 수집/ 변환 과정으로 정제된 데이터 확보가 중요
예1) CJ 오쇼핑의 데이터 정제과정
-> 같은 제품에 대해서
-> 단일, 묶음 판매/ 이벤트 판매/ 공급자, 바이어에 따라 모두 다른 코드 부여
2-1. 기반 인프라_ Fast Data
- 빅데이터의 기반 인프라) 데이터를 수집, 처리, 관리하는 역할을 담당함
[수집]
- 조직 내/ 외부에 있는 다양한 데이터를 주기적/ 실시간, 수동/ 자동으로 수집
- 단순히 수집하는 것이 아니라 조건에 따라 검색하고 원하는 형태로 변환
- 데이터의 유형 및 특성에 따라서 다양한 기술을 활용
- 고려요인 (수집가능 여부, 개인정보 및 보안, 데이터 품질 수준, 수집 주기, 비용/ 제공기관과의 협의)
=> 수집대상 데이터 선정 -> 수집 세부계획 수립 -> 데이터 수집 실행
[전처리]
: 데이터 여과 -> 데이터 변환 -> 데이터 정제 -> 데이터 통합 -> 데이터 축소
[저장]
: 실시간으로 원하는 형태로 저장, 미리 저장형태를 정의
- RDB(관계형 데이터베이스)/ NoSQL/ 분산파일 시스템
: 빅데이터는 '규모 자체가 방대하며 형식 또한 다양하기 때문에, 어떻게 여러 대의 컴퓨터를 병렬로 연결하여 보다 효율적이고 빠르게 데이터를 처리하느냐가 관건이 됨' -> 이를 가능하게 하는 분산 데이터베이스, 분산 병렬처리, 분산 파일 시스템 등의 기술이 핵심이 되고, 나아가 이런 기술을 뒷받침해 주는 클라우드 컴퓨팅과 데이터 웨어하우스 (DW) 환경이 필요함
- 기반 인프라) 데이터 수집, 처리, 관리
- 분석) 숨겨진 정보와 지식 탐색
- 표현) 분석결과를 소통, 이해, 발전
[빅데이터를 처리하는 기반 인프라의 종류]
(1) 하둡 분산 파일 시스템 (HDFS)
: 하둡 분산 파일 시스템은 '대용량 데이터를 여러 장소에 분산하여 저장할 수 있도록 구성된 파일시스템'/
1) 하나의 컴퓨터가 아닌 수천대 규모의 저가 범용서버를 클러스터로 묶어 단일 파일시스템 이미지를 제공하는 것이 가능해짐
-> 고가의 단일 서버를 사지 않고 비교적 저렴한 범용서버들을 써서 그 뛰어난 비용절감 효과
-> 언제든지 필요할 경우 추가로 서버를 클러스터에 추가할 수 있는 뛰어난 확장성을 보장
2) 최소 세 개의 파일 복사본을 유지하여 데이터를 안전하게 보호 (fault-tolerant)
3) 대용량 데이터를 효과적으로 저장하기 위해 64MB 의 큰 파일 블록 단위를 사용함 -> 맵리듀스의 기본구성블록
[하둡]
= 대용량 데이터를 분산 처리할 수 있는 'Java 기반 오픈소스' 프레임워크
(하나의 컴퓨터가 아닌 수천대 규모의 범용 서버를 클러스터로 묶어 단일 파일시스템 이미지를 제공: 하둡을 이용해 대용량 사진 데이터를 작은 데이터로 쪼개 처리함)
- HDFS : 마스터인 name node 가 파일의 메타 정보를 관리하고 실제 데이터는 data block 으로 쪼개서 여러 대의 data node 에 분산해서 저장
- MapReduce: Map 은 키/ 값 두 개의 값을 쌍으로 가지고 있는 데이터를 담아두는 자료구조, Reduce 는 Map 을 정리해 나가는 방법
(2) 맵리듀스
: 대규모 데이터를 효과적으로 처리하기 위한 분산데이터 처리 프레임워크
1) 대규모의 분산된 데이터를 병렬로 처리하기 위해 범용서버들에게 해당 작업을 적절히 할당하는 작업이 map이라는 프로그램을 통해 이루어짐
2) 이러한 작업이 할당되면 분산되어 있는 각 서버들은 맡은 작업을 효율적 처리, 처리된 결과를 각 유형 (키 값)에 따라 '정렬'시키는 shuffle 작업을 시행
3) 이후 유형별 정렬된 결과를 하나로 통합하여 최종 결과물로 구성하는 작업이 필요한데 이것이 reduce 프로그램이 역할
(1,500 페이지의 책에서 3가지 키워드를 찾는 작업
: map 프로그램은 3개의 범용서버에 각각 500페이지 분량의 작업을 할당하고 3가지 워드를 찾도록 명령/
각 서버별로 할당된 500페이지를 검색하고 작업을 마친 후에는 키워드별로 정리하는 shuffle 작업을 함/
마지막으로, 각 서버들이 검색한 결과를 한곳으로 통합하여 전체 1,500 페이지에 대한 키워드별 검색결과를 종합해 주는 reduce 작업이 진행됨
- 멜리듀스 방식의 중요한 특징 중 하나 : 기존의 병렬, 분산 처리 모델은 처리를 맡은 프로세스가 있는 컴퓨터로 분산된 데이터를 모아서 처리를 하였지만, 맵리듀스의 경우 반대로 데이터가 있는 곳으로 프로그램(코드)을 배포하여 처리한다는 점
(이유: 빅데이터는 그 규모가 처리를 위한 프로그램보다 훨씬 큰 것이 일반적이며 따라서 데이터를 네트워크를 따라 이동시키지 않고, 명령을 맡은 프로그램을 데이터가 존재하는 분산 서버들로 보내 처리함으로써 효율성이 높아짐. )
2-2. 분석- Big Analytics
- 분석기법 들의 알고리즘을 대규모 데이터 처리에 맞도록 개선하여 빅데이터 처리에 적용시키고 있음. 최근 소셜미디어 등 비정형 데이터의 증가로 인해, 특히 텍스트/ 오피니언 마이닝, 군집분석 등이 주목받고 있음
(1) 텍스트 마이닝
: 빅데이터의 큰 비중을 차지하는 비정형 텍스트 데이터에서 의미있는 정보를 추출하고, 해당 정보와 연계된 정보를 파악하는 등 텍스트가 가진 단순한 정보 이상의 의미를 찾아내는 기법
-
-
'2024-2학기 > e-비즈니스' 카테고리의 다른 글
[e- 비즈니스] e- 비즈니스의 개념과 모델 (0) | 2024.10.18 |
---|---|
[e- 비즈니스] 5+1 주) 빅데이터 and AI (0) | 2024.10.14 |
[e- 비즈니스] 2. 인터넷 (0) | 2024.10.12 |
[e-비즈니스] 1. 정보화 (0) | 2024.09.27 |
[e-비즈니스] 3. 클라우드 컴퓨팅 (0) | 2024.09.27 |