big data & clouding computing

21
A반 60072343 반반반 60072379 반반반 * Big Data & Clouding Computing

Upload: suzuki

Post on 15-Feb-2016

58 views

Category:

Documents


0 download

DESCRIPTION

Big Data & Clouding Computing. A 반 60072343 송영호 60072379 최승준. 기존의 데이터베이스나 아키텍처가 저장 , 관리 , 분석할 수 있는 범위를 초과하는 거대한 규모의 데이터 집합 또 는 이 거대한 규모의 데이터를 분석하는 기법을 뜻한다 . 인터넷과 각종 센서의 발달로 유동하는 데이터의 양이 증가함으로써 나타남 . - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Big Data & Clouding Computing

A 반60072343 송영호60072379 최승준

*Big Data&Clouding Computing

Page 2: Big Data & Clouding Computing

What is a Big Data?*기존의 데이터베이스나 아키텍처가 저장 , 관리 ,

분석할 수 있는 범위를 초과하는 거대한 규모의 데이터 집합 또는 이 거대한 규모의 데이터를 분석하는 기법을 뜻한다 .

*인터넷과 각종 센서의 발달로 유동하는 데이터의 양이 증가함으로써 나타남 .

*다양한 종류의 데이터의 생성 · 수집 · 분석 · 표현을 그 특징으로 다변화된 현대 사회를 더욱 정확하게 예측하게 하며 , 다양한 분야에 걸쳐 과거에 불가능했던 기술을 실현할 수 있는 가능성을 가져다준다 .

Page 3: Big Data & Clouding Computing

Big Data 특징

1. 데이터 양 (Volume)- 단순 저장되는 물리적 데이터 양의 증가뿐만 아니라 이를 분석 및

처리에 어려움이 따르는 네트워크 데이터의 급속한 증가 .

2. 데이터 속도 (Velocity)- 빅 데이터는 데이터의 실시간 처리 및 장기적 접근을 요구한다 .

3. 데이터 다양성 (Variety)- 데이터베이스 스키마를 포함하는 반정형 데이터를 이용한 분석뿐만이 아닌 소셜 미디어 데이터나 로그파일과 같은 비정형 데이터도 처리할 수 있는 능력을 요구한다 .

Page 4: Big Data & Clouding Computing

Big Data 분석 기술

*Text Mining비 / 반정형 텍스트 데이터에서 자연언어 처리 기술에 기반하여 유용한 정보를 추출 , 가공하는 기술

*평판 분석 (Opinion Mining)소셜미디어 등의 정형 / 비정형 텍스트의 선호도를 판별하는 기술

*소셜 네트워크 분석 (Social Network Analysis)소셜 네트워크 연결구조 및 연결강도 등을 바탕으로 사용자의 명성 및 영향력을 측정하는 기술

*군집 분석 (Cluster Analysis)비슷한 특성을 지닌 개체를 합쳐가면서 최종적으로 유사특성의 군을 발굴하는데 사용

Page 5: Big Data & Clouding Computing

Big Data 활용사례(1)*대한민국 19 대 총선 ( 국회의원 선거 )

- 중앙선거관리위원회는 19 대 총선부터 소셜 네트워크 등 인터넷

상의 선거운동을 허용하였다 . 이에 따라 소셜 미디어에서의 선거

관련 데이터가 급증하였고 , 2010 년 5 회 지방 선거 및 2011 년

재보궐선거에서 소셜 네트워크의 중요성을 확인한 정당들 또한 그

활용에 주목했다 . 또한 여론 조사 기관들은 기존 여론조사

방식으로 예측한 실제 투표 결과와의 큰 차이를 보완하고자 , 빅

데이터를 활용한 SNS 여론 분석을 시행했다 . 하지만 SNS 이용자의 대다수인 20~30 대가 수도권에 밀집되어 있기에

수도권에 한정하여 일치하는 한계를 보였다 .

Page 6: Big Data & Clouding Computing

Big Data 활용사례(2)*구글 번역

- 2006 년 구글은 수억 건의 문장과 번역문을 데이터베이스화하여

번역시 유사한 어구를 데이터베이스에서 추론해나가는 통계적

기법을 개발하였다 . 수백만 건의 문서를 활용하여 영어 - 불어

자동번역 시스템을 개발한 IBM 의 자동 번역프로그램은

실패했지만 , 엄엄청난 양의 빅 데이터를 이용한 구글 번역기는

번역의 질과 정확도에 차이를 보여 크게 성공하였다 .

Page 7: Big Data & Clouding Computing

What is a Cloud Com-putiong?

*인터넷 기반 (Cloud) 의 컴퓨팅 (Computing) 기술을 의미한다 .

*인터넷 상의 유틸리티 데이터 서버에 프로그램을 두고 그때그때 컴퓨터나 휴대폰 등에 불러와서 사용하는 웹에 기반한 소프트웨어 서비스

Page 8: Big Data & Clouding Computing

What is a Cloud Com-putiong?

*컴퓨터 네트워크 구성도에서 인터넷을 구름으로 표현한다 .( 구름은 숨겨진 복잡한 인프라 구조를 의미 )*사용자는 이러한 복잡한 인프라 구조를 알지 못해도

Cloud Computing 을 이용할 수 있다 .

Page 9: Big Data & Clouding Computing

Cloud Computing 장점*초기 구입 비용과 비용지출이 적으며 휴대성이 높다 .

*컴퓨터 가용성이 높다 . 이러한 높은 가용성은 IT 전략과도 일치한다 .

*다양한 기기를 단말기로 사용하는 것이 가능하며 , 서비스를 통한 일치된 사용자 환경을 구현할 수 있다 .

*사용자의 데이터를 신뢰성 높은 서버에 안전하게 보관할 수 있다 .

Page 10: Big Data & Clouding Computing

Cloud Computing 단점*서버가 공격당할 경우 개인정보가 유출될 수 있다 .

*재해나 사고 등으로 서버 데이터가 손상되면 백업하지 않은 데이터를 영구손실할 수 있다 .

*사용자가 원하는 애플리케이션을 설치에 제약이 심하거나 , 새로운 애플리케이션을 지원하지 않는다 .

*인터넷 환경이 양호하지 않으면 서비스를 이용하는데 지장이 있을 수 있다 .

Page 11: Big Data & Clouding Computing

공용 Cloud & 사설 Cloud*공용 클라우드 (Public Cloud)

- 아마존 웹 서비스와 같은 외부 서비스 제공가 관리하며 , 인터넷을 통해 접근하거나 일반적인 공적 업무를 위해 이용된다 .

*사설 클라우드 (Private Cloud)- 네트워크 소유자나 데이터 센터에서 가상화 서비스와 함께 서버 , 저장 , 네트워크 데이터와 애플리케이션을 묶어 둔다 . 그래서 회사 내부의 이용자들이 공유할 수 있도록 하는 것이다 .

Page 12: Big Data & Clouding Computing

Apple iCloud

Page 13: Big Data & Clouding Computing

Cloud Computing 고려사항*확장성 (Scalability)

- 클라우드의 가장 핵심적인 장점인 사용자 시스템의 부하에 따라 신축성 있게 가상시스템을 확장할 수 있어야 한다 .

*가용성 (Availability)- 네트워크 소유자나 데이터 센터에서 가상화 서비스와 함께 서버 , 저장 ,

네트워크 데이터와 애플리케이션을 묶어 둔다 . 그래서 회사 내부의 이용자들이 공유할 수 있도록 하는 것이다 .

*신뢰성 (Reliability, Security)- 사용자의 데이터 보호는 물론 , 해킹 침입에 대한 기술 및 자동 백업 , 싱크 ,

복구 기능이 필요하다 .

*활용률 (Utilization)- 사용자보다는 서비스를 운영하는 차원에서의 필수적 요소이며 , 에너지 절감 효과도 기대할 수 있다 .

*이동성 (Mobility)- 중앙 집중 데이터에 대한 협력자들의 동시 업무 수행을 위해 이용자들의 이동성을 보장하여야 한다 .

Page 14: Big Data & Clouding Computing

Big Data & Cloud Com-puting

*Cloud 라 불리는 것은 종종 가상서버로 요약된다 . 사용량에 따라 대여 가능하고 , 자기 자신을 일반 서버로 표현하는 컴퓨터 자원이다 . 일반적으로 서비스로 제공되는 기반체계(IaaS) 라 불리고 , Rackspace Cloud 나 Amazon EC2 같은 플랫폼으로 제공된다 .

*IaaS Cloud 서비스를 이용한다는 것은 모든 배포를 수동으로 해야 한다는 의미는 아니다 . 자원 관리 , 기반도구 자동화 , 서버 설치 및 설정을 다루는 통함 프레임워크의 사용이 가능하다 .

Page 15: Big Data & Clouding Computing

Big Data & Cloud Com-puting

*IaaS 를 사용하는 것은 어느 정도까지만 Big Data 에 데려다 줄 뿐이다 . 연산과 저장 자원의 생성을 다루지만 , 더 높은 단계를 해결하기 위해서는 Hadoop 등의 Big Data 설정 도구를 설치해야 한다 .

*많은 Cloud 서비스들이 Big Data 가 작동하는 애플리케이션 레이어를 제공한다 .

*최근 Big Data 플랫폼 서비스의 기본적 제공자는 Amazon, Google, Microsoft 이다 .

Page 16: Big Data & Clouding Computing

Big Data & Cloud Com-puting

*Amazon 웹 서비스- Hadoop 을 위해 Amazon EC2 를 사용하는 것은 초기에 Big

Data 를 적용한 곳에 널리 퍼져 있다 . 그만큼 Amazon 은 Big Data 처리 운영에 분명한 경험을 가지고 있다 .

- 2009 년 Amazon 은 확장 가능한 Hadoop 서비스 호스팅을 제공하는 Elastic Map Reduce 를 출시했다 .

- Amazon 의 플랫폼에서 애플리케이션은 IaaS 와 PaaS 중 좋은 것만 고를 수 있다 .

- 조정 분산 컴퓨팅을 위한 Simple Queue Service, 관계형 데이터베이스 운영 등 Big Data 와 관련 있는 많은 서비스를 제공한다 .

- Big Data 전문의 결과 Amazon 의 고성능 컴퓨터 솔루션은 과학이나 기술 관련 애플리케이션에서 요구되는 대기율이 낮은 클러스터 컴퓨팅으로 조정되었다 .

Page 17: Big Data & Clouding Computing

Big Data & Cloud Com-puting

*Google

- Google 의 플랫폼을 쓰기 위해서는 API 의 제한 안에서 작업할 필요가 있다 . 잘 이용하면 Google 서비스에 적용하는 안정성 , 튜딩 , 성능 개선을 얻을 수 있다 .

- Big Data 의 핵심인 BigQuery 와 Prediction API 를 제공하며 , 각각 분석과 기계 학습 기능을 제공한다 . 두 서비스는 Google 의 웹 기반 컴퓨팅 비전에 일관성 있게 REST API 를 통해 독점적으로 사용 가능하다 .

Page 18: Big Data & Clouding Computing

Big Data & Cloud Com-puting

- BigQuery : 1TB 가 넘는 데이터셋에 대한 대화식 분석에 적합한 분석 데이터베이스 . 익숙한 SQL 인터페이스를 제공하며 , Apache Hive 와 비교했을 때 속도가 더 빠르고 , 탐사 데이터 분석에 좋다 . 다만 , 데이터를 BigQuery 로 스트리밍을 통해 보내는 것도 불가능하여 데이터를 최신으로 유지하려면 정기적인 데이터 입력이 필요하다 .

- Prediction API : 이 API 를 사용하는 애플리케이션은 Google 시스템 안에서 운용되는 모델을 생성하고 훈련시켜서 작동한다 . 한 번 훈련되면 이 모델은 스팸 탐지 같은 예측을 하기 위해 사용될 수 있다 . 아직 초기 단계이기 때문에 더 많은 서비스간 통합이 필요하고 그들의 도구를 더욱 쉽게 쓸 수 있도록 발전할 시간이 필요하다 .

Page 19: Big Data & Clouding Computing

Big Data & Cloud Com-puting

*Microsoft- Windows 서버에 더해 Windows Azure 에서 데이터 플랫폼을

제공함으로써 , 현장 기반이나 Cloud 기반의 배포를 모두 같은 기술로 만드는 데 목표를 두고 있다 .

- Hadoop 은 Microsoft 의 Big Data 접근에서 가장 중심되는 기둥이고 , 자체 데이터베이스와 경영 정보 도구의 생태계로 둘러싸여 있다 .

Page 20: Big Data & Clouding Computing

Big Data & Cloud Com-puting*Big Data 플랫폼 비교

Page 21: Big Data & Clouding Computing

Big Data & Cloud Com-puting

*결론- Cloud 기반 Big Data 서비스는 오버헤드를 제거하고 ,

서버군을 설정하고 튜닝하며 , 딱 쓴 만큼만 돈을 내면 되는 장점을 제공해준다 . 다만 데이터를 옮기는 것은 느리고 비싸기 때문에 데이터 지역성이 가장 큰 문제가 될 것이다 .

- Cloud 서비스에서 Big Data 는 아직 초기다 . 아직은 Amazon만이 검증된 서비스를 제공하지만 , Cloud 서비스 자체가 아직 초기 형태이고 , 향후 표준화를 통해 점점 발전해 나갈 것이다 .