mitä on big data, aamiaistilaisuus 13.03.2012
DESCRIPTION
13.03.2012 pidetty aamiaistilaisuus Big Datasta.TRANSCRIPT
![Page 1: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/1.jpg)
Mitä on Big Data?13.03.2012Immo SaloEufris
![Page 2: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/2.jpg)
Big Data: yleisesi>ely
![Page 3: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/3.jpg)
Gartnerin top 10 strategista teknologiaa1. Media Tablets and Beyond
2. Mobile-‐Centric Applica9ons and Interfaces
3. Contextual and Social User Experience
4. Internet of Things
5. App Stores and Marketplaces
6. Next-‐Genera9on Analy9cs
7. Big Data
8. In-‐Memory Compu9ng
9. Extreme Low-‐Energy Servers
10.Cloud Compu9ng
![Page 4: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/4.jpg)
Big Data ja Cloud CompuEng
• Vuodet 2009-‐2011 olivat ak2ivista Cloud Compu2ng-‐markkinoin2a
• Vuonna 2012 fokus on siirtynyt Big Dataan
• Osa toimijoista on samoja ja osa tarjoomista en2siä uudelleen nimeAyinä
Cloud Envy Big Data Envy
![Page 5: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/5.jpg)
Pari yleistä kuvaa
2012 2015 2020
![Page 6: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/6.jpg)
Mitä on Big Data?
• Big Data on kaAokäsite joukolle teknologioita
Kuvat: riak.com, aws.amazon.com, appengine.google.com, oracle.com, apache.org (Cassandra, Hadoop)
![Page 7: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/7.jpg)
Mitä on Big Data?
• Se on markkinoin2termi, aivan kuten Cloud Compu2ng
Kuvat: rackspace.com, salesforce.com, appengine.google.com, aws.amazon.com, windowsazure.com
![Page 8: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/8.jpg)
Big Data-‐määritelmiä
"Big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling high-velocity capture, discovery, and/or analysis"IDC
"Big Data is a technlogy that helps extract value from the digital universe.”IDC
"Techniques and technologies that make handling data at extreme scale economical."Forrester
![Page 9: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/9.jpg)
Miksi Big Datan pitäisi kiinnostaa?
• McKinseyn ennustus:• $250 mrd/vuosi säästöpoten5aali EU-‐alueen julkisella sektorilla
• $600 mrd/vuosi poten5aalinen taloudellinen lisäarvopoten5aali paikka5etojen hyödyntämisessä
• Tiedon määrä kasvaa vauhdilla• Datan määrä 50-‐kertaistuu(!) seuraavan kymmenen vuoden aikana maailmassa
![Page 10: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/10.jpg)
Mistä dataa oikein tulee?
Kuvat: ipcmax.com, polar.fi, facebook.com, twitter.com, apple.com, nokia.com
![Page 11: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/11.jpg)
Osaajapula uhkaa
“There will be a shortage of talent necessary for organizations to take advantage of big data. By 2018, the United States alone could face a shortage of 140,000 to 190,000 people with deep analytical skills as well as 1.5 million managers and analysts with the know-how to use the analysis of big data to make effective decisions.”
Lähde: McKinsey
![Page 12: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/12.jpg)
Big Data: viitekehyksiä
![Page 13: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/13.jpg)
Big Datan ABC
• Analy2cs (analy5ikka)• Data pitää jalostaa informaa2oksi, 2edoksi ja ymmärrykseksi. Visualisoin2,
konkre2soin2, ennusteiden tekeminen, tunnuslukujen laskeminen, korrelaa2oiden hakeminen...
• Bandwidth (5etoliikenne)• Suurten 2etomäärien liikuAelu on yhä useammin pullonkaula. Lähtökohtainen päätös
siitä, missä 2etoja säilytetään ja missä niitä prosessoidaan on yhtä merkiAävä kuin käytetyt teknologiat ja analyysin hyödyntämiskohteet.
• Content (sisältö)• Edelleen suuri osa 2edosta säilytetään, muAa jätetään käyAämäAä tai vielä
pahempaa: heitetään hukkaan ilman ensimmäistäkään analyysia.
Lähde: Netapp.com
![Page 14: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/14.jpg)
Big Datan kolme V-‐kirjainta (3V)
• Variety (vaihtelevuus)• Dataa on strukturoitua ja strukturoimatonta. Molempia pitää pystyä hyödyntämään.
• Velocity (vauh5)• Datan määrä kasvaa vauhdilla ja sitä tulee lukemaAomista lähteistä. Lähes
reaaliaikaisen analyysi tavoiAeena.
• Volume (voluumi)
• Data pitää pystyä analysoimaan ja säilyAämään myöhempää käyAöä varten.
Lähde: Netapp.com
![Page 15: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/15.jpg)
Kaksi V-‐kirjainta lisää (3V+2V = 5V)
• Viscosity (viskositeeD)
• MiAaa sitä, miten nopeas2 datasta saadaan jalosteAua jotain liiketoiminnalle hyödyllistä.
• Virality (viraalisuus)• Kuvaa 2edon siirtymisen nopeuAa ihmiseltä toiselle (viraalisuuAa) organisaa2on sisällä
tai sen toimintaverkostossa.
Lähde: Netapp.com
![Page 16: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/16.jpg)
Big Data: käsi>eitä
![Page 17: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/17.jpg)
Hadoop
• Avoimen lähdekoodin Apache-‐projek2, joka on ehkä tunnetuin yksiAäinen tuotenimi Big Data-‐tarjoomista
• TarkoiteAu suurten datamäärien hajauteAuun prosessoin2in
• Asennetaan palvelinklusteriin, joka on vikasietoinen eli yksiAäisen palvelimen vikaantuminen ei haiAaa
• Kolme alaprojek2a1. Hadoop Common
2. Hadoop Distributed Filesystem
3. Hadoop MapReduce
![Page 18: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/18.jpg)
Esimerkki: Facebook
• Facebook on yksi suurista Hadoopin käyAäjistä. KäyAäjien vies2en osalta HBaseen yritys siirtyi täysin kesällä 2011. Luvut ovat massiivisia:• 8 miljardia(!) vies9ä päivässä
• yli 75 miljardia luku-‐/kirjoitustapahtumaa päivässä
• ruuhka-‐aikoina 1.5 miljoonaa luku-‐/kirjoitustapahtumaa sekunnissa(!)
• 2 petatavua online dataa (ja 6 petatavua varmuuskopioita)
• datan määrä kasvaa 250 teratavua kuukaudessa
![Page 19: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/19.jpg)
MapReduce
• Googlen vuonna 2004 esiAelemä laskentamalli
Map
2
2
2
1
2
3
Reduce 3
4
5
![Page 20: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/20.jpg)
NoSQL
• Määritelmä 1:
“Next Generation Databases mostly addressing some of the points: being non-relational, distributed, open-source and horizontally scalable. The original intention has been modern web-scale databases. The movement began early 2009 and is growing rapidly. Often more characteristics apply as: schema-free, easy replication support, simple API, eventually consistent, a huge data amount, and more.”
Nosql-database.org
![Page 21: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/21.jpg)
NoSQL
• Määritelmä 2:
“In computing, NoSQL (sometimes expanded to "not only SQL") is a broad class of database management systems that differ from the classic model of the relational database management system (RDBMS) in some significant ways. These data stores may not require fixed table schemas, usually avoid join operations, and typically scale horizontally.”
Wikipedia.org
![Page 22: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/22.jpg)
Big Data tuo>eita
![Page 23: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/23.jpg)
Oracle Big Data Appliance
• Hinta n. 500 000 $
18 Oracle Sun Servers• 864 GB main memory;• 216 CPU cores;• 648 TB of raw disk storage;• 40 Gb/s InfiniBand connectivity between nodes and engineered systems;• 10 Gb/s Ethernet connectivity.
![Page 24: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/24.jpg)
Autonomy IDOL 10
"For far too long, organizations have confined structured data to relational databases and unstructured data to simplistic keyword matching technologies..."
“IDOL 10 brings these worlds together, allowing organizations to automatically process, understand, and act on 100 percent of their data, in real-time. The results will be dramatic, as businesses can develop entirely new applications that explore the richness and color of Human Information that live in unstructured, semi-structured, and structured forms.”
Hinta?
![Page 25: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/25.jpg)
IBM InfoSphere BigInsights• “A core component of IBM’s platform for big data, IBM InfoSphere BigInsights is
inspired by, and is compatible with, open source Apache Hadoop and used to store, manage, and gain insights from Internet-scale data at rest...”
• “InfoSphere BigInsights combines IBM’s unique knowledge of SQL-based big data approaches with Apache Hadoop-based workloads.”
• Lisenssihinta n. 24 000 € / vuosi
• Ominaisuudet:
http://www-01.ibm.com/software/data/infosphere/biginsights/features.html
![Page 26: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/26.jpg)
SAP HANA
“Why wait for old-fashioned data analysis? Tap into huge volumes of detailed information as events unfold with the SAP HANA appliance - our new flexible, multipurpose, game-changing in-memory computing software.”
Suomessa Nordea otti käyttöönsä HANA:n ja joidenkin analyysien suorittamisaika putosi 2-3 tunnista 4 minuuttiin.Lähde: Tietoviikko.fi
![Page 27: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/27.jpg)
Big Data pilvipalveluna
![Page 28: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/28.jpg)
MapReduce ja NoSQL pilvessä
S3EC2
+ DynamoDB
![Page 29: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/29.jpg)
Amazon ElasEc MapReduce
• Hadoop-‐klusteri palveluna
• Ei sitoutumista, ei kiinteitä kustannuksia
![Page 30: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/30.jpg)
Amazon ElasEc MapReduce hinnat
Käyttöönotto 0 €, ei sitoumuksia.
![Page 31: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/31.jpg)
Amazon DynamicDB
• NoSQL-‐2etokanta palveluna
• Ei sitoutumista, ei kiinteitä kustannuksia
• Saatavilla EU-‐alueella maaliskuusta 2012 alkaen
![Page 32: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/32.jpg)
Amazon DynamoDB hinnat
Käyttöönotto 0 €, ei sitoumuksia.
![Page 33: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/33.jpg)
Google BigQuery ja Cloud SQL
• Google BigQuery• OLAP Online Analy5cal Processing
• Tällä hetkellä (maaliskuu 2012) vain beta-‐testaajille
• Google Cloud SQL• Hosted MySQL
• OLTP Online Transac5onal Processing
• Toimii ainoastaan App Engine-‐sovellusten kanssa
![Page 34: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/34.jpg)
Google BigQuery esimerkkiAineisto: Wikipedia
Kysymys: “Montako ‘th’ kirjainparin sisältävää otsikkoa löytyy?”
Aika: 7,6 sekuntia
![Page 35: Mitä on big data, Aamiaistilaisuus 13.03.2012](https://reader034.vdocuments.site/reader034/viewer/2022042713/548545a0b47959dd0c8b4e48/html5/thumbnails/35.jpg)
KIITOS!