deep learning · machine learning meetup michal illich. michal illich. obsah ... intermezzo 1...
TRANSCRIPT
Deep learning(a strojové učení obecně)
Czech Internet Forum 2014Tech Open Day
DataConf.czMachine Learning Meetup
Michal Illich
Michal Illich
Obsah
● Strojové učení– Kdo ho používá?
– Základní princip
● Deep learning– Běžné neuronové sítě
– Co je podstatou „deep“?
– Proč a kde je skvělý?
Produkty strojového učení používáte každý den.
Kde se používá na webu - I
Kde se používá na webu - II
Kde se používá na webu - III
Mimo web
Siri
OCR
Self-driving cars
Kde si s ním hrajeme my
Magictable
Brandiozo
Golem
a jeden neveřejný projekt
… a Brandiozo
a 2 další, zatím neveřejné projekty
Označkovanádata
Naučíte model:
Známá data → Model → Známý výsledek
Používáte model:
Nová data → Model → Nový výsledek
II. Deep learning
1970s
1970s
1975 - backpropagation
Co chceme, aby uměly?
Co je od tehdy nového?Čím je učení „deep“?
1. Hloubka
Umožněná vyšším výkonem CPU/GPU a pár triky.
2. Využití neoznačených dat
Intermezzo 1
● Semantic hashing● Aneb zpátky k Josefově problému
(hledání podobných dokumentů)
Tři přístupy
1. Podle podobnosti řetězce písmen?
2. Podle podobnosti významu slov?
3. Deep learning?
Salakhutdinov & Hinton, 2006
3. Triky
● odolnost proti přeučení DropOut, DropConnect
● jiné aktivační funkce ReLu místo sigmoidy
● učení po vrstvách● konvoluční sítě
Odolnost proti přeučeníDropOut, DropConnect, Denoising...
Výsledky
Kategorizace obrázků (22000 kategorií)● 9,5% (nejlepší v 2011)
● 18,3% (deep learning ze Stanfordu)
Výsledky
Rozpoznávání řeči (Switchboard, 300 hodin)● chybovost 27,4 % (tradiční metody)
● chybovost 18,5 % (deep learning)
Výsledky
Rozpoznávání číslic (MNIST)● chybovost 0,39 % (2006)
● chybovost 0,21 % (deep learning)
Open source knihovny
Neuronové sítě:
theano, cuda-convnet, fann
Další algoritmy:
gbm, libsvm, vowpal wabbit, sofia-ml, sofia-kmeans
word2vec, gensim, NLP knihovny
Nástroje s GUI:
weka, orange, rapid miner
Intermezzo 2
Máte projekt?
● Z oblasti dat nebo analytics?● Nejméně dva zakladatelé?● Potřebujete €30k?
Přihlašte se do StartupYardu
● Deadline už za 4 týdny 15.12.
● Tříměsíční program od března 2015
● Desítky mentorů● Demo Day pro investory● €30k cash investice za 10%● Plus až $250k v „perks“
kredit do AWS, Rackspace, Google App Engine,...
Závěr
1/3
Mít data nestačí. Používejte je.kreslit barevné grafy je základ, nikoliv plné využití dat
Strojové učení.nechte stroje samotné najít si vztahy v datech
2/3
3/3
Kde může student pracovat s ML na reálných problémech:- komunitní/soutěžní weby jako Kaggle.com- vlastní projekty – sami nebo v akcelerátoru- na univerzitě- v pár českých firmách
Apendix: Výsledky podrobněji
Kategorizace obrázků (22000 kategorií)● 9,5% (nejlepší v 2011, Weston+Bengio)● 18,3% (deep learning ze Stanfordu)
Rozpoznávání řeči (Switchboard, 300h)● chybovost 27,4 % (GMM-HMM)● chybovost 18,5 % (deep learning: DNN-HMM)
Rozpoznávání číslic (MNIST)● chybovost 0,39 % (energy based model, 2006)● chybovost 0,21 % (deep learning s DropConnectem)
Zdroje ilustračních obrázků:
http://www.cs.toronto.edu/~kriz/cifar.htmlhttp://cl.naist.jp/~kevinduh/notes/duh12deeplearn.pdfhttp://www.positscience.com/media-gallery/detail/161/94http://commons.wikimedia.org/wiki/File:Haystack_-_geograph.org.uk_-_462934.jpghttp://www.retrowaste.com/1970s/http://www.moderni-dejiny.cz/clanek/exteriery-z-obdobi-normalizace-soubor-fotografii-bohdana-holomicka/http://zlin.cz/503516n-zlinske-jaro-odstartovalo-vystavu-ritualy-normalizacehttp://www.cs.stanford.edu/people/ang//slides/DeepLearning-Mar2013.pptx
+ pozadí koupené ve fotobance
Semantic hashing: https://www.cs.toronto.edu/~hinton/absps/sh.pdf