sme.sk čočítať ontožíur-2010
DESCRIPTION
Zo zákulisia služby čočítať na sme.sk, skúsenosti, experimenty a pikošky zo spúšťania.TRANSCRIPT
![Page 1: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/1.jpg)
![Page 2: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/2.jpg)
SME.SK ODPORÚČAČ
• Aké články čítajú mne podobní ľudia a ja som nevidel?
• veľa veľa dát (~1M pageviews denne)
• každú minútu nové (~1000)
• veľa veľa traffic (peak okolo 9 ráno)
• rýchla odozva (horná hranica ~2-3 sekundy)
![Page 3: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/3.jpg)
ALGORITMUS
• algoritmus k-najbližších susedov
• fulltext search ako ho nepoznáte (tf-idf zadarmo!)
• + implicitná negatívna spätná väzba
• čo už videl, ale neklikol
• + explicitná negatívna spätná väzba
• toto nechcem už vidieť (x tlačítko)
![Page 4: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/4.jpg)
SYNTETICKÉ TESTOVANIE
• 15-dňové logy
• trénovacia / testovacia časť
• na koľko % z top10 klikol neskôr?
• škálovateľnosť (voči velkosti okna)
![Page 5: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/5.jpg)
REÁLNE TESTOVANIE
• 2 odporúčače • “standard”
• + implicitná negatívna spätná väzba
• parameter veľkosti okolia • 5 až 50 s krokom 5
• = 20 skupín
• 7 dní = 2.8M odporúčaní
• čo merať? • počet klikov na “toto nechcem”
• počet klikov na odporúčané články
• pomer klikov na článok a klikov na “toto nechcem”
5 10 15 20 25 30 35 40 45 50
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Normalized reject rate
standard
negative feedback
neighborhood size
%
5 10 15 20 25 30 35 40 45 50
0
0.2
0.4
0.6
0.8
1
1.2
Normalized click rate
standard
negative feedback
neighborhood size
%
5 10 15 20 25 30 35 40 45 50
1.5
1.7
1.9
2.1
2.3
2.5
2.7
2.9
3.1
click/reject ratio
standard
negative feedback
neighborhood size
?
?
!
Signifikancia?
Kruskal - Wallis test
![Page 6: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/6.jpg)
NASADZOVANIE – PRÍPRAVA
• rails, mysql, sphinx, passenger, cron, apache, debian
• Virtuálny stroj od sme.sk
• Monitorovanie výkonu (New Relic RPM)
• záťaž, pamäť, pomalé akcie, databáza, dopyty, indexy...
• Reportovanie chýb (Hoptoad + Redmine)
• pošle mail keď nastane chyba, otvorí/upraví ticket...
• Automatické nasadzovanie (capistrano)
• stiahne novú verziu z repozitára, migrácie db, crontab, symlink,
restart...
![Page 7: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/7.jpg)
NASADZOVANIE - REALITA
• Virtuálny stroj sme.sk >> nimbus.fiit.stuba.sk
• Monitorovanie výkonu #win
• Notifikácia chýb + Redmine #fail
• MySQL
• pri tabuľkách s >10M riadkov končí sranda
• query planner je niekedy sprostejší ako ja #fail
• Automatické nasadzovanie #win
• príkaz na vypnutie služby (.htaccess redirect 400)
![Page 8: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/8.jpg)
NASADZOVANIE - REALITA
• Virtuálny stroj sme.sk >> nimbus.fiit.stuba.sk
• Monitorovanie výkonu #win
• Notifikácia chýb + Redmine #fail
• MySQL
• pri tabuľkách s >10M riadkov končí sranda
• query planner je niekedy sprostejší ako ja #fail
• Automatické nasadzovanie #win
• príkaz na vypnutie služby (.htaccess redirect 400)
![Page 9: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/9.jpg)
NASADZOVANIE - REALITA
• Virtuálny stroj sme.sk >> nimbus.fiit.stuba.sk
• Monitorovanie výkonu #win
• Notifikácia chýb + Redmine #fail
• MySQL
• pri tabuľkách s >10M riadkov končí sranda
• query planner je niekedy sprostejší ako ja #fail
• Automatické nasadzovanie #win
• príkaz na vypnutie služby (.htaccess redirect 400)
![Page 10: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/10.jpg)
NASADZOVANIE - REALITA
• Virtuálny stroj sme.sk >> nimbus.fiit.stuba.sk
• Monitorovanie výkonu #win
• Notifikácia chýb + Redmine #fail
• MySQL
• pri tabuľkách s >10M riadkov končí sranda
• query planner je niekedy sprostejší ako ja #fail
• Automatické nasadzovanie #win
• príkaz na vypnutie služby (.htaccess redirect 400)
![Page 11: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/11.jpg)
10%!
SPUSTENIE
• pondelok 8.11.
• o 4 hodiny neskôr
• don’t panic!
• 1 jadro + 2GB RAM => 4 jadrá + 3GB RAM
• hacky hack!
• utorok 9.11.
• streda 10.11 7:30am
• mašina je mŕtva
![Page 12: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/12.jpg)
10%! SPUSTENIE
• pondelok 8.11.
• o 4 hodiny neskôr
• don’t panic!
• 1 jadro + 2GB RAM => 4 jadrá + 3GB RAM
• hacky hack!
• utorok 9.11.
• streda 10.11 7:30am
• mašina je mŕtva
![Page 13: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/13.jpg)
SPUSTENIE
• pondelok 8.11.
• o 4 hodiny neskôr
• don’t panic!
• 1 jadro + 2GB RAM => 4 jadrá + 3GB RAM
• hacky hack!
• utorok 9.11.
• streda 10.11 7:30am
• mašina je mŕtva
![Page 14: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/14.jpg)
OHLASY
• etrend
![Page 15: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/15.jpg)
OHLASY
• etrend
![Page 16: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/16.jpg)
OHLASY
• etrend
• diskusie sme.sk
![Page 17: sme.sk čočítať ontožíur-2010](https://reader034.vdocuments.site/reader034/viewer/2022052507/5581d297d8b42ae06c8b5385/html5/thumbnails/17.jpg)
OHLASY
• etrend
• diskusie sme.sk