jiří koutný - collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Jiří Koutný

Collabim a Serpo

700+klientů

6členů týmu

měření pozic ve vyhledávačích a sledování konkurence

Collabim

Serpo.cz

● Denně 300 000 sledovaných frází● Denně 700 000 stránek vyhledávání (~70 GB)● 8 000 proxies● 170 GB MySQL● 40 GB ElasticSearch

Desatero scrapování Google1. Public/shared proxies jsou k ničemu2. Lepší více proxies než Selenium/PhantomJS3. Ideálně 1 dotaz za 5 - 10 minut4. XPath v kombinaci s regulárními výrazy je mocná zbraň5. Vždycky si ukládejte původní HTML source6. 100% úspěšnost je zbytečná7. Spoléhejte se jen na sebe8. PHPčko je “good enough” a “fast enough”9. MultiCURL/guzzlephp

10. Doctrine2 je fajn na frontend, ale ne do workerů

CollabimApp

MailQueueBilling

CollabimTracker

Microservices!

Serpo: Jak ukládat historická data?

20 GB každých 14 dnů

jednou je uložíme a už se němění

nechceme je zálohovat pořád dokola

CollabimTracker

Hlavní bolest - ElasticSearch - Red is dead!● Verzi < 2.0 nedoporučuji, půlka věcí je jinak● Type nejde ani promazat ani celý smazat (jen index)● Žádné BATCH DELETE by condition● JSON query DSL ☠ !● Indexujete moc rychle? Spadne● Kill query neexistuje● Spadlý node se oživuje hodinu až dvě● Žádný EXPLAIN ani profiling● UPDATE zahodí celý původní dokument a vytvoří nový -> pomalé● Agregace jsou hodně omezené

Čím nahradit ElasticSearch?● Málo zápisů, hodně čtení● Hodně agregací, průniky množin, vztahy mezi weby● Non-blocking/batch query knihovna pro PHP● MongoDB?● PostgreSQL?● …?

Díky! Jiří Koutnýkoutny@serpo.cz

jiří koutný - collabim: jak scrapujeme 700 000 stránek vyhledávačů denně

Internet

3. affiliate konference / jak se stát miláčkem...

m u 5 e u m -...

desná collection - preciosa · 2020-03-09 · á,...

vlákna a winapi - kiv.zcu.cz win threads.pdf · ppr 6...

Školení, tvorba webových stránek, seo - © tomáš...

koutnÝ, f. leonhard euler - zas.cz · diferenciální...

městská policie Ústí nad labem labem pořádá ·...

městská policie Ústí nad labem labem pořádá ·...

svlékněte konkurenci donaha: jiří koutný, collabim

koutnÝ - obleky na míru - katalog 2014

bim game - education.gouv.fr...collabim un projet pacte...

visibility digital.cz - sem - jaké postupy využít, aby...

přehled vyhledávačů a ppc systémů

co nÁs ČekÁ v roce 2021? · 2020. 12. 30. · - 2 - z...

základy seo - rychlavyuka.cz · 2019. 1. 12. · seo...

jak se stát miláčkem vyhledávačů

f. koutnÝ zlín - zas · f. koutnÝ: pierre simon de...

formation gratuite - pôle énergie franche-comté...a...

analytickÉ, propagaýnÍ a firemnÍ nÁstroje v...

aktualizace vyhledávačů google a seznam