dagens næringslivs overgang til lucene/solr søk

19
Oppgradert søk på m.fl Hans Jørgen Hoel Jan Høydahl

Upload: cominvent-as

Post on 28-Nov-2014

2.126 views

Category:

Business


1 download

DESCRIPTION

Foredrag på GoOpen, Oslo, 2011 (Norwegian language) NHST Media Group lager nettsidene for bl.a. Dagens Næringsliv, Dagens IT og en rekke engelskspråklige bransjeaviser. Systemutvikler Hans Jørgen Hoel og søke-arkitekt Jan Høydahl forteller om prosessen etter at det ble besluttet å erstatte søkeløsningen fra FAST med fri programvare Apache Solr. Vi vil forsøke å besvare bl.a.: Hvilke utfordringer møtte vi som følge av forskjeller i de to plattformene? Hvorfor bygde vi vårt eget søkerammeverk? Har det nye søket innfridd forventningene? Se også www.goopen.no, www.cominvent.com og www.nhst.no og Twitter hashtag #GoOpen

TRANSCRIPT

Page 1: Dagens Næringslivs overgang til Lucene/Solr søk

Oppgradert søk på m.fl

Hans Jørgen HoelJan Høydahl

Page 2: Dagens Næringslivs overgang til Lucene/Solr søk

Hans Jørgen Hoel

Page 3: Dagens Næringslivs overgang til Lucene/Solr søk

Jan Høydahl

1995: Utvikler telecom1998: Java-utvikler2000: Søk - FAST2006: Lucene2007: new Cominvent()2009: Lucene/SolrCa 100 prosjekter

Page 4: Dagens Næringslivs overgang til Lucene/Solr søk

Virksomhetskritisk søkLucene/Solr og FAST

Domenekunnskap & beste praksis!

Konsulent Kurs(www.solrkurs.no)

Support

Page 5: Dagens Næringslivs overgang til Lucene/Solr søk

Agenda

Bakgrunn for prosjektetArkitektur førSøk ABC, intro til SolrProsjektgjennomføringOppsummering, Q&A

Page 6: Dagens Næringslivs overgang til Lucene/Solr søk

Bakgrunn for prosjektet

Stort antall artikler både på papir og nettFAST ESP som plattform for søk fra 2006Apache Solr for skattelistesøk NHST bruker i stor grad Java og mye åpen programvareDa FAST ble kjøpt opp måtte hele løsningen vurderesEndte opp med å gå for SolrBrakte inn Jan som konsulent

Page 7: Dagens Næringslivs overgang til Lucene/Solr søk

Arkitektur før prosjektet

Page 8: Dagens Næringslivs overgang til Lucene/Solr søk

Søk er ikke databaseOptimalisert for fritekst søkMen god på AND/OR søk

Kommersielle:

Open Source:

Bruksområder:

Søkemotor ABC

X

+++

Page 9: Dagens Næringslivs overgang til Lucene/Solr søk

Apache Solr

Page 10: Dagens Næringslivs overgang til Lucene/Solr søk

Open Source søk - etterspurt??

Page 11: Dagens Næringslivs overgang til Lucene/Solr søk

Prosjektet

Søke-mellomvareNytt presentasjonslag for søkUtfordringerFAST ut -- Solr innOptimalisering/tuning

Page 12: Dagens Næringslivs overgang til Lucene/Solr søk

Arkitektur før prosjektet

Page 13: Dagens Næringslivs overgang til Lucene/Solr søk

Etter overgang til Solr

Multicores

Page 14: Dagens Næringslivs overgang til Lucene/Solr søk

Utfordringer

FAST er en søke-plattform, Solr er rent søkProsessering av kildedataSpråkstøtteEntiteter (personer, steder, firmaer)

Page 15: Dagens Næringslivs overgang til Lucene/Solr søk

FAST - Solr forskjeller

En indeks, delt inn med collections

Flere indekser (cores), hver med sitt eget skjema

Lemmatisering:bil, biler, bilene => bilbillig, billigere => billig

Stemming:bil, biler, bilene => bilbillig => bilbilligere => billiger

Meget bra fler-språklig støtte Mer begrenset. Vi bygget inn språk-støtte i rammeverket

Page 16: Dagens Næringslivs overgang til Lucene/Solr søk

Etter overgang til Solr

Multicores

Page 17: Dagens Næringslivs overgang til Lucene/Solr søk

Tuning for nyhetssøk

Hva er viktigste faktor for nyhets-søk?Ferskvare !

umiddelbar indekseringdato-boost i søkSolr Function Query

recip( ms(NOW,publishdate), 3.16e-11, 0.5, 0.5)^4000.0

Page 18: Dagens Næringslivs overgang til Lucene/Solr søk

Funksjoner for de fleste behov...

literal()fieldvalue()ord()rord()sum()sub()product()div()pow()abs()log()sqrt()map()strdist()

scale()query()linear()recip()max()min()ms()rad()deg()sqrt()cbrt()ln()exp()top()

sin()cos()tan()asin()acos()atan()sinh()cosh()tanh()ceil()floor()rint()pow()hypo()

pi()e()docfreq()termfreq()idf()tf()norm()maxdoc()numdocs()dist()sqedist()hsin()geohash()atan2()

Page 19: Dagens Næringslivs overgang til Lucene/Solr søk

Oppsummering / gevinster

Solr mye mindre ressurskrevende enn FASTKan til og med kjøres virtualisertRyddigere arkitektur, separate kjerner og skjemaerTjent mye på felles søkemellomvare og presentasjonslagGode muligheter for tuning Noen utfordringer, men alt i alt veldig fornøyd