dagens næringslivs overgang til lucene/solr søk
DESCRIPTION
Foredrag på GoOpen, Oslo, 2011 (Norwegian language) NHST Media Group lager nettsidene for bl.a. Dagens Næringsliv, Dagens IT og en rekke engelskspråklige bransjeaviser. Systemutvikler Hans Jørgen Hoel og søke-arkitekt Jan Høydahl forteller om prosessen etter at det ble besluttet å erstatte søkeløsningen fra FAST med fri programvare Apache Solr. Vi vil forsøke å besvare bl.a.: Hvilke utfordringer møtte vi som følge av forskjeller i de to plattformene? Hvorfor bygde vi vårt eget søkerammeverk? Har det nye søket innfridd forventningene? Se også www.goopen.no, www.cominvent.com og www.nhst.no og Twitter hashtag #GoOpenTRANSCRIPT
Oppgradert søk på m.fl
Hans Jørgen HoelJan Høydahl
Hans Jørgen Hoel
Jan Høydahl
1995: Utvikler telecom1998: Java-utvikler2000: Søk - FAST2006: Lucene2007: new Cominvent()2009: Lucene/SolrCa 100 prosjekter
Virksomhetskritisk søkLucene/Solr og FAST
Domenekunnskap & beste praksis!
Konsulent Kurs(www.solrkurs.no)
Support
Agenda
Bakgrunn for prosjektetArkitektur førSøk ABC, intro til SolrProsjektgjennomføringOppsummering, Q&A
Bakgrunn for prosjektet
Stort antall artikler både på papir og nettFAST ESP som plattform for søk fra 2006Apache Solr for skattelistesøk NHST bruker i stor grad Java og mye åpen programvareDa FAST ble kjøpt opp måtte hele løsningen vurderesEndte opp med å gå for SolrBrakte inn Jan som konsulent
Arkitektur før prosjektet
Søk er ikke databaseOptimalisert for fritekst søkMen god på AND/OR søk
Kommersielle:
Open Source:
Bruksområder:
Søkemotor ABC
X
+++
Apache Solr
Open Source søk - etterspurt??
Prosjektet
Søke-mellomvareNytt presentasjonslag for søkUtfordringerFAST ut -- Solr innOptimalisering/tuning
Arkitektur før prosjektet
Etter overgang til Solr
Multicores
Utfordringer
FAST er en søke-plattform, Solr er rent søkProsessering av kildedataSpråkstøtteEntiteter (personer, steder, firmaer)
FAST - Solr forskjeller
En indeks, delt inn med collections
Flere indekser (cores), hver med sitt eget skjema
Lemmatisering:bil, biler, bilene => bilbillig, billigere => billig
Stemming:bil, biler, bilene => bilbillig => bilbilligere => billiger
Meget bra fler-språklig støtte Mer begrenset. Vi bygget inn språk-støtte i rammeverket
Etter overgang til Solr
Multicores
Tuning for nyhetssøk
Hva er viktigste faktor for nyhets-søk?Ferskvare !
umiddelbar indekseringdato-boost i søkSolr Function Query
recip( ms(NOW,publishdate), 3.16e-11, 0.5, 0.5)^4000.0
Funksjoner for de fleste behov...
literal()fieldvalue()ord()rord()sum()sub()product()div()pow()abs()log()sqrt()map()strdist()
scale()query()linear()recip()max()min()ms()rad()deg()sqrt()cbrt()ln()exp()top()
sin()cos()tan()asin()acos()atan()sinh()cosh()tanh()ceil()floor()rint()pow()hypo()
pi()e()docfreq()termfreq()idf()tf()norm()maxdoc()numdocs()dist()sqedist()hsin()geohash()atan2()
Oppsummering / gevinster
Solr mye mindre ressurskrevende enn FASTKan til og med kjøres virtualisertRyddigere arkitektur, separate kjerner og skjemaerTjent mye på felles søkemellomvare og presentasjonslagGode muligheter for tuning Noen utfordringer, men alt i alt veldig fornøyd