dagens næringslivs overgang til lucene/solr søk

Post on 28-Nov-2014

2.126 Views

Category:

Business

1 Downloads

Preview:

Click to see full reader

DESCRIPTION

Foredrag på GoOpen, Oslo, 2011 (Norwegian language) NHST Media Group lager nettsidene for bl.a. Dagens Næringsliv, Dagens IT og en rekke engelskspråklige bransjeaviser. Systemutvikler Hans Jørgen Hoel og søke-arkitekt Jan Høydahl forteller om prosessen etter at det ble besluttet å erstatte søkeløsningen fra FAST med fri programvare Apache Solr. Vi vil forsøke å besvare bl.a.: Hvilke utfordringer møtte vi som følge av forskjeller i de to plattformene? Hvorfor bygde vi vårt eget søkerammeverk? Har det nye søket innfridd forventningene? Se også www.goopen.no, www.cominvent.com og www.nhst.no og Twitter hashtag #GoOpen

TRANSCRIPT

Oppgradert søk på m.fl

Hans Jørgen HoelJan Høydahl

Hans Jørgen Hoel

Jan Høydahl

1995: Utvikler telecom1998: Java-utvikler2000: Søk - FAST2006: Lucene2007: new Cominvent()2009: Lucene/SolrCa 100 prosjekter

Virksomhetskritisk søkLucene/Solr og FAST

Domenekunnskap & beste praksis!

Konsulent Kurs(www.solrkurs.no)

Support

Agenda

Bakgrunn for prosjektetArkitektur førSøk ABC, intro til SolrProsjektgjennomføringOppsummering, Q&A

Bakgrunn for prosjektet

Stort antall artikler både på papir og nettFAST ESP som plattform for søk fra 2006Apache Solr for skattelistesøk NHST bruker i stor grad Java og mye åpen programvareDa FAST ble kjøpt opp måtte hele løsningen vurderesEndte opp med å gå for SolrBrakte inn Jan som konsulent

Arkitektur før prosjektet

Søk er ikke databaseOptimalisert for fritekst søkMen god på AND/OR søk

Kommersielle:

Open Source:

Bruksområder:

Søkemotor ABC

X

+++

Apache Solr

Open Source søk - etterspurt??

Prosjektet

Søke-mellomvareNytt presentasjonslag for søkUtfordringerFAST ut -- Solr innOptimalisering/tuning

Arkitektur før prosjektet

Etter overgang til Solr

Multicores

Utfordringer

FAST er en søke-plattform, Solr er rent søkProsessering av kildedataSpråkstøtteEntiteter (personer, steder, firmaer)

FAST - Solr forskjeller

En indeks, delt inn med collections

Flere indekser (cores), hver med sitt eget skjema

Lemmatisering:bil, biler, bilene => bilbillig, billigere => billig

Stemming:bil, biler, bilene => bilbillig => bilbilligere => billiger

Meget bra fler-språklig støtte Mer begrenset. Vi bygget inn språk-støtte i rammeverket

Etter overgang til Solr

Multicores

Tuning for nyhetssøk

Hva er viktigste faktor for nyhets-søk?Ferskvare !

umiddelbar indekseringdato-boost i søkSolr Function Query

recip( ms(NOW,publishdate), 3.16e-11, 0.5, 0.5)^4000.0

Funksjoner for de fleste behov...

literal()fieldvalue()ord()rord()sum()sub()product()div()pow()abs()log()sqrt()map()strdist()

scale()query()linear()recip()max()min()ms()rad()deg()sqrt()cbrt()ln()exp()top()

sin()cos()tan()asin()acos()atan()sinh()cosh()tanh()ceil()floor()rint()pow()hypo()

pi()e()docfreq()termfreq()idf()tf()norm()maxdoc()numdocs()dist()sqedist()hsin()geohash()atan2()

Oppsummering / gevinster

Solr mye mindre ressurskrevende enn FASTKan til og med kjøres virtualisertRyddigere arkitektur, separate kjerner og skjemaerTjent mye på felles søkemellomvare og presentasjonslagGode muligheter for tuning Noen utfordringer, men alt i alt veldig fornøyd

top related