1 keuzes in het zoekproces en structuur van het web jeroen bosman vogin, 17 november 2008 wageningen

26
1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

Upload: tine-vermeiren

Post on 08-Jun-2015

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

1

Keuzes in het zoekproces en

structuur van het web

Jeroen Bosman

VOGIN, 17 november 2008 Wageningen

Page 2: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

2

Page 3: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

3

Page 4: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

4

Kenmerken zoekexpert

• Kennis onderwerp• Bronnenkennis• Kennis zoektools• Talenkennis, taalcreativiteit• Logica

• Zorgvuldig gebruik zoektools• Snelheid• Reflectie op eigen zoekproces

Page 5: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

5

Zoeksystematiek1. Vraaganalyse

• Wensen ‘opdrachtgever’• Verkenning• Opstellen zoekprofiel: waaraan moet de informatie voldoen

2. Aanbod• Keuze ingang(en): zoekmachines, databases, gidsen,

bookmarksites

3. Match• Daadwerkelijk zoeken• Selecteren

4. Nabewerking per relevante bron• Evaluatie• Opslaan, printen, delen• Eventueel doorzoeken via auteurs en verwijzingen uit gevonden

bronnen

5. Nabewerking zoekactie geheel• Bij doorlopende interesse evt. web en page alerts/feeds instellen• Expliciete reflectie op zoekproces en zoekresultaat

6. Vervolg op zoekactie• Eventueel andere ingangen of geheel andere typen bronnen

(gedrukte literatuur, deskundigen)• Reflectie

Page 6: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

6

Vraaganalyse 1: wensen opdrachtgever

• Opdrachtgever: wat wil men met de informatie?

• Voorwaarden aan aard van informatie (onderzoek, opinie, peer reviewed, actualiteit etc.)

• Randvoorwaarden: tijd, geld, vertrouwelijkheid

• Rapportagevorm (inhoudelijk, technisch)

Page 7: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

7

Vraaganalyse 2: Verkenning

• Welke vraag/onderwerp• Wat ligt er al, nuttig als uitgangspunt?• Inhoudelijk verkennen (via bv

Wikipedia of ander naslagwerk of via korte zoekactie)

• Ideeën opdoen qua context, jargon, zoektermen, typen bronnen, auteurs

Page 8: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

8

Vraaganalyse 3: Zoekprofiel

• Onderscheiden elementen (variabelen)• Welke?• Allebei even belangrijk?

• Vooraf genereren zoektermen• Uit reeds gevonden bronnen• Uit naslagwerken/zoekacties van verkenningsfase• Uit woordenboeken, thesauri (Het juiste woord, Roget’s Thesaurus)

• Afbakening in tijd, ruimte, speciale omstandigheden waaronder een proces moet spelen

• Relevante typen informatie en publicaties• Relevante publicatieperiode

Page 9: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

9

Aanbod: Keuze zoekingang

• Bepaald door zoekprofiel: onderwerp, type informatie, type publicatie, relevante publicatiejaren

• Bepaald door beschikbaarheid: toegankelijkheid, kosten, licenties

• Bepaald door extra wensen:– Zoekmethode: catalogus-, bibliografische,

sneeuwbal(citatie)methode (op het web: zoekmachines, gidsen/directories, backlinks)

– Zoeken in full-text, links naar full-text• Ook letten op volgorde ingangen (dekking,

bekendheid, selectiviteit)• Zie voor links naar ingangen de ‘startpagina’ bij

deze cursus

Page 10: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

10

Match 1: Daadwerkelijk zoeken

• Let op woordvarianten en spelling:• Varianten in OR-relatie of:• Trunceren: alles wat met woordstam begint (alleen Exalead) • Automatische “stemming” (enkel-/meervoud enz. bij Google?)• Oxford-English of American–English (s/z, ou/o)• Samenstellingen in Engels los: kwaliteitscontrole > quality

control• Denken in termen van het te vinden document

(jargon/slang), gebruik zinsnedes / exact phrase met “… …”

• Gebruik termsuggesties– voor zoekactie Yahoo, Google Suggest – na zoekactie: Ask, Exalead, Quintura

• Gewicht aanbrengen met zoektermherhaling in Google• Voorbeeldzoeken voor ‘lijstjes’• Iteratief proces: één of meer keren snelle beoordeling

zoekresultaat en aanpassing termen/instellingen– Aantallen treffers: wel letten op veranderingen, niet op absolute

niveau

Page 11: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

11

Match 2: Selectie op relevantie

• De rangorde: beïnvloeden, vertrouwen of alles bekijken?

• Meer dan titels, bij boeken/artikelen: • samenvattingen• citaties• omvang (bv LexisNexis)

• Bij web: • domein/organisatie• wel/niet PDF• omvang (in KB, vooral zinnig bij PDF)

Page 12: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

12

Nabewerking per bron I: beoordeling

• Formeel (vooral bij websites): – Aanduiding maker/auteur

(“about us”)– Aanduiding postadres,

telefoonnummer– Aanduiding doel/doelgroep– Goede opmaak– Geen reclame en pop-ups– Heldere navigatie– Interne zoekfunctie– Voldoende snelheid server– Backlinks door

gezaghebbende organisaties

– Up to date?– Zinnige datering inhoud– Geen grof taalgebruik– Geen kinderlijk taalgebruik– Geen storende taalfouten

• Inhoudelijk (vooral bij reguliere publicaties) – Status bron (peer

reviewed, uitgever, gezaghebbende instantie)

– Plaats in citatienetwerk (door wie, hoe vaak)

– Bronvermelding (voldoende, geen kernpublicaties gemist)

Page 13: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

13

Nabewerking per bron II:

• opslaan (mail, document, endnote/refworks/zotero e.d)

• versturen (handmatig, vanuit systeem)

• bookmark (browser, delicious, connotea, citeUlike etc.)

• alert/spion• RSS-feed

Page 14: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

14

Vervolg op zoekactie: Reflectie

• Hoeveel gevonden in hoeveel tijd?• Voldoet oogst aan zoekprofiel?• Welke aspecten van zoekprofiel waren meest

selectief?• Waren alle vooraf bedachte ingangen even

nuttig?• Wat was de overlap tussen de ingangen?• Goede volgorde ingangen gehanteerd?• Iets geleerd over eigen sterke/zwakke punten?

Page 15: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

15

Systematisch zoeken: toegepast op internetzoeken

Page 16: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

16

domeinen• soorten top-level-domains (TLD) iso-3166

– generiek: • com / org / net (vrij)• int / edu / gov / mil / arpa (beperkt)

– landen: nl/be/au/at/de/uk/us (ccTLD’s, 34%)– jump: tv / nu / to / tk– nieuw: biz/info/name/coop/pro/aero

• generieke ‘subtopleveldomeinen’:co / gob / ac / org etc. (zie bv. http://www.derbal.com/domains.html)

Page 17: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

17

opbouw URL

• protocol : // servernaam . subdomein . domein . TLD / map / filenaam . extensie

• http : // www . library . uu . nl / geosource / index . html

Page 18: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

18

URL’s van databasepagina’s

• http://hardy.library.uu.nl:4505/ALEPH0/SESSION66067604868/scan?VALUE=geografische+huis&SCAN=TIT

• http://www.ussc.alltheweb.com/cgi-bin/advsearch?offset=40&terms=3&type=any&query=utrecht&exec=FAST+Search&lang=any&enco=iso-88591&A1=+&A2=%2B&A3=-&hits=10&nooc=on

Page 19: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

19

zoektools: wanneer wat?

• indien zoekvraag feitelijk, specialistisch, met voorkennis, onder tijdsdruk:

zoekmachines• indien zoekvraag breed, exploratief,

inventariserend, met weinig voorkennis, met relatief veel tijd:

onderwerpsgidsen

Page 20: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

20

Onderwerpsgidsen: algemeen

+ geen zoektermen

nodigvaak actueelannotatiesweinig ruis

-

onvolledigdode linksvoorkeur makerhoudt groei niet bijvoor homepages

Page 21: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

21

Onderwerpsgidsen• Alle onderwerpen: Open Directory, Yahoo• Nederlands: startpagina, meta: startnederland• Breed wetenschappelijk: Intute, Infomine, BUBL• Zoeken:

– via Yahoo (per onderwerp onder ‘webdirectories’)– via Open Directory– via Pinakes (wetenschappelijk)

• Tijd besteden aan vinden van goede onderwerpsgidsen:– via collegae– via discussielijsten

Page 22: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

22

Zoekmachines: dekking

• > 15% van de webpagina’s in geen enkele van de grootste zoekmachines

• van resterende wel geïndexeerde pagina’s zelfs Google maar 76%, Yahoo 69%, MSN 62% (http://www.cs.uiowa.edu/~asignori/web-size/)

• dekking zeer ongelijkmatig• verschil in actualiteit

Page 23: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

23

Zoekmachines: ontwikkeling• 1994 Webcrawler, Lycos, Alta Vista (10)

• 1995 concurrentie Hotbot, Excite, Yahoo (50)• 1997 Northern Light, MSN, sterke groei web > 200• 1999 opkomst Google en Alltheweb en crisis Infoseek, Northern

Light, AV, Excite, ILSE o.a. (100)• 2002 komst Teoma, Wisenut, Gigablast (1000)• 2003 renaissance AV, glorietijd Google (3000)

• 2004 consolidatie/concurrentie (4000):– Google+Blogger, verbreding: boeken, kritiek, beursgang– Overture+Alltheweb+AV+Yahoo, ontmanteling AV/ATW– Microsoft: introductie MSNsearch beta: zelf indexeren

• 2005 verbreding/innovatie/content (5000-10000)– Samenwerking content providers-zoekmachines?– Teoma wordt Ask en opkomst Amazon met A9– Doorgroei Gigablast (2000)

• 2006-2007 puur zoeken raakt op achtergrond (20000-40000)– Live gelanceerd, YouTube gekocht– uploaden, web 2.0– gemengde content (Google universal, iGoogle bv.)– specifieke diensten (Google CSE bv)

Page 24: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

24

Zoekmachines: wat vind je niet?

• recente webpagina’s/wijzigingen• dynamisch gegenereerde pagina’s• informatie in databases• pagina’s met no robots file• pagina’s met toegangsrestricties• verdwenen pagina’s (maar: cache en

Wayback Machine archive.org)

Page 25: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

25

Zoekmachines: beperkingen Google

• genest Booleaans zoeken > Yahoo/Live/Exalead/Gigablast

• backlinksindex vrij klein > Yahoo• zeer grote pagina’s niet volledig

geïndexeerd > Yahoo• truncatie, nabijheids- en patroonzoeken

> Exalead• daterange zoeken >

Altavista/Alltheweb/Exalead

Page 26: 1 Keuzes in het zoekproces en structuur van het web Jeroen Bosman VOGIN, 17 november 2008 Wageningen

26

Land/taalversies Google

•Interfacetaal– beinvloedt ook resultaat!

•Taalinstelling zoekactie– voorkeuren of eenmalig

•Landsversie: – beinvloedt ranking sterk– ncr