pronalaženje informacija na internetu · pronalaženje informacija na internetu. 1/58 sadržaj •...

Post on 14-Feb-2020

12 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

0/58

Pronalaženje informacijana Internetu

1/58

Sadržaj

• Internetski prostor informacija• Mrežni izvori informacija (resursi)• Identifikacija mrežnih resursa• Meta podaci (metadata)• Pretraživanje mrežnih resursa (posebno Weba)• Servisi imena

2/58

Prostor informacija

Web

InternetPisane

informacije

ostalo

3/58

Internetski prostor informacija• NIJE UREĐEN - unificiran• Postoje različiti izvori informacija (resursi)• Mnoštvo tema• Informacije su dostupne u različitim

formatima• Pristup je moguć pomoću različitih alata

(programa)• Postoje informacije koje (još) nisu:

– publikovane u elktronskom obliku– dostupne putem mreže

4/58

Internetski prostor informacija

Mnoštvo dostupnih tema i formata:

• dokumenta različitog formata• multimedijalni zapisi• elektronska izdanja novina, časopisa, knjiga, ...• katalozi, ...• baze podataka• javno dostupna programska podrška• ...• zabava ...

5/58

Mrežni izvori informacija (resursi)

• Informacije se publikuju pomoću različitih Internet servisa:– Web– FTP arhive– mailing liste– mrežne novine (USENET)– elektronska pošta– baze podataka dostupne putem mreže– ...

6/58

Web prostor informacija

• 85% korisnika koristi pretraživačke mahanizme ili tematske kataloge kako bi pronašli informacije

.

• korisnici smatraju da je Internet važan izvor informacija– 2/3 korisnika smatra da je Internet važan ili vrlo

važan izvor informacija

7/58

Problemi?• velika očekivanja korisnika• alati i mehanizmi

– još uvijek nedovoljno dobri– u stalnom razvoju

• prostor informacija nije (dobro) organizovan • nepouzdana:

– kvaliteta informacija– integritet informacija– povjerenje u izvor informacija

8/58

Znate li ...

• ko je bila prva žena pilot u nekoj komercijalnoj avio-kompaniji? Možete li pronaći njenu sliku (traži se tačna URL adresa)?

•Odgovor: Helen Richey; da (http://iswap.org/images/richey.jpg)•Put: Koristimo Google s upitom "first woman airline pilot". Jedan od prvih 10 odgovora je i link na ISAfaqs.html Web stranicu.•URL: http://iswap.org/ISAfaqs.html

9/58

Identifikacija mrežnih resursa

• URI - Uniform Resource Identifier (RFC 2396)– URL - Uniform Resource Locator (RFC 1630, RFC 1738)

• određuje: način pristupa, adresu računala, naziv datoteke ...• protocol://host_name[:port_num][/path][/file_name]• PURL - Persistent URL

– URN - Uniform Resource Name (RFC 1737, RFC 2141)

• URC - Uniform Resource Characteristics– podaci o mrežnom resursu– metadata = podaci o podacima

10/58

Sistemi za pretraživanje

• mnoštvo različitih sistema (alata)• većinom su specijalizirani za pretraživanje određenih

resursa• (gotovo) svi alati imaju Web izgled• pretraživanje može biti globalno ili lokalno• nema savršenog niti sveobuhvatnog alata• opterećeni su problemom ažurnosti i/ili kvalitete• postoje alati koji se temelje na Webu, ali ne pretražuju

Web resurse

11/58

Sistemi za pretraživanje Web-a

• Pretraživači (search engines)– pretraživači(search engines)– metapretraživači (metasearch engines, unified search

interfaces)• Tematski katalozi (subject catalogs, subject

directories, ...)– po pravilu pretraživi (searchable indexes, searchable

catalogs)• Portali

12/58

Pretraživači

• automatski sistemi• prikupljaju informacije o mrežnim resursima i

omogućuju pretraživanje prikupljenih informacija• posebni programi - roboti (robot, crawler, spider)

– skeniraju dostupne mrežne resurse (Web stranice)– grade/održavaju pretraživu kolekciju podataka (bazu

podataka)• sistem za pretraživanje (baze podataka)

– Web interfejs omogućuje korisniku postavljanje upita– posebna pravila za postavljanje upita– ispis rezultata pretraživanja (hits)

13/58

Web

dokumenti

http:// ...

baza podataka

Pretraživač

robot

Pretraživači

14/58

Roboti

• mogu jako opteretiti i mrežu i računar (klijent)– vodite brigu o robotima, ali i o tuđim resursima

• postoje pravila ponašanja (etika) za robote:– robot exclusion protocol– ROBOT META tag

• korisne URL adrese:– http://info.webcrawler.com/mak/projects/robots/robots.html– http://www.searchenginewatch.com/webmasters/spiderchart.html

15/58

Robot Exclusion Protocol

• može ga koristiti samo osoba s pravom pisanja u odgovarajućem direktoriju (webmaster)

• robot.txt datoteka– posebna sintaksa– u početnom direktoriju Web poslužitelja– URL: http://hostname/robots.txt

• primjer:User-agent: *Disallow: /archives/Disallow: /radni/

16/58

Pretraživači

Google - http://www.google.com/GO.com (InfoSeek) - http://www.go.com/Lycos Search - http://www.lycos.com/Alta Vista - http://www.altavista.com/excite! NetSearch - http://www.excite.com/HotBot - http://hotbot.lycos.com/WebCrawler - http://www.webcrawler.com/Nothern Light Search - http://www.northernlight.com/FAST - http://www.alltheweb.com/Raging Search - http://ragingsearch.altavista.com/

Lokalni pretraživačhttp://krstarica.com/

17/58

PretraživačiPostavljanje upita

• Sintaksa upita i spektar mogućnosti zavisi od pretraživača– postoji standardni spektar mogućnosti

(uporaba malih i velikih slova, fraze, kontrola ključnih riječi, …)

• Moguć je izbor resursa koje pretražujemo– Web ili neki drugi resursi; čitavi dokumenti ili samo

naslovi, ...• Korisno je pri prvom susretu s nekim alatom

pročitati raspoložive upute ili HELP

18/58

• uporaba malih i velikih slovaJohn Decemberisland

• uporaba fraza“John December”“NASA Space shuttle program”

• uporaba logičkih operatora (AND, OR, NOT)vegetables AND greenfruit NOT apple

• kontrola ključnih riječi (+, -)+film +noir -”pinot noir”+python -monty

PretraživačiPostavljanje upita

19/58

• susjednost - proximity searchInternet NEAR training

• uporaba dijelova (korijena) riječi (truncation; stemming) – wildchars: *, ?, %alumi*umcomput*

• kontrola resursatitle:”Internet training” (AltaVista, HotBot, …)host:www.fer.hr (AltaVista)cache: www.carnet.hr (Google)

PretraživačiPostavljanje upita

20/58

• Baza podataka (veličina, ažurnost, složenost) / 2001.• Google - 1000 miliona Web stranica• INKTOMI - 500 miliona Web stranica• AltaVista - 550 miliona Web stranica• FAST - 625 miliona Web stranica

• Mogućnosti postavljanja (složenih) upita• Brzina rada (odziv)• Rangiranje rezultata (ranking)• Kvaliteta i mogućnost kontrole ispisa• Dodatne mogućnosti

(kaskadno pretraživanje/profinjavanje upita, ...)

Pretraživačisvojstva

21/58

Tematski katalozi

• tematski organizovane kolekcije podataka o odabranim mrežnim resursima (odabrani resursi klasifikovani po temama)

• sadrže URL adrese mrežnih resursa • mogu sadržati i nazive resursa, sažetke, ...• ne održavaju se automatski (programski) već

se baziraju na radu urednika

22/58

Tematski kataloziPrimjeri

Yahoo - http://www.yahoo.com/LookSmart - http://www.looksmart.com/EINet Galaxy - http://galaxy.einet.net/Magellan - http://magellan.excite.com/NetGuide - http://www.netguide.com/About.com - http://www.about.com/Open Directory - http://dmoz.org/

23/58

Tematski kataloziosobine

• veličina (broj klasificiranih resursa) • Yahoo - >100 urednika, 1,8 miliona Webova• Open Directory - 36000 urednika, 2,6 miliona Webova• LookSmart - 200 urednika, 2,5 miliona Webova

• tematsko stablo - način klasifikacije• dodatne informacije o resursima• rangiranje resursa• mogućnost pretraživanja• veze s pretraživačima• dodatne mogućnosti

24/58

• Imenički servisi utemeljeni na Webu– White pages & Yellow pages

• Web alati za pretraživanje ne-Web resursa– USENET (http://www.deja.com/usenet/)– FTP search (http://ftpsearch.lycos.com/)– mailing liste (http://www.liszt.com)– . . .

Ostali sistemi

25/58

• pretraživanje kolekcija (baza) podatakaInivisible Web - http://www.invisibleweb.com/Lycos Seach. DB - http://dir.lycos.com/Reference/Searchable_Databases/INFOMINE - http://infomine.ucr.edu/Terraserver - http://terraserver.com/

• i ... – rečnici, enciklopedije, vodiči, pretražive kolekcije

multimedijalnih sadržaja, ….

PORTALI

Ostali sistemi

26/58

Portali• ulaz u informacioni prostor Interneta• hibridni alat - pravo rješenje • nude pristup (svim) mrežnim servisima na jednom mjestu• temelje se na pretraživačima i/ili tematskom katalogu• nude kvalitetne informacije• nude personaliziran interfejs• opšte ili specijalizovane (tema ili interesna grupa)

– http://cnn.com/– http://www.excite.com/– http://www.yahoo.com/– http://www.ihlth.com/– http://www.digitalessays.com/– ...

27/58

Sistemi za pretraživanje WebaZaključak

• svaka grupa alata ima svojih prednosti i mana• orijentisani su na tekst dokumenta

(multimedijalni zapis nije moguće pretraživati po sadržaju)

• očekuje se da obuhvataju i ne-Web resurse• problemi:

– kako biti ažuran– kako očuvati kvalitetu (precision .vs. recall)– kako odijeliti “mrežno smeće” od kvalitetne informacije

• budućnost je u “intergraciji”• pobjednik: PORTAL• korisna adresa: http://searchenginewatch.com/

28/58

Pretraživanje Web resursaKako pretraživati?

• dobar izbor ključnih riječi je presudan• biti usmjeren ka cilju (Ne lutati!)• treba se koncentrisati na temu, a ne na

postavljanje uputa• ići ka cilju postepeno (profinjavati upite)• upoznati alat (Pročitajte HELP i FAQ!) • biti fleksibilan i probati više različitih

(tipova) alata• graditi vlastite kolekcije zanimljivih

mjesta na mreži (Favorites)

29/58

Imenički servisi

• Directory Services• “Telefonski imenici Interneta”• Omogućuju publiciranje i pronalaženje

elektroničkih adresa i ostalih podataka o pojedincima, ustanovama i resursima u Internetu

• Mogu biti: – lokalni ili globalni– distribuirani ili centralizovani

30/58

Imenički servisi

• Dijele se na:– White Pages - podaci o pojedincima– Yellow Pages - ostalo (ustanove, resursi)

• Koriste se putem:– odgovarajućih klijent programa– Web interfejsa koje olakšava postavljanje upita, ali

smanjuje mogućnost kontrole• Naglasak na White Pages servisima

31/58

Imenički servisi bazirani na Web tehnologiji

• osim Web interfejsa za pojedine imeničke servise postoje i imenički servisi bazirani na Web-u

• primjeri (White Pages):http://www.iaf.net/http://www.four11.com/http://www.whowhere.com/http://www.bigfoot.com/http://www.pc411.com/http://www.switchboard.com/

• primjeri (Yellow Pages):http://www.globalyp.com/world.htmhttp://www.bigbook.com/

top related