Download - Pretrazivanje Interneta 2011
![Page 1: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/1.jpg)
Pretraživanje i upravljanje digitalnim
informacijamaDijana Machala, prof., dipl. knjiž.
Nacionalna i sveučilišna knjižnica u [email protected]
![Page 2: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/2.jpg)
Internet Internet
sustav globalnih nezavisnih međusobno povezanih računalnih umreženja koja komuniciraju pomoću TCP/IP protokola
osmišljen 1969. u okviru istraživačkog programa američkog Ministarstva obrane (ARPANet)
informacijsko središte (hub) gdje ljudi provode većinu svog vremena učeći, igrajući se i komunicirajući globalno jedni s drugima
platforma društvenog medija, Ray Oldenburg – “third places” medij jedan-na-jedan, jedan-na-više, više-na-više, u realnom vremenu i
sinkroniziran platforma za poslovanje, druženje, objavljivanje, političko djelovanje, učenje i sl. ISOC – Internet Society – svjetska organizacija koja se brine o smjernicama
razvoja Interneta 3WC – konzorcij koji se brine za standardizaciju internetskog medija
![Page 3: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/3.jpg)
Barras, Colin. Unknown internet 3: How big is the net? New Scientist, 1 May 2009. URL: http://www.newscientist.com/article/mg20227062.200-unknown-internet-3-how-big-is-the-net.html
![Page 4: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/4.jpg)
Internet Internetski servisi
World Wide Web - koristi HTTP za prijenos web stranica napisanih u HTML-u - to je noviji servis, ali i najbrže rastući
razgovor ili čavrljanje (chat) - koji može biti komunikacija glasom ili pismena komunikacija - primjeri su IRC, ICQ i u zadnje vrijeme sve popularniji Skype
elektronička pošta - koristi POP, SMTP i druge protokole, jedna od prvih usluga na Internetu (1971. Ray Tomlinson osmislio je program koji šalje mail poruke preko mreže; 1976. kraljica Elizabeta II poslala je prvi mail; 73% zaposlenika provede više od sat vremena na mail komunikaciju)
prijenos datoteka - uz standardni FTP danas se sve više koristi peer to peer protokoli
Usenet - mreža namijenjena razmjeni poruka u interesnim grupama
![Page 5: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/5.jpg)
Površinski web Internetski sadržaj:
Površinski web – surface web Dubinski web – deep web, invisible web,
hidden web, darkweb, underweb
Površinski web čini dio ukupnog sadržaja globalne mreže kojeg su dohvatili roboti u svom indeksiranju web prostora.
Sadržaj dohvatljiv tražilicama, odnosno paukovima, robotima, crawlerima, botima …
Nevidljivi web 500 puta je veći od površinskog weba
![Page 6: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/6.jpg)
Nevidljivi web Većinu sadržaja nevidljivog weba čini:
sadržaj baza podataka dinamičke stranice koje se kreiraju na upit stranice koje su označene da ne budu
indeksirane sadržaj koji ne sadrži link niti na jednu drugu
stranicu privatni web sadržaj koji zahtijeva autentifikaciju
(intranet, extranet i druge računalne mreže) sadržaj u formatima različitim od HTML-a ili
teksta (multimedija, JavaScript, video i sl.) dokumente izvan http protokola (gopher, telnet,
ftp) dinamički sadržaj (novosti, avio letovi i sl.) postovi, komentari, FB komunikacija, društvno
označivanje
Pretražuje se pomoću vertikalnog pretraživanja, internetskih imenika, ‘dvorazinskog’ pretraživanja
![Page 7: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/7.jpg)
Internetske adrese URI, URL, URN
definiran standardom RFC 3986/2009 služi za određivanje lokacije i metode pristupa objektima na Internetu. Sastoji
se od naziva protokola koji određuje kako će se pristupiti objektu te mrežnog mjesta zajedno s mogućim upitima i identifikacijskim dijelovima adrese
namjena mu je da upućuje tražilice na određeno mrežno mjesto ili digitalni objekt
Oznaka adrese statičkih, predefiniranih stranica – .html, .pdf, .doc, .rtf, .ps … Primjer: http://www.w3.org/
Dinamički URL obično sadrži sljedeće znakove - ?, &, %, +, =, $, cgi-bin, .cgi Dinamički URL se generira nakon upita na bazu podataka Odnosi se na dinamički i aktivni sadržaj web-a (.asp, .jsp, .php, .cfm) Primjer: http://www.nsk.hr/home.aspx?id=24
PURL – persistent uniform resource locator URL koji se koristi za preusmjerenje adrese tražene mrežne stranice koristi izvorni kod HTTP-a (eror 404, 303) razvio OCLC 1995. godine nedostatak - prevelika ovisnost o DNS serveru
![Page 8: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/8.jpg)
Internetske adrese DOI
DOI – digital object identifier – alfanumerički naziv za jedinstvenu identifikaciju digitalnog sadržaja, kao što je knjiga, članak i sl.
DOI se uparuje s URL adresom unutar središnjeg imenika, te se objavljuje umjesto URL-a
DOI je trajan, dok se adresa dokumenta može mijenjati DOI se dodjeljuje izdavačima i može se koristiti u različitim sustavima i bazama
podataka
Primjer: Green, T (2009), “We Need Publishing Standards for Datasets and Data Tables”, OECD Publishing White Paper, OECD Publishing. doi: 10.1787/603233448430 http://dx.doi.org/10.1787/603233448430
Permalink Permalink – URL ili adresa koja upućuje na
određeni post na blogu ili forumu nakon što je arhivirana
Upotrebljava se u wiki alatu za različite verzije dokumenta
TrackBack protokol – link kojim ćemo se referirati na sadržaj blogova
Primjer: http://en.wikipedia.org/w/index.php?title=Library_of_Alexandria&oldid=435746862
![Page 9: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/9.jpg)
Internetske adrese Wallace Koehler, An Analysis of Web Page and Web Site Constancy and
Permanence, 50 J. AM. SOC. INFO. SCIENCE & TECH. 161, 172 (1999). Poluživot mrežnog mjesta iznosi 2.9 godina Poluživot mrežne stranice iznosi 1.9 godina (statički web)
Adresa mrežnog sadržaja: oznaka vjerodostojnosti i autoriteta na razini sadržaja oznaka trajnosti, pristupačnosti i stabilnosti na razini nosioca sadržaja
Struktura internetske adrese:
[oznaka protokola]://[adrese poslužitelja].[oznaka domene]:[port] http, https
https://www.amazon.com/gp/cart/view.html/ref=lh_co?ie=UTF8&proceedToCheckout.x=129jutarnji.hr
ftp gopher telnet
Primjer: telnet pristup zbirki Bodleiane - http://www.lib.ox.ac.uk/olis telnet://library.ox.ac.uk:23
![Page 10: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/10.jpg)
Internetske adrese Kastomizirana URL adresa:
http://retweet.cc/ http://tiny.cc/ https://bitly.com/
https://bitly.com/kZ5D6t+
‘Mrtvi’ link
Alexa.com – wayback machine
Internetske domene Internet Corporation for Assigned Names and Numbers (ICANN) generičke domene: .com, .gov, .org, .edu, .net geografske: .hr, .si, .ca, .rs, .me, .is, .to, .ly Od 2012 proširenje domena sukladno IPv6
Funkcija whois URL http://www.alexa.com/siteinfo
![Page 11: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/11.jpg)
Semantički web Meta elementi (meta tag) - semantički podaci o web stranici
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml"><head><title>Knjižnice grada Zagreba - Naslovna</title><meta name="keywords" content="Knjižnice grada Zagreba, kgz, knjižnica, Zagreb, Knjiznice grada Zagreba, katalog, OPAC" /><meta name="description" content="Knjižnica grada Zagreba su mreža narodnih knjižnica u Gradu Zagrebu. Stranice donose sve informacije o ustanovi, lokacijama i uvjetima korištenja knjižnica, građi, radnom vremenu, novostima i događanjima" /><meta name="copyright" content="KGZ 2010" /><meta name="author" content="Globaldizajn" /> <!--meta name="email" content="[email protected]" /<meta name="Distribution" content="Global" /><meta name="Rating" content="General" /><meta name="Robots" content="INDEX,FOLLOW" /><meta http-equiv="content-language" content="hr, en" /><meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
Mirkopodaci dogovoreni set mirkopodataka za opisivanje mrežnog sadržaja podražavaju Google, Bing schema.org
![Page 12: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/12.jpg)
http://technolog.msnbc.msn.com/_news/2011/06/16/6874191-what-happens-on-the-internet-every-60-seconds#blog_archives
![Page 13: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/13.jpg)
NetizensProsječan korisnik Interneta:- ima od 18 do 45 godina- društvene medije koriste osobe od 33-38 godina, od čega je 56% žena- 2/3 svih korisnika Interneta koristi društveni softver- višeg obrazovnog statusa- godišnjih primanja većih od 70.000 $-živi u gradskom i prigradskom središtu- 9.9% minuta provedenih na webu povede na Facebooku- 9.6% minuta provedenih na webu provede na Google stanicama (YouTube, Google, Gmail)
Pew Internethttp://www.youtube.com/watch?v=WjTZ7SlgyT4
comScorehttp://www.comscore.com/
http://internetstatstoday.com/?feed=rss
![Page 14: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/14.jpg)
Digitalni identitet- Važnost upravljanja digitalnim identitetom – digitalni otisak
- 75% korisnika društvenih medija redovito provjerava svoj digitalni identitet
MyOpenIDhttp://myopenid.com
![Page 15: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/15.jpg)
Tražilice Pretražujemo da bismo:
obnovili, ponovno pronašli informacije koje znamo da su na Internetu (recovery/discovery)
otkrili nove mrežne informacije i usluge (serendipity)
Pretraživanje: Horizontalno pretraživanje – široko pretraživanje raspoloživih izvora Vertikalno pretraživanje – unutar određenog područja, određenih vrsta
dokumenata i sl. Semantičko pretraživanje (semantic search) Društveno pretraživanje (social search), real-time search
Tražilice namijenjene pretraživanju internetskog sadržaja sastoje se od algoritma za indeksiranje sadržaja, baze podataka, sučelja za
pretraživanje i baze korisnika
AltaVista kreator Louis Monier, 15. prosinca 1995. – na dan javnog pokretanja indeksirala
je 16 milijuna dokumenata prvi pretraživač koji je nudio višejezično pretraživanje (Babel Fish)
Roy Tennant (2003) – „Only librarians like to search, everyone else likes to find“
![Page 16: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/16.jpg)
Google Google
Stanford University – Larry Page, Sergey Brin Larry Page inspiriran znanstvenom komunikacijom, citatnim analizama,
bibliometrijom doktorska teza o BackRub – sistem web citata PageRank – algoritam rangiranja mrežnog sadržaja temeljen na procjeni linkova
koje upućuju na određenu stranicu
Sergey Brin. Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine – najcitiraniji članak iz područja pretraživanja Interneta
povećanjem Interneta njihov algoritam daje sve bolje rezultate, jer će imati veći suodnos ukupnog broja linkova s linkovima na pojedinu stranicu (milijun sa 100 nula)
2002. – AdWords (pay-per-click) 2003. – Blogger, Picasa 2004. – Google Print – Google Books (Google Five - Harvard, Michigan University
Library, New York Public library, Oxford library and Stanford library), Google Scholar, Google Lab, Google News, Gmail
2005. – AdSense 2006. - YouTube
![Page 17: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/17.jpg)
Razvoj Google-ove tražilice: 2007. – universal search, Zeitgeist 2010. – instant preview, realtime search, social search, google profiles 2011. – mobile search, voice search, image search, instant page, Google +1,
related search
Google SERP 2011 Dobro su rangirane stranice koje:
Brzina učitavanja stranica (prilagođena grafika) Poveznice na twitter, quora, friendfeed Poveznice na renomirane stranice Google +1 brendirano ime @ime Upotreba Alt tag-a za opis slika, video zapisa bez klasičnih domena (com, org), već .ly, .me, .is
![Page 18: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/18.jpg)
Google Postavke pretraživanja:
Jezik sučelja Jezik pretraživanja Lokacija Filtriranje Prikaz rezultata Google instant/autocomplete
Jednostavno pretraživanjeTips & Tricks:?GoogleGuide making searching even easierhttp://www.googleguide.com/advanced_operators_reference_print.html
OSNOVNA SINTAKSA PRETRAŽIVANJA Upotreba Booleovih operatora AND (+), OR (|), NOT (-) Pretraživanje po poljima (Field Seach) Kraćenje pojmova *, ?, ! Limitiranje pretraživanja Oblikovanje ključnih riječi: stop words, velika i mala slova i dr. Ograničenje upita na 32 ključne riječi
![Page 19: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/19.jpg)
Google Napredno pretraživanje
* - zamjena bilo kojeg pojma npr. how to * cake site:, filetype:, link: define info:, id:, related: (all)inanchor:, (all)intext:, (all)intitle:, (all)inurl: realtime search: #mashup search by image – sort by subject/relevance advanced book search create e-mail alert
![Page 20: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/20.jpg)
Ostale tražilice Ask.com
My Q&A Ask community
Bing Microsoftova tražilica Social search – related blogs, related tweets
Hakia omogućava semantičko pretraživanje
Blekko / slashtag intergrira u SERP likeani sadržaj FB prijatelja
![Page 21: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/21.jpg)
Tražilice znanstvenih informacija Scirus
„for scientific information only“ – najbolja tražilica znanstvenih informacija najobuhvatniji referentni izvor znanstvenih informacija dostupan na mreži.
Pokriva više od 450 milijuna znanstvenih radova. Pretraživač indeksira znanstvene časopise, mrežne stranice znanstvenika, radne materijale, pre-print radove, patente i institucijske repozitorije.
Google Scholar je pretraživač znanstvenih informacija (disertacija, recenziranih znanstvenih
članaka, patenata i sl.) čija je prednost u tome što istovremeno pretražuje i komercijalne baze podataka znanstvenih informacija. Nedostatak Google Scholara je u tome što većinom pokriva članke i znanstvene radove engleskog govornog područja, te mu je naglasak na prirodnim i tehničkim a manje na društveno-humanističkim znanostima. Posjeduje funkciju citatnog indeksa!
Intute zbog financijskih razloga prekida djelovanje
OAIster Integriran u WorldCat.org Sadrži linkove na cjelovite dokumente, disertacije, mrežne stranice, slike, video
zapise
![Page 22: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/22.jpg)
Metatražilice Istovremeno prosljeđuju upit na nekoliko tražilica, sortiraju
rezultate i izbacuju duplikate. Skraćuju vrijeme pretraživanja.
Search.com – pretražuje Google, Blekko, Bing, DMOZ
Allplus - pretražuje tražilice Google, Yahoo, Bing i Ask.com, web stranice, novosti, slike, video zapise i blogove. Rezultati se uspoređuju i rangiraju na korisniku intuitivan način.
![Page 23: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/23.jpg)
Imenici Yahoo
Jerry Yang i David Filo 1993 – Yang objavljuje svoju mrežnu stranicu Akebono (po imenu
sumoborca) i iz te stranice će 1994. godine razviti Jerry and David's Guide to World Wild Web
1995 – Yahoo – Yet Another Hierarchical Officious Oracle imenik temelje na ljudskoj komponenti uvode sistem oglasa, zadržavaju mladenački izgled, humor te postaju
portal prate clikstreams kao odraz potreba korisnika i iznalaze nove sadržaje:
Yahoo Finance, Yahooligans i sl. dmoz
od 1998 godine jedan od najvećih i najobuhvatnijih internetskih imenika koje uređuju stručnjaci. DMOZ je imao više od 70 000 urednika, a danas ih je aktivno oko 6 000.
„republic of web“ „definitive catalog of the web“ „internet brain“
![Page 24: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/24.jpg)
Twitter Twitter
http://search.twitter.com/ LoC arhivira kompletan Twitter
Sintaksa pretraživanja: #haiku - sadrži hashtag "haiku"
from:alexiskold – poslao "alexiskold"to:techcrunch – poslano "techcrunch"@mashable – tweet koji se odnosi na osobu "mashable""happy hour" near:"san francisco“ – sadrži točnu frazu "happy hour" i poslano je blizu "san francisco“ superhero since:2011-06-24 – sadrži pojam "superhero" i poslano je od "2011-06-24" (year-month-day). movie -scary :) sadrži pojam "movie", ali ne "scary", i ima pozitivan stavflight :( - sadrži pojam “flight" s negativnim stavom traffic ? - sadrži pojam "traffic" i pita pitanje
![Page 25: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/25.jpg)
Facebook Facebook
socialsearching.info
social-searcher.com – open facebook search
Bing planira integraciju pretraživanja FB postova
![Page 26: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/26.jpg)
Društveno označivanje Del.icio.us – delicious.com CiteULike – citeulike.com Stumbleupon – www.stumbleupon.com
iCyte – http://www.icyte.com/users/home Diigo – www.diigo.com
![Page 27: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/27.jpg)
Praćenje informacija RSS (Really Simple Syndication)
je dio XML-a (Extensible Markup Language) jezika, čiji su sadržaji čitljivi pomoću posebnog softvera zvanog agregator ili čitač (eng. Reeder/Aggregator). Agregatori prenose RSS kanale koji sadrže novosti sa mrežnih stranica koje prate. Korisnici RSS kanala ne moraju fizički odlaziti i posjećivati mrežne stranice, već novi sadržaj dolazi izravno njima.
Klikom na ikonicu za RSS kanal odabire se stranica s koje se žele primati novosti, nakon čega čitač prati i na jednom mjestu objavljuje sve informacije objavljene na toj stranici.
RSS kanale koristimo u svrhu: praćenja određenog područja praćenja novosti s neke mrežne stranice uključivanje informacija sa stanica s vijestima izravno na vlastite stranice praćenje sadržaja stručnih časopisa (TOC – table of contents) i sl.
![Page 28: Pretrazivanje Interneta 2011](https://reader033.vdocuments.site/reader033/viewer/2022061511/55818364d8b42a132d8b4c0a/html5/thumbnails/28.jpg)
Početne stranice - mashups IGoogle – www.google.com/ig Protopage – www.protpage.com Squidoo – www.squidoo.com Rollyo – www.rollyo.com/ Google Custom Search Engine - http://www.google.com/cse/
+ Organizacija sadržaja prema osobnim potrebama Integracija različitih servisa na jednom mjestu Velika mogućnost personalizacije Sadržaj se može dijeliti, omogućuje kolaboraciju
- Nalaze se pod nazorom trećih osoba Stalne beta verizije Nije osigurana stalnost aplikacije Ne podržavaju jednako sve aplikacije