informacijska tehnologija v analizi podatkov

18
Univerza v Ljubljani FMF, matematika Informacijska tehnologija Oznaˇ cevanje Vladimir Batagelj

Upload: others

Post on 28-Nov-2021

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Informacijska tehnologija v analizi podatkov

'

&

$

%

Univerza v LjubljaniFMF, matematika

Informacijska tehnologija

Oznacevanje

Vladimir Batagelj

Page 2: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 1'

&

$

%

Kazalo1 Oznacevanje – SGML. . . . . . . . . . . . . . . . . . . . . . . 1

2 Oznacevanje – HTML. . . . . . . . . . . . . . . . . . . . . . . 2

3 Obrazci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

4 Slogi – CSS. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

5 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

6 Dobro oblikovani opisi . . . . . . . . . . . . . . . . . . . . . . 6

7 Dobro oblikovani in veljavni opisi . . . . . . . . . . . . . . . . 7

8 UkazELEMENT. . . . . . . . . . . . . . . . . . . . . . . . . . 8

10 UkazATTLIST . . . . . . . . . . . . . . . . . . . . . . . . . . 10

11 UkazENTITY . . . . . . . . . . . . . . . . . . . . . . . . . . 11

12 Sheme in imenski prostori. . . . . . . . . . . . . . . . . . . . 12

13 Otoki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 3: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 2'

&

$

%

14 XSL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .14

15 Metadata . . . . . . . . . . . . . . . . . . . . . . . . . . . . .15

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 4: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 1'

&

$

%

Oznacevanje – SGMLEn od pomembnejsih pojmov pri delu s podatki postajaoznacevanje: delebesedila oklenemo z znackami, ki dolocajo, kaj je dani del besedila in kakonaj bo oblikovan.

Ceprav vsi opisi oblikovanega besedila temeljijo na oznacevanju, predstavljaprelomnicoSGML (Standard Generalized Markup Language) sprejet leta1986. SGML je sestav za pripravo definicij oznacevalnih jezikov:HTML – HyperText Markup Language,ISO 12083– Electronic ManuscriptStandard,TEI – Text Encoding Initiative,CALS/ JTA – Computer-aidedAcquisition and Logistic Support,NITF – News Industry Text Format,DDI– Data Documentation Initiative,CML – Chemical Markup Language,

SGML je namenjen opisu zgradbe podatkov, ki je locen (pravokoten na)opis oblike (prikaza). Ta je dolocena s slogi. V HTMLju so to CSSW3C/CSS, W3 schools/CSS.

Za podporo razvoja resitev je bilo razvitih vec orodijClark.

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 5: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 2'

&

$

%

Oznacevanje – HTML<html>

<head><title>V.B. - moja stran</title><meta http-equiv=’content-type’

content=’text/html;charset=utf-8’><meta name="author" content="V.B."><meta name=’creation_date’

content=’december 11, 2002’></head><body bgcolor="lightyellow">

<center><table width="670"><tr><td><h1>Vladimir Batagelj<br>

<small>moja stan</small></h1><hr><img src="./vlado.gif"><p><a href="http://www.uni-lj.si">Univerza v Ljubljani</a><br>FMF,matematika<br> Jadranska 19, 1111Ljubljana<br><a href="mailto:[email protected]">e-po&#353;ta</a></p><hr></td></tr></table></center>

</body></html>

Moja stran. Unicode. W3 schools, NS guide.

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 6: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 3'

&

$

%

Obrazci<html><head><title>Prijava</title>

<meta http-equiv=’content-type’content="text/html;charset=UTF-8"></head>

<body bgcolor=navy><center><table bgcolor=’white’ width=600 cellpadding=10><tr><td><h1>Prijava</h1>

<form method=’post’ enctype=’text/plain’action=’mailto:[email protected]’>

<table bgcolor=’lightsteelblue’><tr><th width=100>ime in priimek</th><td>

<input type=’text’ name=’name’ size=30></td></tr><tr><th>ustanova</th><td>

<input type=’text’ name=’inst’ size=30></td></tr><tr><th>naslov</th><td>

<textarea rows=3 name=’addr’ cols=30></textarea></td></tr><tr><th>telefon</th><td>

<input type=’text’ name=’coun’ size=30></td></tr><tr><th>e-naslov</th><td>

<input type=’text’ name=’emai’ size=30></td></tr><tr><th>stroka</th><td>

<select name=’acti’ size=3 multiple><option>matematika <option>fizika<option>astronomija

</select><br><input type=’text’ name=’acti’ size=30

value=’?? drugo ??’></td></tr><tr><td></td><td>

<input type=’submit’ value=’Po&#353;lji’><input type=’reset’ value=’Po&#269;isti’>

</td></tr></table></form></td></tr></table></center></body>

</html>

Prijava.

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 7: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 4'

&

$

%

Slogi – CSS

<head>...<style type="text/css">

h1, small {color: darkred;font-family: Comic Sans MS;}

h1 {font-size: 30pt;}small {font-size: 20pt;}p {font-family: Arial;

font-size: 15pt;color: navy;}

a {text-decoration: none;}a.text {color: red;}

</style></head>

Moja stran. CSS. CSS/NS.

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 8: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 5'

&

$

%

XMLZ razvojem spleta se je pojavila potreba, da lahko uporabnik razsiri HTML

s svojimi oznakami. Prirejena izpeljanka SGMLja jeXML – Extensible

Markup Language. XML omogoca hranjenje, izmenjavo in lazjo obdelavo

podatkov.

XML je ohranil pomembnejse zmogljivosti in glavne znacilnosti SGMLja.

Predvsem je z odpravo ’potuh’ sestav precej poenostavil.

XML podpira samoopisnostimen. Imena znack so nizi znakov, ki ne

vsebujejo presledkov ali dvopicij in se ne zacnejo sstevko, locilom ali

podnizomxml (XML, Xml, . . . ).

Znacka ima lahko lastnosti<imel1=" v1" l2=" v2" . . .lk=" vk" > .

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 9: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 6'

&

$

%

Dobro oblikovani opisi• oklepajneznacke nastopajo v parih<ime> in </ ime>; samostojne

znacke pa imajo obliko<ime /> ≡ <ime></ ime> .

• v opisu podatkov so znackegnezdene– zaporedje

<a> . . .<b> . . .</ a> . . .</ b> ni dovoljeno;

• v imenih znack se velikostcrk uposteva;

• vsak opis oklepaglavna(korenska) znacka;

• vrednosti lastnosti so v navednicah" ali ’ ;

• veckratni presledki se ne skrcijo v enega; nova vrsta je predstavljena z

znakomLF

• pojasnilaso kot v SGML<!-- . . . --> .

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 10: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 7'

&

$

%

Dobro oblikovani in veljavni opisiDobro oblikovani (well formed) opis lahko predstavimo kot drevo –DOM

(Document Object Model).

Del opisa, ki ga nek par znack oklepa jevsebinate znacke. Ta je lahko

prazna(za samostojne znacke),enostavna(ne vsebuje drugih znack) ali

sestavljena.

Podatke lahko v opisu predstavimo kot vsebino ali vrednost neke lastnosti.

Priporocilo: prave podatke predstavimo kot vsebino; lastnosti povedo

podatke o podatkih.

S slogi lahko dolocimo prikaz dobro oblikovanih opisov.CD.xml, CD.css,

CD.css+xml.

Z DTD (Document Type Definition) dolocimo, kako so posamezne znacke

med seboj povezane – dolocimo slovnico oznacevalnega jezika. Opisi, ki

zadoscajo dani slovnici soveljavni(valid).

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 11: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 8'

&

$

%

Ukaz ELEMENT

Znacko vpeljemo z ukazom

<!ELEMENTime sestava>

kjer je ime ime vpeljane znacke in je opissestave:

• EMPTY– samostojna znacka;

• ANY– poljubno zaporedje znakov;

• (#PCDATA) – zaporedje znakov (brez znack);

• (#PCDATA| ime...)* – mesano zaporedje;

• ( cleni ) dolocilo – cleni sestavljajo alizaporedje, ce so loceni z vejico

, (tudi v opisu se morajo pojaviti v istem vrstnem redu); aliizbiro, ce

so loceni scrtico | (v opisu se mora pojaviti le en izmed njih). dolocilo

je ali prazen znak ali en izmed znakov?, + in * .

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 12: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 9'

&

$

%

. . . ukazELEMENT

Posamezniclen je lahko:

• ime– ime podrejene znacke (otroka);

• ime? – najvec ena pojavitev;

• ime+ – vsaj ena pojavitev;

• ime* – poljubno (tudi 0) pojavitev;

• ( cleni ) dolocilo .

Posamezni znacki ustreza natanko en ukazELEMENT.

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 13: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 10'

&

$

%

Ukaz ATTLIST

Lastnostlastnostznacke imeopredelimo z ukazom

<!ATTLIST ime lastnost zvrst vrednost>

kjer je zvrst opis zvrsti vrednosti lastnostilastnostin vrednostdoloca

vgrajeno vrednost lastnosti.

Podrobno o vrednostih lastnosti.

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 14: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 11'

&

$

%

Ukaz ENTITY

Najpogostejse oblike vpeljave delcaimeso okrajsave

<!ENTITY ime" niz znakov" >

in povezave na datoteke

<!ENTITY ime vrsta" naslov" >

Pri tem jevrstaali SYSTEM(lastna datoteka) aliPUBLIC (poskus uporabe

javne datoteke).

Pri kodiranih datotekah na koncu ukazaENTITY dodamose parNDATA

oblika in jo z ukazom

<!NOTATION oblikaSYSTEM "program" >

povezemo z ustreznim prikazovalnimprogramom.

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 15: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 12'

&

$

%

Sheme in imenski prostoriSlovnico lahko opisemo tudi s shemamiXML Schema, ki same temeljijo

na XMLju.

Pri hkratni uporabi vecih oznacevalnih jezikov lahko pride do prekrivanja –

uporabe istih imen znack. Problem je razresen z uvedbo imenskih prostorov

(namespace).

<!xml:namespace ns=" naslov" prefix=" prostor">

Polno ime znacke ima oblikoprostor: ime.

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 16: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 13'

&

$

%

OtokiInternet Explorer (vsaj 5.0) podpira v HTML dodatno znacko <xml> , s

katero lahko v spletni sestavek vkljucimo podatke opisane v XMLju (Data

islands).

CD table

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖

Page 17: Informacijska tehnologija v analizi podatkov

V. Batagelj: Informacijska tehnologija / oznacevanje 14'

&

$

%

XSLXSL (eXtensible Stylesheet Language) je sestav za opis slogov, ki je

precej zmogljivejsi od CSS. Omogoca dolocanje delov besedila, njihovo

preoblikovanje in prikaz (izpis, predvajanje, izvajanje)W3 schools/XSL.

Za zahtevnejse obdelave si lahko na pregledovalniku pomagamo z

Javascriptom ali Javo; na strezniku pa s posebej napisanimi programi.

Tudi v Rju obstajajo paketi za podporo XMLja.

Univerza v Ljubljani, FMF, matematika ▲ ▲ ❙ ▲ ● ▲ ❙ ▲▲ ☛ ✖