Extras din curs
C01. DS
Date semistructurate
XML
Istoric XML. Marcarea documentelor
De ce XML?
Avantaje / Dezavantaje XML
Sintaxa XML
Tipuri de date:
structurate (relational)
semistructurate
nestructurate (text).
=> date partial structurate
Motive pentru care datele ar fi semistructurate:
structura datelor poate fi implicita, ascunsa, necunoscuta, sau utilizatorul decide sa o ignore
nu se cunoaste structura sau se poate modifica in viitor
integrarea datelor din surse eterogene – intr-un asemenea caz, un model de date structurat este prea rigid, cel putin intr-o prima faza; exemplu: o bibliografie
date „sparse” – pe modelul relational am avea multe date NULL
datele sunt modelate pe structura ierarhica, structura recursiva
ordinea e importanta
nu se poate interoga o baza de date structurata fara a cunoaste schema (de fapt se poate, insa e putin mai greu ), insa uneori apare nevoia de a interoga datele fara a cunoaste schema
=> Date semistructurate – depozite de date XML, BD OO sau BD obiect-relationale
Caracteristici:
nu au o schema fixa (precum cea relationala)
structura este implicita sau non-regulata
imbricate sau eterogene
Exemple: pagini Web, integrare informatii din surse eterogene (ex: o bibliografie), XML.
Marcarea unui document electronic – marcarea o constituie codurile care se gasesc prin textul documentului (meta data), care ofera informatie necesara procesarii electronice, precum nume, stil, sau structura documentului, s.a.
Origine marcare: industria publicistica (“instructiuni” pentru tipograf).
Marcare procedurala:
in procesarea textelor, utilizatorul alege din meniul aplicatiei diferite operatii de formatare, poate sa includa un anumit text la o pozitie pe pagina, s.a.
=> aceste informatii sunt marcaje si sunt retinute prin coduri speciale in text
=> instructiunile de formatare spun aplicatiei cum sa faca afisarea / tiparirea textului
o asemenea operatie este in general numita marcare procedurala deoarece marcarea este o procedura pentru „output device” (ex: RTF).
nu inregistreaza structura documentului (da doar indicatii de afisare, desi am plecat de la structura documentului)
este inflexibil (o schimbare a regulilor de formatare – de exemplu – subject-ul sa fie bold-underlined – trebuie materializata manual); marcarea depinde de soft-ul folosit (nu este portabil); (ex: formatarea unei bibliografii – titlu, autori, editura, etc.)
este o operatie costisitoare ca timp
Conținut arhivă zip
- Date Semistructurate
- C01_DS.ppt
- C02_DS.ppt
- C03_DS.ppt
- C04_DS.ppt
- C05_DS.ppt
- C06_DS.ppt
- C07_DS.ppt
- C09_DS.ppt
- C10_DS.ppt
- C11_DS.ppt
- C12_DS.ppt