Documentverwerking P01 Logische en Fysische Structuur Prof.Dr.ir. Patrick P. Bergmans Faculteit IngenieursWetenschappen Universiteit Gent
Documenten (1) Wat is een document? Een collectie grafische objecten en tekst- objecten (= inhoud), geschikt volgens een bepaalde structuur, voorgesteld in een bepaald formaat, en bestemd voor menselijke communicatie Grafische objecten zijn figuren, illustraties, beelden Tekstobjecten zijn titels, koppen, tekst- paragrafen en tabellen Traditioneel was papier het medium voor documenten 2
Documenten (2) De geschiedenis van traditionele documenten is zeer lang (is de bijbel een document?) Dit is geen cursus in de geschiedenis van het document Recent (sedert 20-2525 jaren) worden documenten elektronisch of digitaal opgeslagen In verschillende vormen Zij worden ook op een meer interactieve manier, op een computerscherm gevisualiseerd Men verwacht zeer grote evoluties in het begrip document in komende jaren 3
Papier & Digitale Documenten Structured t Styled PDL Bitmap The Paper Document The Digital Document 4
Digitale Documenten Digitale documenten bestaan in verschillende vormen en formaten Deze formaten onderscheiden is bijzonder belangrijk In functie van de toepassing In functie van opslagcapaciteit, verwerkings- mogelijkheden, enz. Een vraag: welke vorm is de referentievorm Inleiding tot Documentclassificatie 5
Het Document als Bitmap Document opgeslagen als een rij pixels (net zoals een beeld) Eenvoudige 1-op-1 voorstelling van het fysische document Voorbeelden:.jpg,.tif,.bmp,.gif bestanden (Zeer) grote opslagcapaciteit Beperkte verwerking nodig voor reproductie op een fysich medium (zpals papier) Zo goed als niet wijzigbaar ( editeerbaar ) voor wat tekst betreft; wel als beeld 6
Het Document als bladzijdebeschrijving Bevat objecten zoals karakters, beelden en illustraties en een beschrijving van hun positie op het blad Tekst is niet verwerkbaar Voorbeeld : PostScript (.ps), PDF (.pdf) Redelijk compacte voorstelling Verwerking nodig voor reproductie (door een RIP = raster image processor ) Toestelonafhankelijk Zeer beperkt editeerbaar: objecten kunnen verplaatst worden, en hun parameters gewijzigd 7
Het Gestileerde Document Document bevat gestileerde en elkaar opvolgende rijen grafische elementen en tekst, en een beperkte vorm van structuur Tekst blijft verwerkbaar Voorbeeld : Document in MS Word (.doc), een speciaal geval van (.rtf) Redelijk compacte voorstelling Vereist toestelafhankelijke verwerking (driver) Volledig editeerbaar Maar niet structuurgecontroleerd ; m.a.w., de structuur kan vernietigd worden bij wijzigingen 8
Het Gestructureerde Document Document bevat een hoge graad van structuur Tekst is verwerkbaar Voorbeelden: SGML, XML, HTML HTML heeft ook bepaalde eigenschappen van gestileerd document Structuurgecontroleerde editeerbaarheid Opslagcapaciteit iets groter dan gestileerde documenten Vereist dikwijls ingewikkeld verwerkings- toepassingen; fysische reproductie volgens verschillende formaten mogelijk Veel gebruikt in technische h documentatie ti 9
Van Digitale Documenten naar Papier XML Editors, FrameMaker Structured Content SGML, XML, HTML XML Editors, Various programs Style Presentation Format Style sheet, DTD MS Word, Quark Xpress,Wordperfect Styled Content DOC, WPF, RTF Postscript or PDF Driver Compose Resources Fonts Adobe Acrobat Professional Output Representation PDF, PS, PCL RIP, Printer Driver Render Media Properties Page size, Screen Resolution Adobe Photoshop Raw Digital Image TIFF, GIF, BMP Marking engine, Printer, Screen Playback Device Properties Toner, Ink Physical Representation Paper, Video 10
Vertrekkend van Papier Wat gebeurt er wanneer men met papier begint? Scan (digitaliseren) naar een Digitaal Document Maar tot welk niveau? Digitaal-naar-papier is many-to-one one Papier-naar-digitaal is one-to-many Niveau waarnaar gescand moet worden is afhankelijk van de toepassing Voor opslag is een bitmap waarschijnlijk voldoende Voor tekstverwerking moet men praktisch steeds tot op het gestileerd document niveau terug 11
Van Papier naar Digitaal Structured Content Presentation Format Re- Structure Styled Content Resources Recognize Output Representation Media Properties Segment Raw Digital Image Device Properties Capture Physical Representation 12
Logische & Fysische Structuur (1) Beschouw een eenvoudig document Bv. een roman, een rapport Logische structuurelementen Indeling in hoofdstukken Indeling in paragrafen (alinea s) Indeling in zinnen Indeling in woorden Die indeling blijft ongewijzigd, en is niet afhankelijk van de uiteindelijke vormgeving Zij vormen de logische structuur van een document 13
Logische & Fysische Structuur (2) Fysische structuurelementen Indeling in bladzijden Indeling in kolommen Indeling in tekstregels Deze indeling wordt wel degelijk gewijzigd door de vormgeving, de afmetingen van het document, de gebruikte letterstijlen, enz. Niet-interactieve interactieve ( batch ) tekstverwerking (zoals TE X) zet de logische structuur in fysische structuur, en produceert een bladzijde-beschrijving; beschrijving; ook formatteren genoemd Soms gaat men rechtstreeks (met en driver) naar de bitmap output 14
Logische & Fysische Structuur (3) In interactieve toepassingen (zoals bv. MS Word, Quark Xpress) Wordt de tekst inwendig gestileerd opgeslagen Wordt continu, en interactief, de tekst (her)verwerkt, en op het scherm getoond Indien vanuit een interactieve toepassing, een document afgedrukt wordt op twee verschillende printers, kan de output (fysische structuur) er anders uit zien Dit heeft te maken met lettersoort metriek (zie later) Men verwart dikwijls logische en fysische structuur bij het invoeren van een document (meer bepaald wanneer een document opgemaakt wordt) d) 15
Logische & Fysische Structuur (4) Bij de meeste tekstverwerkers wordt de return toets gebruikt als einde paragraaf (EOP, logisch), niet einde tekstregel (EOL, fysisch). Wordt soms gevisualiseerd als. Gebruik dan nooit de return toets t om zelf een paragraaf in tekstregels te verdelen Dit verhindert herverwerking met andere parameters Extra wit tussen paragrafen zou het resultaat van de verwerking r moeten zijn, niet van een extra return, of lege paragraaf Inspringen van de eerste regel van een paragraaf heeft dezelfde eigenschap; gebruik geen spaties in het begin van een paragraaf 16
Logische & Fysische Structuur (5) De spatiebalk is normaal de logische afbakening van woorden; gebruik die niet voor extra spatiëring. Daarom vreten goede tekstverwerkers spaties in het begin en het einde van paragrafen op (zij hebben op die plaatsen geen nut) Voor dezelfde reden worden meervoudige spaties als één spatie geïnterpreteerd Tabelwerk is zeer sterk structuurgebonden; maak geen tabellen met spaties (en evenmin met herhaalde tabs die dikwijls onvoorspelbaar uitgevoerd worden) 17