Systeemarchitecturen en opslag van gegevens



Vergelijkbare documenten
Productmeeting EqualLogic

Computer architecturen: Hard Disk technologie

IN1805 I Operating System Concepten

Harde schijven hebben tegenwoordig zelfs een capaciteit van 4 tot 15 gigabyte. Een gigabyte is 1024 megabyte.

Bestandssystemen. yvan vander sanden. 16 maart 2015

Optimaliseer uw infrastructuur met virtualisatie en SAN

11/05/2015. Deel 1. Hardware en sporendragers. Hardware en sporendragers. Hardware en sporendragers. Hardware en sporendragers

Zelftest Informatica-terminologie

Toegankelijk vanaf elk apparaat

Technische Specificaties nieuwe Unix Applikaties

Three Ships CDS opschalingsdocument Overzicht server configuratie voor Three Ships CDS

Vraag 1 (2 punten) (iii) Een lees-opdracht van virtueel adres 2148 seg 0, offset idem

Een desktopcomputer kan uit de volgende onderdelen zijn opgebouwd:

Gegevens. Doelstellingen Elektronica. verwerven. opslaan. bewerken doorsturen. weergeven. Analoog signaal : snelheidsmeting. KHLim - dep.

Toegankelijk vanaf elk apparaat

Digitale opslag. Wat als er geen tape meer bestaat? 20 maart 2013

Virtualisatie met SAN 12/10/2010

Performance, Tuning & Storage

Datadragers. USB Sticks. USB Stick Store n Go. USB Stick Executive Secure. USB stick Store n Go Hi-speed. USB Stick Store n Go Executive

Mobiel met NDAS Externe opslag steeds omvangrijker

Viktor van den Berg. Xpert Training Group VMware Authorized Training Center Citrix Authorized Learning Center Microsoft CPLS Eigen datacenter

3,5 inch Zilver esata USB 2-Bay SATA Externe RAID Harde Schijf Behuizing

De PROFIBUS, PROFINET & IO-Link dag. Ede, 18 november

5,7. Samenvatting door een scholier 903 woorden 28 september keer beoordeeld. Informatica. Samenvatting Informatica Hoofdstuk 2

Gigabit NAS RAID-behuizing met 2 bays voor 3,5 inch SATA harde schijven met WebDAV en Media Server

Toshiba C70D-A-117 (PSCENE-01G00QDU)

De computer als processor

ROM, het Read Only Memory, dat bestaat uit: - BIOS - CMOS RAM, het Random Acces Memory, ook wel het werkgeheugen genoemd.


Flex_Rooster WERKBOEK. INTRODUCTIE iseries. Dit werkboek is eigendom van ICS opleidingen en mag niet worden meegenomen.

Jen Kegels, Eveline De Wilde, Inge Platteaux, Tamara Van Marcke. Hardware. De computer in een oogopslag. 1 / 11 Cursusontwikkeling

High Availability & Disaster Recovery

Bijlage F: Eerste bestelling als onderdeel van perceel Storage

Een desktopcomputer kan uit de volgende onderdelen zijn opgebouwd:

Professioneel basis-opslagsysteem MAXDATA PLATINUM 600 IR

Tim Mallezie Architectuur van besturingssystemen: Vraag A2.

USB 3.0/eSATA dubbele 3,5" SATA III RAID externe harde-schijfbehuizing met UASP en ventilator - zwart

Windows Basis - Herman Van den Borre 1

NAS 251 Inleiding op RAID

emaxx Systeem eisen ManagementPortaal voor de ZakenMagazijn database

Interactief, real time security management

Mediawijsheid wat zit er in mijn computer?

Virtualisatie & Storage. VMware ESX en uw Storage Frederik Vos

Pervasive Server V9 Installatiegids

Dubbele Externe SATA Harde Schijf Behuizing - 2x USB 3.0 RAID 3,5 inch Behuizing. StarTech ID: SAT3520U3SR

Benut de afmeting en snelheid van M.2 schijven

DB architectuur.

USB 3.0/eSATA dubbele 3,5" SATA III RAID externe harde-schijfbehuizing met UASP en ventilator - zwart

Backup Storage. Dienstbeschrijving. Versie: IS022v [12:17] 2012 Previder Backup Storage Dienstbeschrijving versie: IS022v2 Pagina 1 van 7

CareConnect Fin Pre-requirements

Actian PSQL v12 server installatiegids

Taakklasse 3 ALAa installeren en onderhouden systemen Corné Tintel G GMB13B Medewerker beheer ICT

Technische Productlijn

USB naar IDE Standalone Schijf-Duplicator Docking Station. StarTech ID: UNIDUPDOCK

Business Continuity en Disaster Recovery: High Availability in server & storage omgevingen

Case Study: Digitale KVM Matrix in dispatch ruimte

Opdracht 1 Integrated Circuit

Software. Opdrachten - Deel 1. Naam: Klas: 2015 versie:concept-3.4.2

NV-2040-EU. 4 kanalen NAS - NVR NV-4080-EU. 8 kanalen NAS - NVR. Eigenschappen

3,5 inch Zilver esata USB 2-Bay SATA Externe RAID Harde Schijf Behuizing. StarTech ID: SAT3520U2ER

USB 3.0 esata dubbele 3,5" SATA III RAID externe harde-schijfbehuizing met UASP en ventilator - wit

Systeemeisen Exact Compact product update 406

Pervasive Server V9 Installatiegids

MKG Whitepapers augustus 2015

Mobiele communicatie: reken maar!

Schinfa Machinerevisie

Dell SonicWALL product guide

4Logical Link Control: 4Medium Access Control

PCI Express 2.0 SATA III 6 Gbps Mini-SAS (SFF-8087) RAID-controllerkaart met HyperDuo SSD Tiering

Hardwarevereisten RAID. Geheugen

3,5 inch 4-Bay esata USB FireWire Externe SATA RAID Behuizing

Eddy Piedfort BACKUPS

Video. Multimedia Rein van den Boomgaard Universiteit van Amsterdam

4-kanaals IP-bewakingskit

Zelftest Java EE Architectuur

Hogere netwerksnelheid

Technische specificaties

USB 3.0/eSATA dubbele 3,5" SATA III RAID externe harde-schijfbehuizing met UASP en ventilator - zwart

Opslagmedia. yvan vander sanden. 5 november 2014

VMware vsphere 5. What s New! Bram de Laat, Marek Zdrojewski, Jan van Leuken

4-Bay Externe Harde Schijf Array RAID Toren esata USB 3.0 Behuizing

2,5in aluminium USB 3.0 externe SATA III SSD harde-schijfbehuizing met UASP voor SATA 6 Gbps draagbare externe HDD

Hogere netwerksnelheid

USB 3.0 dubbele 3,5 inch SATA III harde schijf RAID-behuizing met USB-hub met snelladen & UASP

Actian PSQL v12 server installatiegids

Dubbele M.2 NGFF SATA adapter met RAID

Pervasive Server V9 Installatiegids

Automated computing-model geen toekomstmuziek meer

Pervasive Server V10 SP3 Installatiegids

HOOFDSTUK 1: Performantie van webgebaseerde toepassingen

Instap-NAS voor kleine netwerken. MAXDATA SN 40 Network-Attached-Storage

HET HOE EN WAT VAN ONLINE DIENSTEN DOOR: STEVEN ADEMA EN ANNEJENT HOEKSTRA

Functionele beschrijving: scannen naar van Brug software.

WD en het WD-logo zijn gedeponeerde merken van Western Digital Technologies, Inc. in de V.S. en andere landen; absolutely, WD Re, WD Se, WD Xe,

Erik Poll Martijn Warnier.

Geheugenkaartjes. 19 december 2014

CONTINUÏTEIT NA CALAMITEIT. Steven Adema Manuel Speksnijder

SD-WAN, de nieuwe IT- Infrastructuur. Een functionele en technische uitleg waarom SD-WAN zo populair is.

Hoog Beschikbaarheid en het waterschapshuis

Functionele beschrijving: scannen naar Exact Globe.

Transcriptie:

Systeemarchitecturen en opslag van gegevens Dr. Wilfried Lemahieu wilfried.lemahieu@econ.kuleuven.ac.be Overzicht van de cursus Factoren die de eigenschappen van opslagsystemen beïnvloeden Bestandstypes (tekst, beeld, geluid, video,...) en compressietechnieken Ongestructureerde gegevens, gestructureerde gegevens en metagegevens Karakteristieken van apparaten voor persistente gegevensopslag: magneetband, magneetschijf en optische gegevensdragers Technologieën met betrekking tot opslagomgevingen: RAID, SCSI, Storage Area Networks,... Organisatiemethodes voor gestructureerde gegevens: recordorganisatie, bestandsorganisatie en database-organisatie Zoekalgoritmen voor gestructureerde gegevens Zoektechnieken voor semi-gestructureerde en ongestructureerde gegevens Data-organisatie en zoektechnieken voor het Web 1

Recente evoluties Data mining en data warehouses Multimedia Ongestructureerde gegevens (Web!) Van data retrieval naar information retrieval Nieuwe opslagtechnologieën E-business Systeemintegratie en gegevensdistributie Deel I: Factoren die de gegevensopslag beïnvloeden 2

Functies van een informatiesysteem Data collection Data storage Data processing & communication Data collection function Informatiemodel Intern Databasemodel Logisch Databasemodel Extern Databasemodel Fysieke programmagegevensonafhankelijkheid Logische programmagegevensonafhankelijkheid 3

Informatiemodel Modelleren van de "real world": v1 Vaknummer: D295 Vaknaam: Systeemarchitecturen en opslag van gegevens Aantal studiepunten: 3 v2 Vaknummer: D237 Vaknaam: Database management I Aantal studiepunten: 5 p1 Personeelsnummer: 03197 Naam: Jacques Vandenbulcke Werkadres: Naamsestraat 69, 3000 Leuven Entity-relationship diagramma Persnr. Vaknr. Vak (0..n) (1..1) Docent Naam Vaknaam Gedoceerd_door Werkadr. Aantal studiep. 4

Informatiemodel: terminologie Entiteittype Attribuuttype Enkelvoudig / samengesteld Eénwaardig / meerwaardig Associatietype Graad: unair, binair, ternair, Minimum cardinaliteit: 0 of 1 (partieel of totaal) Maximum cardinaliteit: 1 of n Cardinaliteitsratio: (0..1), (1..1), (0..n), (1..n) Logisch databasemodel "Modelbeschrijving van een database zodat alle relevante informatie er direct in onderkend kan worden, zonder enige vertekening door de wijze van fysieke opslag (cfr. intern databasemodel) of door de wijze van verwerking van de gegevens (cfr. extern databasemodel)" De transformatieregels voor omzetting van informatiemodel naar logisch databasemodel verschillen naargelang de databasemodelleringsmogelijkheden van de gebruikte databasesoftware. Bijvoorbeeld: transformatie van het informatiemodel naar een logisch relationeel databasemodel 5

Logisch databasemodel voor relationeel databasesysteem Tabeldefinities: Docenten (Personeelsnr., Voornaam, Familienaam, Werkadres) Vakken (Vaknr, Vaknaam, Aantal_studiepunten, Docent) Voorbeelden van rijen in de tabellen: Docenten: (03197, "Jacques", "Vandenbulcke", "Naamsestraat 69, 3000 Leuven") (06286, "Wilfried", "Lemahieu", "Naamsestraat 69, 3000 Leuven") Vakken: ("D237", "Database management I", 5, 03197) ("D295", "Systeemarchitecturen en opslag van gegevens", 3, 06286) Logisch databasemodel: terminologie Informatiemodel Entity types Logisch databasemodel (algemeen) Entity record types Logisch databasemodel (relationeel) Relaties (tabellen) Entities (instances) Entity records Rijen (tupels) Attribute types Association types Attribuutnamen en attribuutwaarden Logical data structures Kolomnamen en kolomwaarden Vreemde sleutels 6

Intern databasemodel Vertaling van logisch databasemodel naar fysieke opslagspecificaties Modelbeschrijving van een database die aanduidt hoe de gegevens fysisch zullen worden opgeslagen op computergeheugenmedia en hoe de toegang tot die gegevens desgewenst kan verlopen Intern databasemodel: terminologie Logisch databasemodel Set of entity record types Entity record type Entity record Intern databasemodel Physical database Physical file (data set) Stored record Attribuutnaam en attribuutwaarde Logical data structures Data item Physical data structures (storage structures) 7

Elementen van fysieke gegevensopslag Data item: verzameling van "bits" of "characters" die de voorstelling vormen van een gegeven op computermedia Stored record: Verzameling van data items (die tesamen één entiteit beschrijven) Stored file (physical file, data set, data store): verzameling van stored records (die tesamen één entiteittype beschrijven) Stored database (physical database, database): geïntegreerde verzameling van stored files (die tesamen meerdere entiteittypen beschrijven) Storage structures (physical structures) Structuurmogelijkheden die bij gebruik van computergeheugenmedia worden aangewend voor het leggen van verbanden tussen gegevens Mogelijkheden: Adres-sequentiële connecties: Pointer-sequentiële connecties: Data-directe connecties: X Current element L X Current element X Data X + L Successor Y Y Successor Data-indirectie connecties: X Z Z Data 8

Mogelijke opslagstructuren: Adres-sequentieel data-direct: X X + L 1 X + L 1 + L 2 Element 1 Element 2 Element 3 L 1 L 2 Pointer-sequentieel data-direct: Element 1 Y Y Element 2 Z Z Element 3 Adres-sequentieel data-indirect: Element 2 Element 1 Element 3 Pointer-sequentieel data-indirect: Element 1 Element 2 Element 3 Informatiemodel Levnr Leverancier (1..1) (0..n) Aankooporder AODatum Levnaam AOnr Levadres Logisch databasemodel Leverancier (Levnr, Levnaam, Levadres) Aankooporder (Aonr, AODatum, Levnr) Lev 1 Lev 3 Lev 5 Intern databasemodel Leverancier 1 AO 05 AO 06 AO 13 Leverancier 5 AO 02 AO 03 AO 20 Leverancier 3 AO 01 AO 14 9

Extern databasemodel Modelbeschrijving van de deelverzameling van gegevens uit het logisch databasemodel die nodig is in het kader van de uitvoering van een bepaald programma Toegespitst op bepaalde gebruikersgroepen en/of applicaties Voorbeeld: Extern databasemodel 1: Leverancier_adres (Levnr, Levnaam, Levadres) Extern databasemodel 2: Leverancier_aankooporders (Levnr, Levnaam, Aonr, AODatum) Data collection function: samenvatting Het voorwerp van organisatie van opslag (intern databasemodel) bestaat uit data items, stored records, stored files en stored databases. Deze zijn fysieke implementaties van gegevens uit een logisch databasemodel, waarop gebruikers (programma's) verschillende invalshoeken kunnen hebben (externe databasemodellen). 10

Data storage function Data representations Storage hierarchies Characteristics of storage devices Storage device structures Data representations Numerieke gegevens: binaire vorm Alfanumerieke gegevens: "character representation codes" zoals ASCII, ANSI, EBCDIC en Unicode Stilstaand beeld en video: bitmap graphics, vector graphics Geluid: waveform, MIDI Compressie!!! 11

Alfanumerieke gegevens ASCII (American Standard Code for Information Interchange): 7-bit code, 2 7 = 128 verschillende tekens ANSI (American National Standards Institute): 8-bit code, 2 8 = 256 verschillende tekens EBCDIC (Extended Binary Coded Decimal Interchange Code): 8-bit code, 2 8 = 256 verschillende tekens Unicode: 16-bit code, 2 16 = 65536 verschillende tekens (genoeg voor alle karakters uit eender welke taal) Familie van Huffman codes: variabel aantal bits voor een karakter, cfr. compressie Multimedia datatypes: stilstaand beeld (graphics) Bitmap graphics: beschrijven van elke individuele "pixel" Aantal bits = 2 log(aantal kleuren) x resolutie van beeld Bijvoorbeeld voor een foto met een resolutie van 640x480 pixels: - Een monochrome versie vereist 1 x 640 x 480 bits = 38.400 bytes - Een 256-kleuren versie vereist 8 x 640 x 480 bits = 307.200 bytes Vector graphics: bestaan uit instructies die wiskundige figuren (lijnen, cirkels, ) beschrijven De benodigde opslagcapaciteit hangt af van de "complexiteit" van het beeld. 12

Multimedia datatypes: bewegend beeld (video) Bestaat uit een opeenvolging van stilstaande "frames" Elk frame is op zichzelf vastgelegd als een bitmap De benodigde opslagcapaciteit is afhankelijk van de kwaliteit van de aparte frames en van de frame rate Bijvoorbeeld: Aantal kleuren: 256 Frame size: 640 x 480 pixels Frame rate: 30 fps (frames per second) De benodigde opslagcapaciteit voor 1 uur video is dan: 8 x 640 x 480 x 30 x 3600 bits = 30,9 GB Compressie is noodzakelijk! Multimedia datatypes: geluid (sound) Waveform: digitale voorstelling van "samples" van de geluidsstroom Sample rate (1 KHz = 1000 samples per seconde): Telefoonkwaliteit: 8 KHz AM-radiokwaliteit: 11 KHz FM-radiokwaliteit: 22 KHz CD-kwaliteit: 44,1 KHz Een sample beslaat 16 bits. Een uur geluid van CD-kwaliteit vraagt dus: 44100 x 16 x 3600 bits = 302,8 MB MIDI (Music Instrument Digital Interface): een muziekstuk bestaat uit een aantal "tracks", die simultaan worden afgespeeld. Aan elk track kan een bepaald muziekinstrument worden toegewezen. Per track worden de te spelen muzieknoten vastgelegd, die dan door een synthesizer worden gegenereerd, waarbij het timbre van het betrokken instrument wordt gesimuleerd. De benodigde opslagcapaciteit hangt af van het aantal tracks en de complexiteit van elke track, maar is beduidend lager dan voor gesampled geluid. 13

Compressie Terminologie: Compressieratio: grootte van originele bestand grootte van gecomprimeerde bestand Lossless compression versus lossy compression Symmetrisch versus asymmetrisch CODEC (COmpression DECompression): algoritme dat een bepaalde vorm van compressie formaliseert Doel: Besparen op opslagcapaciteit Besparen op bandbreedte Compressie: technieken Algemene technieken: Adaptive pattern substitution: zxy zxy zxy wordt k k k, (k = zxy) Run length encoding: xxxxxxxx wordt 8*x Pointers: --zxy---zxy--zxy--- wordt --zxy---3--3--- Technieken voor stilstaand beeld: Run length encoding JPEG (Joint Photographic Expert Group): maakt gebruik van DCT (Discrete Cosine Transformation), waarbij "redundante" visuele gegevens worden weggelaten. Lossy! Technieken voor bewegend beeld: Motion JPEG, M-JPEG: JPEG toegepast op elk apart frame. Lossy! MPEG (Moving Pictures Expert Group): maakt gebruik van DCT en interframe coding, waarbij enkel het "verschil" tussen twee frames wordt opgeslagen. Lossy! Technieken voor geluid: MPEG layer 3 (MP3): weglaten van geluiden die nauwelijks kunnen waargenomen worden. Lossy! 14

Gestructureerde gegevens en metadata Gestructureerde gegevens: de gegevens vertonen een bepaalde regelmaat, die op een abstract niveau kan beschreven worden in de vorm van een logisch datamodel met entity record types en attributen. De gegevens zelf vormen instanties van deze types. Voorbeelden: relationele tabellen, bestanden met records, objecten in een objectgeoriënteerde database, Ongestructureerde gegevens: vertonen dergelijke structuur niet. Voorbeelden: videobestanden, geluidsbestanden, tekstdocumenten, Metadata: zijn gestructureerde gegevens die op hun beurt een beschrijving vormen van andere (al dan niet gestructureerde) gegevens. Document metadata Beschrijft eigenschappen van het fysieke bestand/document waarin de gegevens vervat zijn: naam van het bestand, auteur, datum van aanmaak, toegangsrechten Geeft informatie over een bestand of document in zijn geheel Is descriptief Toepasbaar op alle soorten gegevens Kan gebruikt worden voor het opzoeken van gehele bestanden 15

Semantic metadata Beschrijft eigenschappen van de concepten uit de werkelijkheid die in/door het bestand worden voorgesteld Geeft informatie over een bestand of document in zijn geheel Is descriptief Toepasbaar op alle soorten gegevens Kan gebruikt worden voor het opzoeken van gehele bestanden Structural metadata Beschrijft eigenschappen van concepten uit de werkelijkheid zoals die in de structuur van het bestand moeten worden weerspiegeld Geeft informatie over de onderdelen van een bestand of document Is descriptief én prescriptief Enkel toepasbaar op gestructureerde gegevens Kan gebruikt worden voor het opzoeken van onderdelen van bestanden/documenten 16

Soorten metadata: een voorbeeld Document metadata Auteur: W. Lemahieu Aangemaakt op: 21/3/2000 Titel Boek Auteur Korte inhoud Semantic metadata Boek-titel: File organisation Auteur: J. Vandenbulcke Korte inhoud:... Structural metadata Storage hierarchies In het ideale geval: één-niveau monolytisch geheugen, gebaseerd op één type van technologie, zodat eender welk gegeven aan dezelfde hoge snelheid toegankelijk is. Maar: er is geen enkele technologie die hoge snelheid van toegang tot de gegevens combineert met grote opslagcapaciteiten aan lage kosten. Over het algemeen geldt: hoe groter de toegangssnelheid tot de gegevens, hoe hoger ook de opslagkost per eenheid van gegeven, waardoor het economisch verantwoord wordt om de snellere gegevensdragers slechts in beperkte capaciteiten te gebruiken. 17

Storage hierarchies Gezien het feit dat niet alle opgeslagen gegevens even snel toegankelijk hoeven te zijn, maakt men in de praktijk gebruik van storage hierarchies: Top van de piramide: zeer snelle toegang, hoge kost, beperkte capaciteit Bodem van de piramide: minder snelle toegang, lagere kost, ruimere capaciteit Voor elke technologie voor gegevensopslag bestuderen we: De kenmerken De hieraan verbonden kosten De daardoor beperkte capaciteiten Enkele rekeneenheden Opslagcapaciteit: Byte: Kilobyte (KB): Megabyte (MB): Gigabyte (GB): Terabyte (TB): Tijd: Milliseconde: Microseconde: Nanoseconde: Picoseconde: 8 bits 1.024 bytes 1.048.576 bytes 1.073.741.824 bytes 1.099.511.627.776 bytes 10-3 seconde 10-6 seconde 10-9 seconde 10-12 seconde 18

Architectuur van opslaghiërarchieën Upper-level storage hierarchy Lower-level storage hierarchy CPU HSB Central storage Expanded storage DASD cache DASD TAPE / CD / DVD I/O boundary Upper level storage hierarchy CPU 0 CPU 1 CPU 2 HSB HSB HSB Central storage System control element Expanded storage Channels 19

Lower level storage hierarchy Channels Control unit Cache Control unit Cache DASD DASD DASD DASD Tape / CD / DVD Characteristics of storage devices Tape storage devices Magnetic disk storage devices CD-ROM, CD-R, CD-RW DVD-ROM, DVD-RAM 20

Algemene kenmerken van tape storage devices Vroeger: het meest gebruikte medium voor de massale opslag van gegevens Goedkoop en compact Het medium: een dunne, plastic film, bedekt met een laagje magneet-oxide De drive: sequentiële toegang, gegevens kunnen enkel serieel worden gelezen/geschreven Soorten en eigenschappen van tape-systemen Er bestaan 2 methoden van opslag van gegevens op tape: linear recordings en helical recordings Linear tape: Track Block Interblock gap Blocking factor: aantal records in één block 21

Soorten en eigenschappen van tape-systemen (vervolg) Rekeneenheden: 1 inch = 2,54 cm 1 foot = 30,48 cm Enkele cijfers: Tape density: typisch 800, 1600 of 6250 bpi (bytes per inch). Recent tot 38.000 bpi Tape length: typisch 300, 2400 tot 3600 feet Tape speed: typisch 25, 75, 100 tot 200 ips (inch per second) Tape reel versus tape cartridge Schatten van de benodigde tape-lengte b = block size = fysieke lengte van data-block g = lengte van interblock-gap n = aantal data-blocks Benodigde opslagspace s = n*(b+g) Voorbeeld: file met 1 miljoen 100-byte records opslaan op een 6250 bpi tape met een interblock gap van 0,3 inch Stel: blocking factor = 1 b = (100 bytes) / (6250 bpi) = 0.016 inch s = 1.000.000 x (0,016+0,3) inch = 316.000 inch = 26.333 feet Stel: blocking factor = 50 b = (50 x 100 bytes) / (6250 bpi) = 0.8 inch s = (1.000.000 / 50) x (0,8+0,3) inch = 22.000 inch = 1.834 feet Past op 2400-foot tape 22

Effectieve versus nominale recording density Effective recording density = Aantal bytes per block aantal inches nodig voor één block Voorbeeld: Nominaal: 6250 bpi Effectief met BF = 1: 100 bytes / (0,016 + 0,3) inches = 316,4 bpi Effectief met BF = 50: 5000 bytes / (0,8 + 0,3) inches = 4545,4 bpi Schatten van de benodigde transfer time Nominal transfer time: nominal tape density x tape speed Effective transfer time: effective recording density x tape speed Voorbeeld: Nominaal: 6250 bpi x 200 ips = 1250 KB/sec Effectief met BF = 1: 316,4 bpi x 200 ips = 63,3 KB/sec Effectief met BF = 50: 4545,4 bpi x 200 ips = 909,1 KB/sec 23

Evaluatie van tape Blijft belangrijk voor archivering en back-up Veel goedkoper dan magnetische "disk" en zeer makkelijk streamen van grote bestanden tussen tape en disk Minder zinvol voor rechtstreekse gegevenstoegang wegens de trage sequentiële toegang Magnetic disks / DASD's Soorten disks Eigenschappen van DASD's DASD I/O overwegingen Formatteren van disks Voor- en nadelen van DASD's 24

Soorten disks Floppy disks Hard disks Large hard disks Floppy disks 5,25 inch of 3,5 inch diskettes Polyester film met een magnetische laag eroverheen Vooral gebruikt op PC's Access time: 100 ms (milliseconds) Opslagcapaciteit van een 3,5 inch diskette: Een floppy bestaat uit 80 tracks Een track bestaat uit 18 sectors Een sector biedt 512 bytes opslagcapaciteit Dubbelzijdig gebruikt Totale opslagcapaciteit: 512 bytes x 18 x 80 x 2 = 1,44 MB Ook nog: ZIP disk (tot 250 MB) 25

Hard disks Bestaat uit meerdere "platters", die met een magnetische coating zijn bedekt Toegangsarm met read/write heads Vast gemonteerd in een drive Typische opslagcapaciteit: enkele tientallen GB Access time: 10 25 ms 26

Platter Architectuur van hard disks Spindle Track Actuator Read/Write head Sector Arm Cylinder Disk rotation Actuator movement Verdere opdeling van hard disks en large hard disks Naar portabiliteit: Removable hard disks Non-removable hard disks Naar "head motion" mogelijkheden Fixed head hard disk Movable head hard disk 27

Het formatteren van schijven Een schijf moet format-informatie bezitten, zodat de lokaties waar gegevens op geregistreerd staan, kunnen worden geïdentificeerd. Sector-mode: tracks zijn opgedeeld in sectors van vaste lengte. Free block-mode: tracks zijn opgedeeld in gehele aantallen user-defined blocks. Deze kunnen zowel een vaste als een variabele lengte hebben, bepaald door de file designer. Het formatteren van schijven: sector mode Interleaved (vroegere schijven): 5 1 2 8 4 6 3 7 3 4 Non-interleaved (recente schijven): 2 1 8 7 5 6 28

De FAT (File Allocation Table) Een cluster bestaat uit een vast aantal (logisch) aaneengesloten sectors. Eens een cluster gelocaliseerd, kunnen al zijn sectors zonder bijkomende seek gelezen worden. De system administrator bepaalt het aantal sectors in een cluster. Een file bestaat uit een reeks clusters. De File Allocation Table bevat een lijst van alle clusters in een file, geordend volgens de logische volgorde van de sectors die ze bevatten. Er wordt een verwijzing naar de fysieke locatie van elke cluster bijgehouden. FAT-uittreksel voor file X Cluster # 1 2 3 Locatie Het formatteren van schijven: free block mode Probleem van sector mode indien de grootte van een sector geen veelvoud is van de grootte van een record: Ofwel interne fragmentatie Ofwel records die twee sectors overspannen Daarom: free block mode: een track is opgedeeld in blocks van variabele of vaste grootte, gescheiden door interblock gaps. De grootte van de blocks kan door de file designer gekozen worden, zodat een block steeds een geheel aantal records omvat (cfr. blocking factor). 29

Het formatteren van schijven: free block mode Count data block Count subblock Data subblock Interblock gap Intersubblock gap Count subblock Count key data block Key subblock Data subblock Interblock gap Key-intersubblock gap Intersubblock gap Nondata overhead Sector-addressable disks: preformatting overhead, opgeslagen aan het begin van elke sector Sector adres Track adres Conditie: usable/defective Block-addressable disks: Count subblocks: fysieke adres van block en aantal bytes in data (en key-) subblock Key subblock: primaire sleutel van laatste record in data subblock Interblock gaps en intersubblock gaps Hoe groter de block size hoe lager de overhead, maar: risico op interne fragmentatie op niveau van tracks! 30

Physical device structures Block, sector of cluster (aantal stored records) Track (aantal clusters, sectors of blocks) Cylinder (aantal tracks) Drive (aantal cylinders) Allocatie van stored data naar physical device structures: Low level mapping: stored record block, sector of cluster Upper level mapping: physical file drive Physical allocation of stored data to physical device structures Medium model Drive Intern model Physical file Cylinder Track Block Blocking factor Stored record Data item 31

DASD I/O overwegingen Belangrijkste maat voor performantie van DASD's: Response time Service time + Queuing time Seek time Rotational delay DASD transfer time Channel busy wait DASD control unit busy DASD busy wait Service time Seek time (access motion time): tijd die nodig is om access arm te positioneren op de gewenste cylinder Min. seek time Max. seek time Seek time = f(n cylinders) Read-write head selection Rotational delay: tijd die nodig is tot het block met de vereiste gegevens onder de read-write head komt Transfer time: tijd die nodig is voor het kopiëren van een block f(rotational speed, density of recorded data, block size) 32

Vergelijkingen in verband met disk service time SBA: sequential block access: blocks worden gelezen in dezelfde aaneengesloten volgorde als waarin ze zijn opgeslagen (fysiek sequentieel) RBA: random block access: blocks worden gelezen in een volgorde die volledig onafhankelijk is van de volgorde van opslag Definities: ROT = full rotation time (msec) BKS = Block size (bytes) TR = Transfer rate (KB/sec) Seek(NCYL): Verwachte seek time TSBA = ROT/2 + BKS/TR TRBA = Seek(NCYL) + ROT/2 + BKS/TR Specificaties van een typische disk drive (Seagate Cheetah 9) Capacity Minimum seek time Average seek time Maximum seek time Spindle speed Average rotational delay Max. transfer rate Bytes per sector Sectors per track Tracks per cylinder Cylinders 9 GB 0,78 msec 8 msec 19 msec 10.000 rpm 3 msec 14.506 bytes/msec 512 170 16 6582 33

Voorbeeld van benodigde opslagcapaciteit Gegeven: een file met 50.000 fixed-length records van elk 256 bytes wordt opgeslagen op een Seagate Cheetah 9 drive Benodigde opslagcapaciteit: 2 records per sector, dus in totaal zijn 25.000 sectors benodigd Aantal sectors per cylinder = 170 x 16 = 2720 Aantal cylinders = 25.000/2720 = 10 cylinders Voorbeeld van transfertijden De tijd benodigd om een block van 4096 bytes af te halen van een Seagate Cheetah 9 drive is: TSBA = 3 msec + 4096 bytes/(14.506 bytes/msec) = 3,28 msec TRBA = 8 msec + 3 msec + 4096 bytes/(14.506 bytes/msec) = 11,28 msec 34

Invloed van blocking op transfertijd en benodigde opslagruimte Vermindert het aantal data transfer-opdrachten voor het kopiëren van een bestand van schijfgeheugen naar centraal geheugen. Deze opdrachten zijn tijdrovend omwille van seek time en rotational delay. Vb.: om een unblocked file van 1000 records te transfereren zijn er 1000 data transfers nodig. Met een blocking factor 10 zijn het er nog 100. Reduceert het aantal interblock gaps. Vb.: in bovengenoemd geval zijn er 999 gaps wanneer de records niet geblokt zijn. Met een blocking factor 10 zijn het er slechts 99. MAAR:! Disk versus tape Disk: Biedt direct access Updates op bestand zelf Recente verbeteringen op gebied van snelheid en opslagcapaciteit Enige optie voor real-time systemen Tape: Nog steeds veel goedkoper dan disk Enkel sequentiële access Ondersteunt slechts één proces tegelijk Nuttig voor batch-verwerking, backup en archivering 35

Optische schijven Optische schijven maken gebruik van lasertechnologie voor het lezen (en eventueel schrijven) van gegevens. De laser tast het oppervlak van de schijf af. De wijze waarop het laserlicht wordt weerkaatst door "spots" op het schijfoppervlak bepaalt of een bit 1 of 0 is. Soorten optische schijven Er bestaan drie basissoorten, afhankelijk van de schrijf- en herschrijfmogelijkheden: Read-only optical disk: zoals bij audio-cd's zijn de gegevens vooraf geregistreerd. Ze kunnen enkel gelezen worden en dus niet gewijzigd. Voorbeelden: CD-ROM, DVD-ROM. WORM (Write Once Read Many) optical disk: Je kan zelf gegevens schrijven op de schijf, maar je kan dit slechts éénmaal. Nadien "gedraagt" de WORM-disk zich zoals een read-only disk. Voorbeelden: CD-R, DVD-R Erasable optical disk: deze optische schijf kan worden gewist, zodat er achteraf nieuwe gegevens op kunnen worden opgenomen. Voorbeelden: CD-RW, DVD-RW, DVD+RW, DVD-RAM 36

CD-ROM Plastic schijf met een diameter van 120 mm, waarin minuscule "pits" de bits voorstellen. Opslag in opeenvolgende sectors van 2 KB die één enkel, spiraalvormig track vormen overheen de gehele CD, beginnend vanuit het centrum. Sector-addressering: gebaseerd op audio-cd standaard Elke seconde afspeeltijd is opgedeeld in 75 sectors Elke sector bevat 2 KB data Standaard afspeeltijd = 74 minuten Totale opslagcapaciteit: (74 x 60) sec x (75 x 2) KB/sec = 650 MB Transfersnelheid: Constant linear velocity (CLV) Constant angular velocity (CAV) 37

Transfersnelheid van CD-ROMs: constant linear velocity (CLV) Definitie: De lineaire snelheid (en dus ook de transfer rate) blijft constant. De rotatiesnelheid wordt lager en lager naarmate men de buitenkant van de schijf bereikt. Voor een single-speed CD-ROM (cfr. Audio-CD): Constante lineaire snelheid van 1,3 m/sec Constante transfer rate van 150 KBps Rotatiesnelheid varieert van 500 rpm (binnenste "tracks") tot 200 rpm (buitenste "tracks") Gevolg: hogere rotational delay naarmate een sector verder naar buiten gelegen is X speed CD-ROM: X * 150 KBps Transfersnelheid van CD-ROMs: constant angular velocity (CAV) Definitie: de rotatiesnelheid blijft constant. De lineaire snelheid (en dus ook transfer rate) zal variëren afhankelijk van welke sector men leest: hoe verder naar de buitenzijde van de CD, hoe hoger de snelheid. Voordelen tegenover CLV: Lagere access time bij random toegang aangezien geen abrupte snelheidswisselingen meer nodig zijn Lagere rotational delay en hogere transfer rates voor de buitense sectors Voorbeeld voor een 48-speed CAV CD-ROM drive: Constante rotatiesnelheid: 12000 rpm Data tranfer rate (op de buitenste sectors): 7,2 MBps 38

Evaluatie van CD-ROMs Voordelen: "Grote" opslagcapaciteit Het medium is goedkoop en zeer duurzaam Verwisselbare schijven! Zeer eenvoudig te repliceren Nadelen: Hogere toegangstijden (70-200 msec), lagere rotational speeds, lagere transfer rates dan hard disks Read-only (vroeger!) CD-R Formaat en werking: cfr. gewone CD-ROM. Een CD-R is een voorbeeld van een phase-change WORM: een bit wordt voorgesteld door een materiaal dat een fase-verandering kan ondergaan, waarbij het overgaat van kristallijne naar amorfe toestand. Net als bij een gewone CD-ROM wordt het oppervlak van de CD afgetast door een laser. In kristallijne toestand vormt het materiaal een goede lichtreflector, in amorfe toestand niet. De toestandsverandering is onomkeerbaar: een CD-R kans dus éénmaal beschreven worden en daarna onbeperkt gelezen. Een CD-R kan in elke CD-ROM speler gelezen worden en wordt beschreven in een speciale CD-writer. 39

CD-RW Een CD-RW is een erasable optical disk. Zelfde principe als CD-R, maar de toestandverandering is nu wel omkeerbaar. Daardoor kan een CD-RW quasionbeperkt beschreven, gelezen en weer overschreven worden. Een CD-RW kan in alle recentere CD-ROM spelers gelezen worden en wordt beschreven in een speciale CDwriter. DVD (Digital Versatile Disk) Zelfde uitzicht als CD: een ronde schijf met een diameter van 120 mm Oorspronkelijk: opslagmedium én bestandsformaat voor digitale video Het medium kan echter ook gebruikt worden voor algemene data storage Grotere opslagcapaciteit dan CD: Grotere dichtheid: 4,7 GB per layer Dubbelzijdig 2 layers per zijde Capaciteit: Single layer: 4,7 of 9,4 MB Double layer: 8,5 of 17 MB Date transfer rate voor 1-Speed DVD-ROM: 1250 KBps 40

DVD-R, DVD-RAM, DVD-RW en DVD+RW 4,7 GB opslagcapaciteit op single-sided disk DVD-R: Zelfde principe als CD-R DVD-RAM, DVD-RW en DVD+RW: zelfde principe als CD-RW Momenteel: het grootste probleem is compatibiliteit!!! Overige opslagtechnologieën Flash memory: niet-volatiel halfgeleidergeheugen dat kan beschreven, gewist en opnieuw beschreven worden Magneto-optical disks Toekomst: holographic optical storage??? 41

Besluit i.v.m. storage devices On-line systemen: in de toekomst misschien ook optische technologieën of systemen gebaseerd op niet-volatiel halfgeleidergeheugen, maar voor de komende jaren: magnetische schijven. Archivering: tape, nu meer en meer ook CD-R, eventueel in de toekomst DVD-R Storage device structures Recente ontwikkelingen: DASD's als bottleneck Disk arrays en RAID Enterprise storage subsystems: Technologieën: SCSI, Fibre Channel, Ethernet, Architecturen: DAS, SAN, NAS, Functionaliteit 42

Recente ontwikkelingen op gebied van DASD-technologie Schijventechnologie evolueert voortdurend: Schijvencapaciteiten van top-schijven verdubbelen om de 18 maanden. Het magische cijfer 1 MB kost $ 1 komt binnen bereik. Ondanks alle vooruitgang op het vlak van schijventechnologie blijft het zo dat, wanneer de huidige trends zich doorzetten, de "performance gap" tussen processoren en schijven groter dreigt te worden. DASD's als bottleneck DASD's zijn traag in vergelijking met halfgeleidergeheugen, CPU en high-speed netwerk. Een proces is disk-bound wanneer CPU of netwerk moeten wachten op disk I/O. De uitvoeringstijd van het proces is "gebonden" aan disk toegang. Mogelijke oplossingen: Multi-tasking: de CPU "switcht" tussen verschillende processen Command reordering Disk caching Disk arrays en parallellisme: gebruik van meerdere disks voor verschillende delen van een bestand disk striping, RAID Opslagnetwerken (SAN, NAS, ) 43

Disk arrays Disk arrays organiseren meerdere onafhankelijke schijven in één zeer grote en erg performante logische schijf. Ze verdelen de gegevens over meerdere schijven, waarop naderhand de gegevens in parallel kunnen worden teruggezocht, wat tot een sterk verbeterde performantie leidt. Daar tegenover staat echter dat disk arrays met vele schijven veel kwetsbaarder zijn voor het optreden van allerlei stoornissen. Vandaar het idee om bepaalde redundantie (in de vorm van error correcting codes) in te bouwen zodat een hoge performantie toch kan worden gekoppeld aan een hoge betrouwbaarheid. Disk arrays (vervolg) Enkele afkortingen: SLED: Single Large Expensive Disk JBOD: Just a Bunch Of Disks RAID: Redundant Array of Independend Disks Technieken: Data striping: onderdelen ("strips") van een bestand worden overheen meerdere disks verdeeld (bit level, block level), zodat deze in parallel kunnen gelezen of geschreven worden. Met n disks, gaat bit/block i van een bestand naar disk (i mod n) + 1. Redundancy: "overtollige" gegevens worden bijgehouden om de betrouwbaarheid te verhogen. Disk mirroring: elke disk heeft een dubbel, een "mirror" met exact dezelfde data. 44