Relationele databases: structuur

Vergelijkbare documenten

1 Relationele databases: structuur

In deze appendix wordt bekeken wat er moet gebeuren voordat

Inhoud leereenheid 3. Normalisatie. Introductie 67. Leerkern 68. Samenvatting 85. Zelftoets 87. Terugkoppeling 89

Relationele databases en SQL Leo Wiegerink, Jeanot Bijpost, Marco de Groot

Entiteit Zaken en gebeurtenissen waarvan gegevens moeten worden vastgelegd worden een entiteit genoemd: b.v. mens, voorstelling, auto.

Cursus Access voor Beginners Hoofdstuk 2

Bijlage Inlezen nieuwe tarieven per verzekeraar

Systeemontwikkeling, Hoofdstuk 4, Tabellen maken in MS Access 2010

3. Structuren in de taal

Workshop 3x. Normaliseren. Normaliseren. Hiëarchische database ODBMS. Relationele database. Workshop 14 oktober A. Snippe ICT Lyceum 1

DATABASEBEHEER IN EXCEL

Rekenen aan wortels Werkblad =

Les S-01: De basisbeginselen van SQL

Handicom. Symbol for Windows. Image Manager. (Versie 4) Handicom, 2011, Nederland

Inhoud. Introductie tot de cursus

case: toestandsdiagrammen

Normaliseren voor Dummies

Info-books. Toegepaste Informatica. Handleiding. Deel 40c : Gegevensbeheer en algoritmen in Access. HA40c. Jos Gils Erik Goossens

Inhoudsopgave Voorwoord 5 Nieuwsbrief 5 Introductie Visual Steps 6 Wat heeft u nodig? 6 De volgorde van lezen 7 Uw voorkennis

Handicom. Symbol for Windows. Image Manager. (Versie 3) Handicom, 2006, Nederland

Uitleg van de Hough transformatie

1.3 Rekenen met pijlen

Sum of Us 2014: Topologische oppervlakken

Inhoudsopgave Voorwoord 7 Nieuwsbrief 7 De website bij het boek 8 Introductie Visual Steps 8 Meer over andere Office programma s

Als er besloten is een database op te stellen dient men een analyse van de informatiegegevens te volbrengen.

Inhoud. Introductie tot de cursus

Getal en Ruimte wi 1 havo/vwo deel 1 hoofdstuk 4 Didactische analyse door Lennaert van den Brink ( )

TECHNISCHE UNIVERSITEIT EINDHOVEN. Faculteit Wiskunde en Informatica

3. Een dia met een tabel

Een database voor MEDIAGROEP DE CASE OBJECTTYPEN EN LABELTYPEN

Trillingen en geluid wiskundig. 1 De sinus van een hoek 2 Uitwijking van een trilling berekenen 3 Macht en logaritme 4 Geluidsniveau en amplitude

Morenaments Ornamenten met symmetrie. Werkblad vooraf met begeleidende tekst en oplossingen

Informatie & Databases

1 De werkmap beschermen

Waarom Access. In de onderstaande afbeelding ziet u een begin van de lijst met cliëntgegevens van de diëtiste.

Netwerkdiagram voor een project. AON: Activities On Nodes - activiteiten op knooppunten

Hoofdstuk 16: Grafieken en diagrammen: hoe

PROGRAMMA Vak: informatica..

Over Plantinga s argument voor de existentie van een noodzakelijk bestaand individueel ding. G.J.E. Rutten

Referentieniveaus uitgelegd. 1S - rekenen Vaardigheden referentieniveau 1S rekenen. 1F - rekenen Vaardigheden referentieniveau 1F rekenen

Handleiding Japanse puzzels

Maak automatisch een geschikte configuratie van een softwaresysteem;

case: use-case-diagram

Startgids 061 Nieuw product aanmaken en wijzigen

Hoofdstuk 26: Modelleren in Excel

Excel reader. Beginner Gemiddeld.

3. Een dia met een grafiek met Excel 2007

Inhoudsopgave Voorwoord 5 Nieuwsbrief 5 Introductie Visual Steps 6 Wat heeft u nodig? 6 De volgorde van lezen 7 Uw voorkennis

Les S-01: De basisbeginselen van SQL

Inhoudsopgave Voorwoord 7 Nieuwsbrief 7 De website bij het boek 7 Introductie Visual Steps 8 Wat heeft u nodig? 8 Uw voorkennis 9 Bonushoofdstukken

2. Een adressenbestand maken in Excel

Breuksplitsen WISNET-HBO NHL. update juli 20014

Netwerkdiagram voor een project. AOA: Activities On Arrows - activiteiten op de pijlen.

PLAKKEN Nadat u een gedeelte heeft geknipt of gekopieerd kunt u met dit icoon de selectie weer in het veld plakken.

Stap 5. Koppel vervolgens de Stages aan de AIOS op het blad AIOS Stageplaats (figuur 5). Nu kunnen de Stage specifieke afspraken aangemaakt worden.

2.4.4 LibreOffice Werkblad Mac

Handleiding. Serviceportal. Versie 1.3 Datum

Met de functies Verticaal zoeken of Horizontaal zoeken kun je gegevens in het rekenblad laten opzoeken en weergeven.

Undo (ongedaan maken) in Picasa

Relationele databases: regels

Excel Van rookie tot wizard. Willem De Meyer Hans Vanlanduyt. Acco Leuven / Den Haag

Een inleiding in de Unified Modeling Language 79

Bij een ideaal rooster voor n = 2k 1 teams speelt elk team afwisselend uit en thuis, en dat blijkt ook te kunnen.

Handleiding bij de Booktest Generator

Maak van je tabel een database. Handleiding van Helpmij.nl

9 Werken met meer tabellen (zie ook query s)

3 Wat is een stelsel lineaire vergelijkingen?

Werken met eenheden. Introductie 275. Leerkern 275

2.2 Een tabel ontwerpen

Koppeling met een database

ling van die eigenschap binnen het model geldt. In het bijzonder bij het wiskundig modelleren van een programma kan een eigenschap met wiskundige zeke

2. Syntaxis en semantiek

ACCEPETEREN RESERVERING

Examen VWO. wiskunde A1,2 Compex. Vragen 11 tot en met 17. In dit deel van het examen staan de vragen waarbij de computer wel wordt gebruikt.

Examen VWO - Compex. wiskunde A1

EMBEDDED SQL. Inleiding. Queries en update-opdrachten. Embedden en hostvariabelen

Versie: 0.2. Gebruikershandleiding XOPUS XML-editor

DATAMODELLERING CRUD MATRIX

Offective > CRM > Vragenlijst

Databases gebruiken. Databases gebruiken

Inhoudsopgave Voorwoord 9 Nieuwsbrief 9 De website bij het boek 9 Introductie Visual Steps 10 Wat heeft u nodig? 11 Hoe werkt u met dit boek?

Technische handleiding database ontslagmanagement

Koppeling met SnelStart

Trillingen en geluid wiskundig

Magidoku s en verborgen symmetrieën

PROGRAMMA Vak: Informatica..

Offective > Verkoop > Offertes

2. Syntaxis en semantiek

case: ocl-expressies

Sparse columns in SQL server 2008

HANDLEIDING INFOGRAPHIC SOFTWARE Versie 2.3 / jan 2014

Hoofdstuk 13: Sorteren & Filteren* 2010

Inhoud introductie. Introductie tot de cursus

Mengsel mix. Elieke van Sark en Liza Fredriks

1. Cellen en formules

Transcriptie:

Leereenheid Relationele databases: structuur Leereenheid Relationele databases: structuur I N T R O D U C T I E Een relationele database is één component van een groter systeem, een informatiesysteem. De database bevat, gestructureerd in de vorm van tabellen, de gegevens die voor gebruikers van het informatiesysteem de informatie opleveren die zij nodig hebben. Deze leereenheid gaat over de structuur van een relationele database en legt daarmee de basis voor al wat volgt. LEERDOELEN Na het bestuderen van deze leereenheid wordt verwacht dat u de kenmerken kunt noemen van een relationele gegevensstructuur en in het bijzonder van de tabel (in de wiskundige betekenis van relatie ) de begrippen herhalende groep, redundantie en inconsistentie kunt omschrijven, en kunt aangeven in hoeverre hiertussen directe verbanden bestaan voorbeelden kunt noemen van ongewenste en van gewenste redundantie in eenvoudige voorbeelden relationele structuurtransformaties kunt uitvoeren, leidend tot structuren zonder herhalende groepen en/of redundantie relationele structuren kunt weergeven in de vorm van een strokendia met verwijzingen weet wat normaliseren is en wat het verband is met standaardisatie het beginsel single point of definition in eigen woorden kunt omschrijven en met voorbeelden toelichten kunt aangeven wat het verschil is tussen gegevens en informatie in relatie tot de begrippen syntaxis en semantiek in eenvoudige voorbeelden de betekenis van gegevens kunt uitdrukken door middel van atomaire zinnen. Deze leereenheid heeft een studielast van 4 uur. L E E R K E R N Reijnders Toetjesboek Rdbms: zie leereenheid. In deze leereenheid en in beide volgende leereenheden staat één voorbeeldinformatiesysteem centraal: Reijnders Toetjesboek. Dit is een interactief receptenboek voor lekkere toetjes, op een computer die bij voorkeur is ingebouwd in het keukenaanrecht. Gezien deze huiselijke context is het aannemelijk dat op die computer een lokale versie van het relationele databasemanagementsysteem (rdbms) draait. In principe echter kan het rdbms ook elders draaien, op een externe server. De 59

Open Universiteit Databases applicatie op de keukenclient communiceert daar dan mee via een netwerkverbinding. In Reijnders Toetjesboek kunt u recepten van toetjes opzoeken, u kunt ze veranderen en u kunt er uw eigen recepten aan toevoegen. U kunt zoeken volgens allerlei criteria, bijvoorbeeld snel klaar te maken en/of caloriearm en/of met. Uit de ingrediëntinformatie wordt automatisch afgeleid hoeveel energie per persoon elk gerecht bevat, uitgedrukt in kilocalorieën (kcal). Er zijn beperkingen. Zo worden de ingrediënten in Reijnders Toetjesboek altijd gemeten in dezelfde maateenheid, ongeacht het gerecht. Bijvoorbeeld melk altijd in s en dus nooit in s. Verder is de opgegeven bereidingstijd een vaste waarde, ongeacht het aantal personen. Berekende waarden Figuur. toont een receptvenster, met informatie over het gerecht. Dit is een voorbeeld van hoe een clientproma (applicatie) informatie op een grafische manier aan een gebruiker kan presenteren. De meeste van de gepresenteerde gegevens zijn opgehaald uit de (relationele) database, waar ze in verschillende tabellen zijn opgeslagen. Een aantal echter zijn berekende waarden, die niet zijn opgeslagen, maar door de applicatie worden berekend. Eén waarde is ingevuld door de gebruiker. door applicatie berekend door gebruiker ingevoerd door applicatie berekend FIGUUR. Receptvenster voor het gerecht 60

Leereenheid Relationele databases: structuur Toelichting Het aantal personen kan door de gebruiker worden ingesteld; de initiële waarde is 4. De ingrediënthoeveelheden van een gerecht worden door de applicatie berekend uit de opgeslagen (maar niet afgebeelde) ingrediënthoeveelheden per persoon en het aantal personen. De energie per persoon van een gerecht wordt door de applicatie berekend uit de opgeslagen ingrediënthoeveelheden per persoon en de eveneens opgeslagen energiewaarden per eenheid. Relationeel model In de volgende paragrafen zullen we stap voor stap achterhalen wat de structuur is van de databasetabellen. Gaandeweg zullen we dan vertrouwd raken met de belangrijkste begrippen uit de relationele model, dat is de theorie over tabellen, de wijze waarop deze onderling samenhangen en de regels waaraan zij moeten voldoen. OPGAVE. De energie per persoon van een gerecht is een afgeleide waarde die door het rdbms zelf wordt berekend uit de energiewaarden van de ingrediënten (per maateenheid) en de hoeveelheden per persoon. Reken dit (uitgaande van figuur.) na voor, als gegeven is dat in de database de volgende (in het venster niet zichtbare) energiewaarden zijn opgeslagen: ijs 600 kcal per 40 kcal per stuk 336 kcal per 4 kcal per 30 kcal per Alle gegevens in één tabel In deze paragraaf zullen we een opslagstructuur bespreken (en verwerpen) waarbij alle gegevens in één tabel worden ondergebracht. Daarbij komen enkele belangrijke begrippen aan de orde: redundantie en herhalende groep.. EERSTE STAP NAAR RELATIONELE OPSLAGSTRUCTUUR Figuur. bevat drie tabellen met gerechtinformatie: één voor Coupe Kiwano, één voor en één voor. Per recept zijn vijf kenmerken opgenomen: de naam van het gerecht de energie per persoon (in kcal) de bereidingstijd de bereidingswijze de ingrediëntinformatie. Enkelvoudige en samengestelde gegevens (subtabel) De eerste vier hiervan zijn enkelvoudige gegevens: tekst of getalwaarden. In andere gegevensverzamelingen zijn ook andere enkelvoudige waarden mogelijk, zoals kalenderdata, of een foto of videofragment. Het criterium voor enkelvoudig gegeven is dat het rdbms zich niet hoeft bezig te houden met de interne structuur ervan. 6

Open Universiteit Databases gerecht energie per persoon (kcal) 43 bereidingstijd (minuten) 0 bereidingswijze Schil de, snijd hem in stukjes, voeg de toe en laat dit mengsel 5 minuten staan. Neem per persoon 3 bolletjes ijs en voeg hier de met aan toe. Serveer met gezoete, stijfgeslagen. ingrediënten product hoeveelheid per persoon eenheid energie per eenheid (kcal) ijs 0.3 0 600 40 336 4 30 gerecht energie per persoon (kcal) 403 bereidingstijd (minuten) 5 bereidingswijze Neem drie bolletjes ijs, voeg hieraan de gesneden toe, besprenkel dit rijkelijk met pernod en maak dit bijzondere gerecht af met versgemalen peper. ingrediënten product hoeveelheid per persoon eenheid energie per eenheid (kcal) ijs pernod peper 0. 600 35 gerecht energie per persoon (kcal) 3 bereidingstijd (minuten) 8 bereidingswijze Snijd de - geschilde - mango in stukjes, meng deze met de gehalveerde, en serveer dit met de zure room. ingrediënten product hoeveelheid per persoon eenheid energie per eenheid (kcal) mango zure room 0.4 80 95 FIGUUR. Schematische weergave van drie receptvensters Het vijfde kenmerk, de ingrediëntinformatie, is samengesteld: het is niet één waarde, maar een hele subtabel van waarden. Elke rij van zo n subtabel bevat gegevens over één ingrediënt in het betreffende gerecht: de product van het ingrediënt de hoeveelheid per persoon de maateenheid waarin het product wordt gemeten een kolom energie per eenheid, gemeten in kcal. Merk, afgezien van de subtabelweergave, de volgende verschillen op met figuur.. Het aantal personen is verdwenen; de waarde hiervan wordt immers niet in de database bewaard. De hoeveelheden (voor het boodschappenlijstje) komen niet meer voor. Deze worden door de applicatie berekend en hoeven dus niet te worden opgeslagen. De hoeveelheden per persoon zijn ervoor in de plaats gekomen. Hieruit en uit het aantal personen dat door een gebruiker wordt ingevuld kan de benodigde hoeveelheid van een ingrediënt worden berekend. Bij de producten is de energie per eenheid erbij gekomen; de Toetjesboek-applicatie heeft deze nodig om de energie per persoon van elk gerecht te kunnen berekenen. 6

Leereenheid Relationele databases: structuur In tegenstelling tot de hoeveelheden wordt de energie per persoon wel in de database opgeslagen. Het rdbms bevat een mechanisme waardoor ze automatisch worden herberekend als dat nodig is. De peper in heeft wat bijzonders: de hoeveelheid ontbreekt, evenals de eenheid en de energie per eenheid. Welnu, dat kan: dat is gewoon naar smaak! Afleidbare gegevens: in database of applicatie? Het was mogelijk geweest de hoeveelheden en de energiewaarden per persoon gelijk te behandelen: allebei opslaan in de database (met een mechanisme om hun waarden te laten herberekenen als dat nodig is) allebei berekenen in de applicatie (vlak voor ze worden getoond). Bewust hebben we het verschillend gedaan om beide mogelijkheden te illustreren. De vraag wanneer in de praktijk voor het één of voor het ander wordt gekozen, laten we in het midden.. ÉÉN TABEL MET SUBTABELLEN Rij Kolom Kolomnaam Logische rijstructuur Fysieke rijstructuur Alle genoemde kenmerken voor de drie gerechten kunnen we onderbrengen in één grotere tabel, met drie rijen en vijf kolommen, zie figuur.3. Merk op dat alle gegevens van één gerecht nu in één rij staan, en overeenkomstige kenmerken van gerechten in één kolom. Elke kolom heeft een kolomnaam. Door deze wijze van weergeven hebben we bereikt dat de logische rijstructuur overeenkomt met de fysieke rijstructuur. Dat wil zeggen dat een logische rij (de gegevens over één ding ) horizontaal wordt getekend, en een logische kolom (overeenkomstige gegevens van de dingen ) verticaal. Enkele kolomkoppen zijn wat compacter genoteerd: energiepp voor energie per persoon, energiepe voor energie per eenheid en hoeveelheidpp voor hoeveelheid per persoon. Het is belangrijk de samengestelde kolom ingrediënten als één enkele kolom te zien! Cel Cellen met subtabel Het snijpunt van een rij en een kolom heet een cel. De cellen in de kolommen gerecht, energiepp, bereidingstijd en bereidingswijze bevatten een enkelvoudige waarde. De cellen in kolom ingrediënten bevatten een samengestelde waarde: elke cel bevat een subtabel met vier kolommen. De kolom ingrediënten is dan ook de enige kolom waarvan de naam een meervoudsvorm is. De lichtgrijze achtergrond in kolom energiepp duidt aan dat de gegevens in deze kolom afleidbaar zijn. Naamgeving Merk op dat de kolom met gerechtnamen naam heet en niet gerecht. In het algemeen geven we een kolom nooit dezelfde naam (ongeacht hoofdof kleine letter) als een tabel. De kolomnaam naam drukken we uit dat een gerecht een naam heeft. (Een gerecht heeft geen gerecht!) 63

Open Universiteit Databases naam energiepp bereidingstijd bereidingswijze 43 0 Schil... ijs 403 5 Neem... ijs pernod peper 3 8 Snijd... mango zure room ingrediënten product hoeveelheidpp eenheid energiepe 0.3 0 0. 0.4 600 40 336 4 30 600 35 80 95 FIGUUR.3 Alle gegevens in één tabel, met drie rijen en vijf kolommen Is dit nu een geschikte tabelstructuur om de gegevens in de database op te slaan? Nee, want er kleven maar liefst drie bezwaren aan opslag volgens deze structuur: Bezwaar : bepaalde informatie wordt meer dan één keer opgeslagen Bezwaar : een tabelstructuur met subtabellen maakt het databasebeheer erg ingewikkeld Bezwaar 3: gegevens over producten worden alléén in de context van gerechten opgeslagen, terwijl producten een zelfstandig belang kunnen hebben. Meervoudige informatieopslag (redundantie), kolommen met subtabellen (herhalende groepen) en het principe dat alle soorten dingen een gelijkwaardige behandeling verdienen, worden in het vervolg van deze leereenheid uitgebreid behandeld..3 REDUNDANTIE Redundantie Op twee plaatsen wordt vermeld dat ijs wordt gemeten in. Dit is vaker dan nodig is; producten worden immers in Reijnders Toetjesboek altijd in dezelfde eenheid gemeten. IJs bijvoorbeeld in en in. Wanneer u dus bij leest dat ijs in wordt gemeten, weet u zonder verder te kijken dat dit ook voor geldt, en omgekeerd. We noemen dat: redundantie, ofwel redundante gegevensopslag. Redundant betekent overtollig: bepaalde gegevens zijn afleidbaar uit andere gegevens in de database. Zou u in de rij van Glace Terrace bij ijs wegstrepen, dan kon u het reconstrueren door bij de eenheid van ijs op te zoeken. Zie figuur.4. Die reconstrueerbaarheid uit andere gegevens is hét kenmerk van redundante opslag. Ook de kolom energiepe geeft aanleiding tot redundantie: van ijs wordt twee keer vermeld wat zijn energiewaarde is. 64

Leereenheid Relationele databases: structuur naam energiepp bereidingstijd bereidingswijze 43 0 Schil... ijs 403 5 Neem... ijs pernod peper ingrediënten product hoeveelheidpp eenheid energiepe 0.3 0 0. 600 40 336 4 30 35 FIGUUR.4 Redundante gegevensopslag: reconstrueerbaarheid uit de context Inconsistentie (inconsistente gegevensopslag) Redundante opslag kost extra opslagruimte, maar dat hier nauwelijks een bezwaar. Een echt bezwaar is het gevaar dat de gegevens onderling niet meer kloppen. Stel bijvoorbeeld dat bij staat dat ijs 600 kilocalorie per maateenheid bevat, en bij dat het 4 is, zie figuur.5. Eén van de twee moet dan fout zijn. We spreken van inconsistentie ofwel inconsistente gegevensopslag. Inconsistente gegevens zijn gegevens waarvan de betekenissen onderling strijdig zijn. Redundantie brengt vaak het gevaar van inconsistentie met zich mee. In de volgende paragraaf zullen we zien dat dit niet altíjd het geval is. naam energiepp bereidingstijd bereidingswijze 43 0 Schil... ijs 403 5 Neem... ijs pernod peper ingrediënten product hoeveelheidpp eenheid energiepe 0.3 0 0. 600 40 336 4 30 4 35 FIGUUR.5 Inconsistente gegevensopslag Gegevens Informatie Merk op dat we in het voorgaande enerzijds spreken over gegevens, anderzijds over informatie. Bij gegevens gaat het om afzonderlijke waarden, bij informatie om de betekenis van die waarden, die veelal alléén is uit te drukken in combinatie met andere waarden. Hoewel redundantie altijd te maken heeft met de betekenis van gegevens, zullen we toch ook wel spreken over redundante gegevens. Dat zijn dan gegevens die reconstrueerbaar zijn uit andere gegevens, op grond van betekenissen. In paragraaf 4. gaan we dieper in op het onderscheid tussen gegevens en informatie..4 GECONTROLEERDE REDUNDANTIE Gecontroleerde redundantie Behalve de kolommen eenheid en energiepe bevat figuur.4 nóg een kolom die aanleiding geeft tot redundantie: de kolom energiepp, die de energie per persoon van een gerecht aangeeft, gemeten in kilocalorieën. Deze kolom bevat zelfs uitsluitend redundante gegevens; de waarden worden immers berekend uit energiepe en hoeveelheidpp (hoe precies?). Dit is een geval van gecontroleerde redundantie: het is de bedoeling dat de gebruiker de berekende energiewaarde niet kan veranderen. Daardoor bestaat er geen gevaar voor inconsistente gegevens. 65

Open Universiteit Databases Trigger Het mechanisme om de juiste waarde steeds opnieuw te berekenen, is gebaseerd op triggers, een bepaald type promaatjes waarvan de code in de database is opgenomen. Zou de gebruiker bijvoorbeeld een hoeveelheid per persoon veranderen, dan zal het systeem automatisch de juiste trigger aanroepen en deze een nieuwe waarde voor de energiewaarde van het gerecht laten berekenen. Wijzigt de gebruiker een energiewaarde van een product, dan zal automatisch een andere trigger worden aangeroepen, die de energiewaarden per persoon aanpast van alle gerechten waar dat product in voorkomt. Het promeren van triggers (in een promeertaal die een uitbreiding biedt op de mogelijkheden van SQL) wordt besproken in leereenheid 3..5 HERHALENDE GROEPEN Herhalende groep Redundantie was één probleem van de tabelstructuur van figuur.3. Het tweede probleem was de kolom ingrediënten, die voor elke gerechtrij een subtabel met ingrediëntgegevens bevat. Zo n samengestelde kolom, die per rij van de hoofdtabel een subtabel bevat, wordt een herhalende groep genoemd (Engels: repeating group). Met groep worden de kolommen van de subtabellen bedoeld. Het predikaat herhalend is helaas wat ongelukkig gekozen. Herhalende groepen en redundantie Wat is er eigenlijk mis met een herhalende groep? Op het eerste gezicht lijkt het dat de herhalende groep verantwoordelijk is voor de redundantie in de kolommen eenheid en energiepe. Dit is echter maar schijn, want we zullen nog zien dat we de tabel op twee manieren kunnen omvormen: tot twee gerelateerde tabellen zonder redundantie, maar met herhalende groep tot twee gerelateerde tabellen met redundantie, maar zonder herhalende groep. Bezwaren van herhalende groepen Herhalende groep en redundantie staan dus los van elkaar. Echte bezwaren van herhalende groepen zijn: het databasebeheer wordt er veel ingewikkelder door ze leiden tot een ingewikkelder databasestaal gebrek aan symmetrie: het ene soort ding wordt heel anders behandeld dan het andere soort ding. Ingewikkelder databasebeheer Zouden de Toetjesboekgegevens volledig per gerecht worden opgeslagen, met een herhalende groep van ingrediënten, dan zou het invoegen van nieuwe rijen op twee niveaus moeten gebeuren, zie figuur.6: binnen een subtabel, bij het invoegen van een nieuw ingrediënt bij een bestaand gerecht binnen de hoofdtabel, bij het invoegen van een nieuw gerecht; hierbij moeten de gewone, enkelvoudige gerechtgegevens worden ingevoerd, maar ook een subtabel van ingrediënten, wat een heel ander soort bewerking is. 66

Leereenheid Relationele databases: structuur naam energiepp bereidingstijd bereidingswijze 49 0 Schil... ijs topaz ingrediënten product hoeveelheidpp eenheid energiepe 0.3 0.......................................... Macedoine 75 0 Snijd... mango tangarine cherimoya 600 40 336 4 30 60 80 60 75 toevoegen rij (met subtabel) in hoofdtabel toevoegen rij in subtabel FIGUUR.6 Invoegen van rijen op twee niveaus Gegevenstaal Ingewikkelder gegevenstaal Ook het verwijderen van rijen wordt ingewikkelder: het verwijderen van een rij in een subtabel is een ander soort bewerking dan het verwijderen van een volledige gerechtrij. Net zoiets geldt voor het wijzigen van gegevens en het opvragen van overzichten. We zullen nog zien dat al die bewerkingen en opvragingen worden gerealiseerd door opdrachten die zijn geformuleerd in een gegevenstaal. Die taal zou een stuk ingewikkelder worden wanneer we tabellen met herhalende groepen toelieten. Gebrek aan symmetrie Producten die in gerechten als ingrediënt voorkomen, worden alleen in de context van een gerecht opgeslagen. Dat is jammer, want ze hebben ook een belang van zichzelf. Je zou bijvoorbeeld een calorieëntabel kunnen samenstellen uit alle productinformatie, los van gerechten. Een neutrale, contextvrije benadering van de verschillende soorten van dingen zal een van de belangrijkste kenmerken blijken te zijn van een goedgestructureerde relationele database. Later zullen we hieraan het predikaat genormaliseerd toekennen. In de volgende paragraaf zullen we de rollen eens omkeren: producten krijgen daar de hoofdrol, terwijl de gerechten daaraan ondergeschikt worden gemaakt..6 OMKERING VAN HERHALENDE GROEPEN Omkering van herhalende groepen Een gerecht kan meerdere producten als ingrediënt bevatten. Daarom is de samengestelde kolom ingrediënten een herhalende groep, zie figuur.3. Omgekeerd kunnen we stellen: een product kan als ingrediënt voorkomen in meerdere gerechten. De consequentie is dat we gerechten moeten kunnen weergeven als herhalende groep ten opzichte van producten. Het is niet moeilijk die omkering uit te voeren, zie figuur.7. 67

Open Universiteit Databases naam eenheid energiepe ijs 600 gerechten gerecht energiepp bereidingstijd bereidingswijze hoeveelheidpp 43 403 0 5 Schil... Neem... 40 43 0 Schil... 336 43 0 Schil... 0.3 4 43 0 Schil... 0 30 43 0 Schil... 403 3 5 8 Neem... Snijd... pernod 35 403 5 Neem... peper 403 5 Neem... mango 80 3 8 Snijd... zure room 95 3 8 Snijd... 0.4 Product 0. FIGUUR.7 en als herhalende groep bij ingrediënten Tabelsplitsing Entiteit Entiteittype Elk entiteittype zijn eigen tabel De tabel heet nu Product: er is één rij per product. Er zijn vier kolommen, waarvan er één samengesteld is: per product is er een subtabelletje van gerechtgegevens. De subtabelletjes hebben vier kolommen met pure gerechtinformatie. De vijfde kolom echter, hoeveelheidpp, bevat informatie die betrekking heeft op de combinatie van een product en een gerecht. Vandaar dat deze zowel in figuur.3 als in figuur.7 deel uitmaakt van de herhalende groep. Merk op dat de tabelstructuur van Product, in tegenstelling tot die van, toelaat om producten zonder gerechten op te nemen. Bij een product zonder gerecht wordt de gerechtencel leeg gelaten. De omkering illustreert het punt gebrek aan symmetrie van paragraaf.5. We kunnen het ook willekeur noemen. Een weergave met herhalende groepen behandelt de dingen (gerechten en producten) waarvan eigenschappen in de tabel voorkomen, ongelijkwaardig. De kracht van een goed model is juist gelegen in een gelijkwaardige behandeling, onafhankelijk van de manier waarop een gebruiker later, via een applicatie, de gegevens gepresenteerd wil zien. Ook moet het mogelijk zijn later geheel nieuwe toepassingen bij dezelfde database te realiseren. In de volgende paragraaf zullen we transformaties uitvoeren waarbij we de herhalende groep en de redundantie kwijtraken. 3 Verbeterde tabelstructuren Herhalende groepen en redundantie zijn fenomenen die voortkomen uit het feit dat er informatie over meerdere soorten dingen in één tabel zit. In de volgende paragrafen worden zowel de herhalende groep als de gesignaleerde redundantie geëlimineerd door een bepaalde vorm van tabelsplitsing (of decompositie) toe te passen. Het uiteindelijke resultaat voldoet aan het principe elk soort ding zijn eigen tabel. Van nu af zullen we de dingen in de werkelijkheid (concreet of abstract) aanduiden met entiteiten en soorten van dingen met entiteittypen. We sluiten daarbij aan bij veelgebruikte terminologie uit de theorie en de praktijk van het informatiemodelleren. In deze terminologie luidt het principe: elk entiteittype zijn eigen tabel. 68

Leereenheid Relationele databases: structuur 3. ELIMINEREN VAN DE HERHALENDE GROEP Elimineren van herhalende groep Om de herhalende groep in de tabel van figuur.3 kwijt te raken, is een eenvoudige ingreep voldoende. Deze komt er ongeveer op neer dat we de herhalende groep er afknippen, zie figuur.8. Zouden we het bij knippen laten, dan zou er informatie verloren gaan: hoe weten we dan nog bijvoorbeeld dat de bovenste rij (ijs; ; ; 600) bij het gerecht hoort? Vandaar dat nog een kolom is toegevoegd voor het bijbehorende gerecht. naam energiepp bereidingstijd bereidingswijze ingrediënten product hoeveelheidpp eenheid energiepe 43 0 Schil... ijs 0.3 0 600 40 336 4 30 403 5 Neem... ijs pernod peper 0. 600 35 3 8 Snijd... mango zure room 0.4 80 95 naam energiepp bereidingstijd bereidingswijze 43 403 3 0 5 8 Schil... Neem... Snijd... Ingredient gerecht product hoeveelheidpp eenheid energiepe ijs ijs pernod peper mango zure room 0.3 0 0. 0.4 600 40 336 4 30 600 35 80 95 FIGUUR.8 Structuurtransformatie: elimineren herhalende groep De resultaatstructuur omvat twee tabellen zonder herhalende groep. Elke cel bevat een enkelvoudige waarde; er zijn geen cellen meer met een subtabel als waarde. De afgesplitste tabel heeft de passende naam Ingredient gekregen. De waarden in de toegevoegde kolom gerecht van Ingredient verwijzen naar de waarden in de kolom naam van. De redundantie is echter door de nieuwe structuur niet geëlimineerd. Die moeten we dus nog zien kwijt te raken. 69

Open Universiteit Databases 3. ELIMINEREN VAN REDUNDANTIE Het redundant voorkomen van eenheid- en van energiepe-waarden in Ingredient wordt veroorzaakt doordat dat pure productkenmerken zijn, terwijl Ingredient geen pure producttabel is. De ingrediënten in deze tabel zijn producten-in-gerechten, en producten komen daar meervoudig in voor. De oplossing is een pure productentabel Product te maken. In Product wordt van elk product eenmalig de productnaam vermeld met (ook eenmalig!) de waarden van de bijbehorende eenheid en energiepe. In Ingredient kunnen nu de kolommen eenheid en energiepe worden geschrapt. Zie figuur.9. naam energiepp bereidingstijd bereidingswijze 43 403 3 0 5 8 Schil... Neem... Snijd... Ingredient gerecht product hoeveelheidpp eenheid energiepe ijs ijs pernod peper mango zure room 0.3 0 0. 0.4 600 40 336 4 30 600 35 80 95 naam energiepp bereidingstijd bereidingswijze 43 403 3 0 5 8 Schil... Neem... Snijd... Product naam eenheid energiepe ijs pernod peper mango zure room 600 40 336 4 30 35 80 95 Ingredient gerecht product hoeveelheidpp ijs ijs pernod peper mango zure room 0.3 0 0. 0.4 FIGUUR.9 Structuurwijziging: elimineren van redundantie 70

Leereenheid Relationele databases: structuur Puntnotatie Er zijn nu twee kolommen met kolomnaam naam. We kunnen deze als volgt van elkaar onderscheiden:.naam en Product.naam. We zullen deze puntnotatie (tabelnaam+punt+kolomnaam) vaak gebruiken, ook voor unieke kolomnamen. Ook in SQL zullen we ons van de puntnotatie bedienen. We zagen er al een voorbeeld van in voorbeeld.. De kolomwaarden van Ingredient.gerecht verwijzen naar de kolomwaarden van.naam. En die van Ingredient.product verwijzen naar die van Product.naam. Deze verwijzingen vormen het cement tussen de tabellen. De kolom Ingredient.hoeveelheidPP bevat het enige kenmerk dat echt bij de combinatie van een gerecht en een kolom hoort. De niet-gecontroleerde redundantie is verdwenen. Er is nog steeds de gecontroleerde redundantie van kolom energiepp, maar daar is geen bezwaar tegen, integendeel. 3.3 ALTERNATIEF: EERST ELIMINEREN VAN REDUNDANTIE In paragraaf..5 hebben we betoogd dat herhalende groepen en redundantie losstaande fenomenen zijn. Ter illustratie zullen we nu éérst de redundantie elimineren en daarna de herhalende groep afsplitsen. De eerste stap is weergegeven in figuur.0. De resultaatstructuur is vrij van redundantie, maar heeft nog wel de herhalende groep. Het enige verschil is dat deze nu twee (sub)kolommen minder heeft. Zo zien we wat eerder werd geclaimd: dat we redundantie kunnen hebben zonder herhalende groep, of een herhalende groep zonder redundantie. Deze twee fenomenen zijn dus niet zo nauw verbonden als op het eerste gezicht misschien lijkt. De herhalende groep van de onderste -tabel in figuur.0 kunnen we eenvoudig kwijtraken volgens het in figuur.8 geïllustreerde recept. Het eindresultaat is dan hetzelfde als bij de eerdere werkwijze: de resultaatstructuur van figuur.9. 7

Open Universiteit Databases naam energiepp bereidingstijd bereidingswijze ingrediënten product hoeveelheidpp eenheid energiepe 43 0 Schil... ijs 0.3 0 600 40 336 3.9 35 403 5 Neem... ijs pernod peper 0. 600 35 3 8 Snijd... mango zure room 0.4 80 95 Product naam eenheid energiepe ijs pernod peper mango zure room 600 40 336 4 30 35 80 95 naam energiepp bereidingstijd bereidingswijze ingrediënten product hoeveelheidpp 43 0 Schil... ijs 403 5 Neem... ijs pernod peper 3 8 Snijd... mango zure room 0.3 0 0. 0.4 FIGUUR.0 Elimineren van redundantie, vóór afsplitsen van herhalende groep 3.4 ELK ENTITEITTYPE ZIJN EIGEN TABEL In de oorspronkelijke tabel, met een volledig recept per rij, waren producten ondergeschikt aan gerechten. Dat kwam doordat die structuur vanuit één bijzonder gezichtspunt was ontworpen: het gezichtspunt van de recepten. Deze structuur maakt het onmogelijk om een product op te slaan zonder tegelijk ook een gerecht op te nemen waarin dat product als ingrediënt voorkomt. Terwijl het heel aardig zou zijn om helemaal los van recepten een aparte lijst aan te leggen met producten als mogelijke ingrediënten, bijvoorbeeld om te gebruiken voor een calorieëntabel. In paragraaf.5 wezen we hier al op en op gebrek aan symmetrie. Er vindt een ongelijkwaardige behandeling plaats van verschillende typen informatie, die ook los van elkaar van belang kunnen zijn voor de gebruiker. 7

Leereenheid Relationele databases: structuur De structuur van figuur.9 behandelt gerechten en producten op een meer neutrale en gelijkwaardige manier. en en producten worden als zelfstandige entiteiten beschouwd. Elk entiteittype heeft zijn eigen tabel. Ook Ingredient hoort tot zo n entiteittype: dat van de ingrediëntregels bij een gerecht. Merk op dat de database producten kan bevatten die in geen enkel gerecht voorkomen. Dit wordt geïllustreerd in figuur.: hier is de tabel Product uitgebreid met een rij voor het product banaan, dat in geen enkel gerecht als ingrediënt wordt gebruikt. Deze figuur bevat nóg een verandering: een aparte tabel voor (gestandaardiseerde) eenheden, zie hiervoor de volgende paragraaf. Hoe entiteiten en entiteittypen nog meer kunnen heten In deze cursus gebruiken we de term entiteittype als classificatieterm voor dingen die vanuit het oogpunt van een informatiebehoefte overeenkomstige kenmerken hebben. Eigenlijk gaat het daarbij nooit om de concrete dingen zelf, maar om een abstractie daarvan: de kenmerken die ertoe doen. In andere teksten kan men voor entiteittype andere termen tegenkomen, zoals entiteit, objecttype of klasse. Een mooie omschrijving vinden we zelf soort van ding. Een ding zelf kan behalve entiteit ook entiteitinstantie of object heten. 3.5 NORMALISEREN EN STANDAARDISEREN Volledig genormaliseerde structuur Normalisatietheorie Standaardiseren van gegevens De drie tabellen in het onderste deel van figuur.9 vormen een zogenaamde volledig genormaliseerde structuur. Dat wil zeggen dat er geen herhalende groepen zijn en geen redundantie. Het verwijderen van herhalende groepen en redundantie, door tabellen van een grotere tabel af te splitsen, heet normaliseren. De theorie waarin dergelijke structuurtransformaties worden bestudeerd, heet normalisatietheorie; het is een klassiek onderdeel van de theorie van relationele databases. In leereenheid 6 gaan we hier dieper op in. Nauw verbonden met normaliseren is standaardiseren van bepaalde gegevens. Ook dit kunnen we toelichten aan de hand van het Toetjesboek. We zullen zien hoe we het gebruik van de namen van eenheden in de tabel Product kunnen standaardiseren. Allereerst moeten we vaststellen dat standaardisatie van de namen van eenheden door de huidige structuur niet wordt afgedwongen. Niets verbiedt ons immers om bijvoorbeeld te meten in en zure room in dl, hoewel dat dezelfde eenheid is. Een relationele structuur biedt een eenvoudige manier om standaardisatie van gegevens af te dwingen; we hoeven slechts een aparte tabel aan te leggen van de gestandaardiseerde namen of waarden. Voor het Toetjesboek geeft dit nogmaals een uitbreiding van de tabelstructuur: er komt een tabel Eenheid bij, met gestandaardiseerde eenheidnamen, zie figuur.. 73

Open Universiteit Databases Eenheid naam kilo theelepel Product naam eenheid energiepe naam energiepp bereidingstijd bereidingswijze 43 403 3 0 5 8 Schil... Neem... Snijd... ijs pernod peper mango zure room banaan 600 40 336 4 30 35 80 95 40 Ingredient gerecht product hoeveelheidpp ijs ijs pernod peper mango zure room 0.3 0 0. 0.4 FIGUUR. Genormaliseerde gerechten-en-productendatabase, met gestandaardiseerde eenheden Als de verantwoordelijke gebruiker of beheerder nu in Eenheid toch zowel dl als opneemt, dan is dat de eigen verantwoordelijkheid: niet het rdbms, maar de verantwoordelijke gebruiker is de baas van de waarheid. De verwijzing van Product naar Eenheid (aangegeven door de pijl) houdt in dat elke waarde in Product.eenheid (dat is de kolom eenheid in Product) ook moet voorkomen in Eenheid.naam (dat is de kolom naam in Eenheid). We zien dat normalisatie alléén niet altijd standaardisatie afdwingt waar dat wel gewenst is. Single point of definition Gestandaardiseerde opslag volgens single point of definition Samengevat heeft de structuur van figuur. de volgende voordelen boven de alles-in-één-tabelbenadering van figuur.3. Elk entiteittype heeft zijn eigen tabel, waardoor over alle dingen van een bepaald soort informatie kan worden opgeslagen los van andersoortige dingen. Informatie wordt als regel enkelvoudig opgeslagen, waardoor die maar op één plek hoeft te worden beheerd: single point of definition. Hierdoor bestaat geen gevaar voor ongecontroleerde redundantie en evenmin voor inconsistente gegevensopslag. De structuur maakt standaardisatie van gegevens mogelijk. 74

Leereenheid Relationele databases: structuur 3.6 STRUCTUUR EN POPULATIE Populatie Populatiedia Strokendia De rijen van een tabel vormen met elkaar de populatie van die tabel. Alle rijen van alle tabellen vormen de populatie van de database. De populatie, of een deel ervan, kunnen we grafisch weergeven in een populatiedia, zoals in figuur.. Wanneer we de populatie wegdenken, houden we de structuur over: de opbouw van tabellen uit hun kolommen en de onderlinge verwijzingen. Zie figuur. voor zo n databasestructuurdia, dat in deze speciale grafische vorm een strokendia wordt genoemd. naam /energiepp bereidingstijd bereidingswijze Eenheid naam Product naam eenheid energiepe gerecht Ingredient product hoeveelheidpp FIGUUR. Strokendia voor Reijnders Toetjesboek (versie ) Afleidbaarheid geven we in een strokendia aan door een slash voor de kolomnaam: /energiepp geeft dus aan dat kolom energiepp gegevens bevat, die in dit geval via een berekening uit andere databasegegevens afleidbaar zijn. Beperkingsregel Constraint De structuur van een database is een tamelijk vast gegeven. Een eindgebruiker kan er geen veranderingen in aanbrengen. De populatie daarentegen verandert zodra de eindgebruiker nieuwe gerechten, producten of eenheden toevoegt, of ze juist verwijdert, of er veranderingen in aanbrengt. De populatie van de database, en dus ook de veranderingen die een gebruiker daarin wil aanbrengen, zijn onderworpen aan een flink aantal beperkingen. Deze beperkingen worden vastgelegd in allerlei soorten regels: beperkingsregels (ook constraints geheten) Hierover gaat de volgende leereenheid. 3.7 TABELLEN EN RELATIES Relationele database Relatie In de term relationele database komt het woord relatie voor, dat hier een specifieke betekenis heeft. Wanneer we ons wat slordig uitdrukken, kunnen we zeggen dat relatie de wiskundige term is voor tabel. Iets preciezer: een relatie is een verzameling van rijen. En een verzameling (in de wiskundige betekenis) kent geen volgorde. Natuurlijk zijn we bij weergave op papier gedwongen één bepaalde volgorde te kiezen, maar die volgorde is als het ware toevallig en van geen belang. Door een andere volgorde te kiezen, krijgen we geen andere relatie. Evenmin hebben de kolommen een speciale volgorde, want ook een rij wordt gezien als een verzameling: een verzameling van aan een kolomnaam gekoppelde waarden. 75

Open Universiteit Databases Relatie en tabel Het begrip relatie verschilt dus van het begrip tabel uit het dagelijks spraakgebruik: een relatie kent geen volgorde van rijen en kolommen. Er is nog een verschil: in een relatie zijn alle rijen verschillend, ook al noteren we ze meer dan één keer en ook al zouden we een rij fysiek meervoudig opslaan in een database. Als relatie zijn dus de tabellen in figuur.3 (met vereenvoudigde versies van ) gelijk. naam energiepp bereidingstijd 43 403 3 0 5 8 = energiepp bereidingstijd naam 3 403 43 403 8 5 0 5 FIGUUR.3 Tabel als relatie Wanneer we in deze cursus de term tabel gebruiken, zal dat meestal synoniem zijn met relatie. Dan speelt de eventuele volgorde van rijen en kolommen, zoals we die op papier of beeldscherm zien, dus geen rol. Rijen en tupels Zoals de term rij zich verhoudt tot tabel, zo verhoudt de term tupel zich tot relatie: tupels zijn de rijen van een relatie, in een meer formeel/wiskundige betekenis. De tupels van een relatie vormen een verzameling; ze zijn dus alle verschillend en hebben geen volgorde. Een veelgebruikte naam voor de tupelpopulatie is extensie. Wanneer we de termen rij en tabel zuiver relationeel interpreteren, is er geen verschil met tupel en relatie. Helaas maakt de aard van de taal SQL het wenselijk om toch onderscheid te maken. Al zullen we steeds ons best doen om SQL als een relationele taal te zien en SQL-resultaattabellen als relaties te interpreteren, dit zal niet altijd houdbaar zijn. SQL blijkt maar ten dele relationeel; we zullen meermalen voorbeelden zien waarbij volgorde wel degelijk een rol speelt en waarbij gelijke rijen voorkomen die los van elkaar worden behandeld. OPGAVE. We willen Reijnders Toetjesboek aanvullen met een recept voor Reijnders Roem. Dit is een nagerecht dat, voor 0 personen, bestaat uit: 5 s, mango s, meloen en 0 s pernod. Gegeven is dat een meloen kcal bevat. De bereidingswijze luidt: Snijd het fruit in stukjes, vermeng alles met de pernod en laat dit een uurtje staan alvorens het op te dienen. De bereidingstijd is minuten. Welke rijen komen erbij in de tabellen? Ga hierbij uit van figuur. en een energiepp die is afgerond op een gehele waarde. OPGAVE.3 Geef voor de acties a t/m d aan welke tabellen moeten worden gewijzigd wanneer een gebruiker (via het Toetjesboek) de actie uitvoert. Geef steeds per tabel aan of het gaat om het toevoegen, het verwijderen, of het wijzigen van een rij (of van meerdere rijen). Ga voor elke actie uit van de populatie in figuur.. Laat wijziging van de bereidingswijze buiten beschouwing. a Verwijderen van het gerecht. b Verwijderen van het product banaan. 76

Leereenheid Relationele databases: structuur c Toevoegen van kiwi per persoon aan het gerecht (een kiwi bevat 30 kcal per stuk). d Wijzigen van de maateenheid van pernod: niet meer in s, maar in koffielepels (één is.5 koffielepel). OPGAVE.4 Een gebruiker wil het product mango verwijderen. Het Toetjesboekproma zal dit echter niet zomaar toelaten. Waarom niet? 4 Gegevens en informatie De termen gegeven en informatie worden vaak door elkaar gebruikt. In deze paragraaf proberen we een helder onderscheid te formuleren, via een taalkundige benadering. 4. INFORMATIE ALS VERWOORDING VAN GEGEVENS Als voorbeeld nemen we weer het Toetjesboek en zullen laten zien dat de vragen Welke gegevens bevat het Toetjesboek? en Welke informatie bevat het Toetjesboek? hele verschillende vragen zijn. Gegeven Vormregel Syntaxis Semantiek Informatie Gegevens Wanneer we de Toetjesboek-populatie zien als een verzameling gegevens, denken we primair aan de vorm van die gegevens en aan de regels waaraan die vormen moeten voldoen. Zo kunnen we over het gegeven in kolom.naam zeggen dat dit tekens telt. Een gegevensaspect van de kolom als geheel is bijvoorbeeld de vormregel dat het maximum aantal tekens in een cel 5 bedraagt. De vormaspecten van een taal vatten we samen onder de term syntaxis. Het begrip gegeven is dus vooral een syntactisch begrip. Daarnaast denken we bij gegeven ook aan dingen als opslag en verwerking. Informatie De Toetjesboekgegevens hebben naast een vorm ook betekenis (semantiek) voor iedereen die de Nederlandse taal beheerst en deskundig is op het gebied van recepten. Wanneer we aan een gegeven of een combinatie van gegevens betekenis hechten, gebruiken we de term informatie. Informatie is dus een semantisch begrip. Informatie is expliciet uit te drukken door zinnen in natuurlijke taal. Bijvoorbeeld, het gegeven in kolom.naam betekent: er bestaat een gerecht genaamd. Preciezer: er bestaat één gerecht genaamd. Op grond van dat één mogen we in andere zinnen spreken over hét gerecht genaamd Coupe Kiwano of kortweg gerecht. (Als er twee gerechten konden bestaan met die naam, zouden we dat niet mogen zeggen.) Vaak heeft een gegeven geen betekenis op zichzelf maar alleen in combinatie met één of meer andere gegevens. Bijvoorbeeld, het gegeven in de vierde rij van tabel Product heeft alleen betekenis in combinatie met het gegeven : het product wordt gemeten in. 77

Open Universiteit Databases Verwoording Informatie via verwoording Dit vormen van natuurlijke-taalzinnen om de betekenis van gegevens (dus informatie) uit te drukken, wordt de verwoording van gegevens genoemd. Bij het ontwerpen of het begrijpen van een database zijn die verwoordingen van groot belang. De structuur van een database is immers nauw verbonden met de betekenissen van de gegevens. Zonder verwoording kan de betekenis van een gegeven vaag of dubbelzinnig zijn. In zulke gevallen moeten we ons afvragen of de structuur wel correct is. We geven voor één voorbeeldrij per tabel alle relevante verwoordingen, die we hebben opgetekend uit de mond van een denkbeeldige deskundige. Eenheid naam er bestaat één eenheid met de naam naam energiepp bereidingstijd bereidingswijze 43 0 Schil... er bestaat één gerecht met de naam gerecht heeft energiewaarde 43 kcal per persoon gerecht heeft bereidingstijd 0 minuten gerecht heeft bereidingswijze Schil... Product naam eenheidnaam energiepe ijs 600 er bestaat één product met de naam ijs product ijs wordt gemeten in eenheid product ijs heeft energiewaarde 600 kcal per eenheid Ingredient gerecht product hoeveelheidpp ijs er bestaat één ingrediënt product ijs in gerecht het ingrediënt product ijs in gerecht heeft een hoeveelheid van producteenheden per persoon Toelichting Elke eerste zin claimt het bestaan van een ding, via de manier waarop dat ding uniek kan worden aangeduid. Op basis daarvan mogen die dingen in andere zinnen voorkomen In andere zinnen worden van die bestaande dingen (cursief weergegeven) eigenschappen geformuleerd. Zo is het een eigenschap van dat het een bereidingstijd heeft van 0 minuten. En 78

Leereenheid Relationele databases: structuur een eigenschap van het (, ijs)-ingrediënt dat de hoeveelheid ijseenheden () bedraagt. 4. ATOMAIRE INFORMATIE Atomaire zin Elementaire zin De zinnen in de vorige paragraaf zijn alle atomair (of elementair), dat wil zeggen dat ze niet zonder verlies aan informatie gesplitst kunnen worden in zinnen die elk minder gegevensplaatsen hebben. Een voorbeeld van een niet-atomaire zin (met drie vet gemarkeerde gegevensplaatsen) is: Het gerecht heeft een bereidingstijd van 0 minuten en als bereidingswijze Schil... Deze zin kan immers worden gesplitst in twee kleinere zinnen, die elk minder gegevensplaatsen hebben: Het gerecht heeft een bereidingstijd van 0 minuten. Het gerecht heeft als bereidingswijze Schil... Atomaire zinnen vertegenwoordigen de kleinste eenheden van informatie. Het zijn als het ware informatieatomen. Discussies over databasestructuur kunnen vaak het beste aan de hand van atomaire zinnen worden gevoerd. Dan weten we namelijk precies waar we het over hebben. Atomair feit Pragmatisch waarheidsbegrip Een gebruiker die een database vult met gegevens, vult vanuit semantisch standpunt gezien de database eigenlijk met atomaire zinnen. Sterker nog, het zijn niet zomaar zinnen, maar zinnen waarvoor de gebruiker waarheid claimt. Wanneer we een ware zin een feit noemen, kunnen we dus zeggen dat een database is gevuld met feiten. En elke atomaire zin drukt een atomair feit uit. Vanzelfsprekend hebben we het hier niet over waarheid in een filosofische of objectieve betekenis. Ons waarheidsbegrip is pragmatisch, dat wil zeggen gebaseerd op menselijke beslissingen. Normalisatie, standaardisatie en databaseontwerp Er bestaan vele methoden om een relationele database te ontwerpen die voldoet aan eisen van normalisatie en standaardisatie, zoals in deze leereenheid besproken. Dat het eindresultaat aan die eisen moet voldoen, wil nog niet zeggen dat een database in de praktijk ook volgens de besproken stappen wordt ontworpen. Dat is ook zeker niet het geval. Dit is geen ontwerpcursus, dus het is hier niet de plaats om op praktijkmethoden in te gaan. Wat we wel willen zeggen, is dat alle goede ontwerpmethoden als uitgangspunt hebben: elk entiteittype zijn eigen tabel. Die eigen tabel bevat minstens één gestandaardiseerd identificatiekenmerk en eventueel nog extra eigenschappen. De methoden verschillen echter in de manier om vast te stellen welke entiteittypen er zijn en welke kenmerken daar bijhoren. Er zijn extreme verschillen, variërend van een zuiver intuïtieve aanpak tot een gedegen taalkundige benadering via atomaire zinnen. 79

Open Universiteit Databases OPGAVE.5 Het gegeven 8 in de kolom.bereidingstijd van figuur. bevat op zichzelf geen informatiewaarde. Waarom niet? Welk ander gegeven is minimaal nodig om samen met die 8 informatie op te leveren? Door welke atomaire zin is die informatie uit te drukken? S A M E N V A T T I N G Paragraaf Paragraaf Het relationele model is de theorie over gegevensverzamelingen bestaande uit tabellen, de wijze waarop tabellen onderling samenhangen en de regels waaraan zij moeten voldoen. Een relationele database bestaat uit aan elkaar gerelateerde tabellen. Een tabel is opgebouwd uit een verzameling kolomnamen en een verzameling rijen. Elke rij bestaat uit cellen, één per kolomnaam. Een cel bevat één kolomwaarde of is leeg. Een kolom wordt gevormd door alle cellen bij één kolomnaam. Een relationele tabelstructuur mag slechts enkelvoudige celwaarden bevatten, bijvoorbeeld een getal, tekst (een rij tekens), een datum, een foto of een videofragment. Het criterium voor enkelvoudig is dat het rdbms zich niet hoeft bezig te houden met de interne structuur. Een kolom waarvan de kolomwaarden subtabellen zijn, heet een herhalende groep. Subtabellen voldoen niet aan de enkelvoudigheidseis. Een bezwaar ervan is dat de gegevenstaal (voor bewerkingen zoals toevoegen of verwijderen van gegevens) veel ingewikkelder zou worden. Een ander bezwaar ervan is asymmetrie: gelijkwaardige gegevens worden op een niet-gelijkwaardige manier behandeld. Redundantie is het vóórkomen van gegevens die reconstrueerbaar zijn uit andere gegevens. Redundantie is eigen aan bepaalde structuren. Bij een redundante structuur kan het voorkomen dat gegevens onderling niet meer kloppen: inconsistentie. Tegen gecontroleerde redundantie, zoals bij een cel waarvan de inhoud automatisch wordt berekend uit andere celinhouden, bestaat geen bezwaar. Paragraaf 3 Normalisatie omvat het elimineren van herhalende groepen en van structuren die redundantie toelaten, beide door een vorm van tabelsplitsing (decompositie). Standaardisatie van gegevens, bijvoorbeeld om een uniforme schrijfwijze af te dwingen, kan een reden zijn om een extra tabel aan de database toe te voegen. De uiteindelijke structuur voldoet aan het principe elk entiteittype zijn eigen tabel. Bij databaseontwerp wordt daar veelal direct naartoe gewerkt. Een niet-genormaliseerde database is meestal het gevolg van een ontwerpfout. Normalisatie kan dan dienen als correctiemethode. De populatie van een database bestaat uit de verzameling van alle rijen van alle tabellen. De verzameling mogelijke populaties wordt ingeperkt door beperkingsregels (constraints). Met de tekentechniek van het strokendia kan de structuur van een database (met de opbouw van tabellen uit hun kolommen en met de onderlinge verwijzingen) worden weergegeven. 80

Leereenheid Relationele databases: structuur Wanneer we een tabel opvatten als relatie, is deze een verzameling rijen. Eventuele gelijke rijen worden dan geïdentificeerd en er is geen volgorde. De term relationele database is ontleend aan tabellen in de zin van relaties. Paragraaf 4 Syntaxis omvat de vormaspecten van taal, semantiek de betekenisaspecten. Bij gegevens gaat het om syntaxis, en over zaken als opslag en manipulatie. Bij informatie doelen we op de betekenis van gegevens; informatie is dus een semantisch begrip. Betekenissen van tabelgegevens kunnen worden uitgedrukt door zinnen. Deze zinnen drukken informatie uit. Sterker nog: elke zin drukt een feit uit, wat wil zeggen dat geclaimd wordt dat de zin een ware bewering uitdrukt. Zinnen met een zo klein mogelijke informatie-inhoud worden atomaire zinnen genoemd. Een atomaire zin drukt een atomair feit uit. Z E L F T O E T S In deze zelftoets wordt een eenvoudige orderadministratie geïntroduceerd, van een zekere firma Reijnders. In opgaven verderop in deze cursus zal deze worden uitgebouwd en gebruikt voor SQL-opdrachten. Beschrijving Een order voor één of meer artikelen omvat de volgende informatie: een (uniek) ordernummer klantinformatie, zoals klantnummer (uniek), klantnaam en adres de datum één of meer orderregels, elk met informatie over één besteld artikel: artikelnummer en omschrijving (elk identificerend voor een artikel), prijs per stuk en het bestelde aantal de subtotalen per orderregel en het ordertotaal. Daarnaast is er nog informatie over de verschuldigde BTW, die we nu voor het gemak buiten beschouwing laten. Zie figuur.4 voor een voorbeeld. Fa. Reijnders Ordernr Klantnr Naam 5773 34 W.Cupido Kanaalstraat 35 9876 ZY Romhave 0 oktober 0 artikelnr omschrijving prijs/stuk aantal bedrag 35 07 449 slevel zwenkmoer wigbek 5,80,0 3, 0 3 Totaal: 3,60,00 4, ======== 95,0 FIGUUR.4 Order met orderregels 8

Open Universiteit Databases De belangrijkste informatie op deze order is in de eerste rij van de tabel Order in figuur.5 weergegeven. Om het simpel te houden, is van de klant alleen het klantnummer en de (achter)naam opgenomen. De tweede rij bevat ordergegevens van een andere klant. De derde rij bevat een andere order van dezelfde klant. Order orderregels ordernr klantnr klantnaam datum totaalbedrag artikelnr omschrijving prijs aantal bedrag 5773 34 Cupido 0-0-00 94.0 35 07 449 5774 447 Roos 0-0-00 57.60 35 80 5793 34 Cupido -0-00 65. 449 80 slevel zwenkmoer wigbek slevel zwalik wigbek zwalik 5.80.0 3. 5.80 6.00 3. 6.00 0 3 3.60.00 4. 3.60 6.00 3. 5.00 FIGUUR.5 Niet-genormaliseerde ordertabel, met één order per rij De kolom totaalbedrag bevat automatisch berekende gegevens, aangegeven door de grijze achtergrond. We nemen aan dat deze in de database worden opgeslagen. De kolom orderregels is een herhalende groep, dus een gestructureerde kolom die voor elk van de drie rijen een subtabel als waarde heeft. Wanneer de order wordt opgesteld, worden de orderregelbedragen automatisch berekend uit het aantal artikelen en de artikelprijs, en vervolgens opgeslagen in de database. Ook dit is aangegeven met een grijze achtergrond. De tabel van figuur.5 bevat gegevens die geheel vanuit het perspectief van orders zijn gestructureerd. a Biedt deze structuur de mogelijkheid om informatie op te nemen over artikelen los van orders? b Voer een omkering uit van de structuur: breng alle gegevens onder in één nieuwe tabel, met een herhalende groep, die is gestructureerd vanuit het perspectief van de artikelen. Laat daarbij de afleidbare totaalbedragen buiten beschouwing. c Biedt deze nieuwe structuur de mogelijkheid om informatie op te nemen over artikelen los van orders? De uitwerking van deze opgave geeft nog een extraatje: de gegevens gestructureerd vanuit het perspectief van de klant. Volg voor de structuur en de gegevens in figuur.5 de procedure zoals die is beschreven voor Reijnders Toetjesboek. a Splits de herhalende groep af. b Welke kolommen bevatten redundante gegevens? Voor welke gegevens is die redundantie ongewenst? c Elimineer de ongewenste redundantie door opnieuw tabellen af te splitsen. Controleer of het eindresultaat voldoet aan elk soort ding zijn eigen tabel. 3 De orderregelbedragen en het totaalbedrag van een order worden automatisch berekend. Is het dan wel nodig ze in de database op te slaan? Ze kunnen toch ook door de applicatie worden berekend uit de andere gegevens, op het moment dat ze nodig zijn? 8

Leereenheid Relationele databases: structuur T E R U G K O P P E L I N G Uitwerking van de opgaven. 600 + 40 + 0.3 336 + 0 4 + 30 geeft (na afronding): 43.. De volgende rijen komen erbij: in ( Reijnders Roem, 86,, Snijd het fruit in stukjes, vermeng alles met de pernod en laat dit een uurtje staan alvorens het op te dienen ) in Product ( meloen,, ) in Ingredient ( Reijnders Roem,, ) ( Reijnders Roem, mango, 0.) ( Reijnders Roem, meloen, 0.) ( Reijnders Roem, pernod, ).3 a De drie Ingredient-rijen van verwijderen en daarna de -rij van. (In die volgorde, anders wijst het gerecht in Ingredient tijdelijk niet naar een bestaande rij in.) b Verwijderen van de banaanrij in Product. Er zijn geen gevolgen voor andere tabellen of belemmeringen, omdat geen enkel gerecht banaan bevat. c Product moet er een kiwirij bij krijgen: ( kiwi,, 30), Ingredient krijgt een nieuwe rij (, kiwi, ) en in moet energiepp van worden herberekend. d Aan Eenheid moet een rij voor koffielepel worden toegevoegd. In Product moet voor pernod de waarde van eenheid worden veranderd in koffielepel en moet de waarde van energiepe door een factor.5 worden gedeeld. In Ingredient moet hoeveelheidpp in de rij van (, pernod) juist met.5 worden vermenigvuldigd. In verandert niets..4 Na verwijderen van de mangorij in Product zou de (, mango)-rij in Ingredient een loze verwijzing bevatten, naar een Productrij die er niet meer is. Dit zou die hele rij betekenisloos maken en is daarom verboden. Deze opgave lijkt op opgave 3a, maar er is een belangrijk verschil: gerechten staan nooit los van hun ingrediënten, maar producten hebben een belang op zichzelf. Daarom is het heel normaal een -rij te verwijderen met Ingredient-rijen en al, maar zou het onaanvaardbaar zijn om zomaar een Product-rij te verwijderen met alle bijbehorende Ingredient-rijen. Elk recept met dat product als ingrediënt zou daardoor veranderen. 83

Open Universiteit Databases.5 De 8 op zichzelf heeft geen informatiewaarde omdat er geen atomaire zin bestaat waarin alleen die 8 als invulwaarde voorkomt. De kleinste atomaire zin met de 8 erin bevat ook een gerecht: het gerecht Mango Plus Plus heeft een bereidingstijd van 8 minuten. U zou kunnen tegenwerpen dat de 8 op zichzelf ook wat betekent: er bestaat een gerecht met een bereidingstijd van 8 minuten. Dit beschouwen we echter niet als een erkende zin. We kijken per tabel alléén naar bepaalde dingen en hun eigenschappen. In dit geval is het ding en een bereidingstijd van 8 minuten een eigenschap daarvan. Uitwerking van de zelftoets Zie paragraaf 4. a De enige plaats om informatie over artikelen op te nemen, is in de kolommen artikelnr, omschrijving en prijs van de subtabel orderregels. Een heel gekunstelde oplossing zou dan zijn: deze kolommen vullen en de rest leeg laten, zodat we als het ware artikelen opslaan in een lege order. Zo n oplossing is niet alleen gekunsteld, maar echt fout in het licht van de normale semantiek van de tabel. Alle gegevens zeggen immers direct of indirect iets over een order. Voor een zeer nauwkeurig antwoord op de vraag zouden we moeten beschikken over een expliciete semantiek van de tabel, bijvoorbeeld in de vorm van een verwoording van alle betekenissen door middel van atomaire zinnen. b en c Zie figuur.6. Omdat de gegevens zijn gestructureerd vanuit het perspectief van de artikelen, kunnen alle artikelen op een natuurlijke manier worden toegevoegd, ook als ze op geen enkele order voorkomen. De vetgedrukte rij illustreert dit. Artikel nr omschrijving prijs orderregels ordernr klantnr klantnaam datum aantal bedrag 07 zwenkmoer.0 5773 34 Cupido 0-okt-0 0.00 80 zwalik 6.00 5774 5793 35 slevel 5.80 5773 5774 449 wigbek 3. 5773 5793 37 draaikloon 75.00 447 34 34 447 34 34 Roos Cupido Cupido Roos Cupido Cupido 0-okt-0 -okt-0 0-okt-0 0-okt-0 0-okt-0 -okt-0 3 6.00 5.00 3.60 3.60 4. 3. FIGUUR.6 Omkering van de herhalende groep van figuur.5 vanuit artikelperspectief, met extra artikelrij Gegevens vanuit klantperspectief Figuur.7 geeft het beloofde extraatje: de gegevens gestructureerd vanuit het perspectief van de klanten. Omdat een klant meerdere orders kan hebben geplaatst en een order meerdere orderregels kan hebben, bevat elke orders-subtabel op zijn beurt een orderregels-subtabel. We spreken van een herhalende groep die is genest binnen een andere herhalende groep. 84

Leereenheid Relationele databases: structuur nr klantnaam ordernr datum totaalbedrag 34 Cupido 5773 0-okt-0 94.0 35 07 449 5793 -okt-0 65. 449 80 447 Roos 5774 0-okt-0 57.60 35 80 orders orderregels artikelnr omschrijving prijs aantal bedrag slevel zwenkmoer wigbek wigbek zwalik slevel zwalik 5.80.0 3. 3. 6.00 5.80 6.00 0 3 Klant 3.60.00 4. 3. 5.00 3.60 6.00 FIGUUR.7 De gegevens vanuit klantperspectief, met geneste herhalende groep a Zie figuur.8. Order nr klantnr klantnaam datum totaalbedrag 5773 5774 5793 34 447 34 Cupido Roos Cupido 0-okt-0 0-okt-0 -okt-0 94.0 57.60 65. Orderregel order artikelnr omschrijving prijs aantal bedrag 5773 5773 5773 5774 5774 5793 5793 35 07 449 35 80 449 80 slevel zwenkmoer wigbek slevel zwalik wigbek zwalik 5.80.0 3. 5.80 6.00 3. 6.00 0 3 3.60.00 4. 3.60 6.00 3. 5.00 FIGUUR.8 Resultaattabellen na afsplitsen van herhalende groep b Een klantnaamvermelding van elke klant die vaker voorkomt, is redundant. Ook de artikelomschrijving en de prijs van elk artikel dat vaker voorkomt, zijn redundant. c Elimineren van beide typen redundantie gebeurt door zowel klanten als artikelen (allebei soorten dingen ) hun eigen tabel te geven, waarin hun kenmerken eenmalig en dus eenduidig worden vastgelegd. Vanuit de (afgeslankte) al bestaande tabellen wordt daarnaar verwezen. In figuur.9 ziet u het resultaat in de vorm van een populatiedia (a) en een strokendia (b). Merk op dat de kolommen Orderregel.bedrag en Order.totaalbedrag als afleidbaar zijn gemarkeerd. (Zie de uitwerking van opgave 4 voor uitleg over i /bedrag in het strokendia.) 85

Open Universiteit Databases a nr klant datum totaalbedrag 5773 5774 5793 nr 34 447 34 447 34 Klant naam Cupido Roos 0-okt-0 0-okt-0 -okt-0 94.0 57.60 65. Order Artikel nr omschrijving prijs 35 07 449 80 slevel zwenkmoer wigbek zwalik 5.80.0 3. 6.00 Orderregel order artikel aantal bedrag 5773 5773 5773 5774 5774 5793 5793 35 07 449 35 80 449 80 0 3 3.60.00 4. 3.60 6.00 3. 5.00 b nr Klant naam Order nr klant datum /totaalbedrag Artikel nr omschrijving prijs order artikel aantal Orderregel i /bedrag FIGUUR.9 Eindresultaat afsplitsing: populatie (a) en strokendia (b) Huisstijl Naamgeving In de tussenresultaten, waarin nog niet elk soort ding zijn eigen tabel had, was een strakke naamgeving nog niet goed mogelijk. In het eindresultaat kan dat heel goed. Volgens onze huisstijl geven we een identificerende nummerkolom veelal de kolomnaam nr : Klant.nr, Order.nr en Artikel.nr. In een verwijzende kolom leiden we de kolomnaam meestal af uit de naam van de tabel waarnaar wordt verwezen: Order.klant, Orderregel.order en Orderregel.artikel. NB: de verwijzing staat technisch gezien los van de naamgeving. Het gaat puur om begrijpelijkheid voor de menselijke lezer, waarbij een keuze is gemaakt voor een bepaalde (huis)stijl. Initieel afleidbaar 3 Al worden de orderregelbedragen automatisch berekend, toch moeten ze in de database worden opgeslagen. Ze zijn namelijk alleen maar afleidbaar gedurende de ordertransactie, dat wil zeggen: zolang de nieuwe order en haar orderregels worden ingevoerd of aangepast, en tot het moment dat deze definitief worden vastgelegd. We spreken van initieel afleidbaar. Dit wordt aangegeven met de i in het strokendia. 86

Leereenheid Relationele databases: structuur Na een prijswijziging van een artikel op een order is het gedaan met de afleidbaarheid. De bedragen worden dus eenmalig automatisch berekend en vervolgens als onveranderlijke waarden opgeslagen. Zo wordt voorkomen dat bij latere berekeningen op deze order verkeerde artikelprijzen worden gebruikt. Voor de totaalbedragen ligt dit anders: deze blijven de som van de orderregelbedragen en zijn dus blijvend afleidbaar. Het is daarom niet strikt noodzakelijk ze in de database op te nemen. Opname heeft echter het voordeel dat de waarde direct beschikbaar is en niet steeds hoeft te worden berekend wanneer die wordt opgevraagd. 87