De stand van Hadoop. whitepaper. door: Jasper Knulst

Maat: px
Weergave met pagina beginnen:

Download "De stand van Hadoop. whitepaper. door: Jasper Knulst"

Transcriptie

1 De stand van Hadoop door: Jasper Knulst Rondom het Hadoop ecosysteem volgen de ontwikkelingen elkaar in een zeer hoog tempo op. Hadoop zelf en de tools erom heen worden volwassener en veelzijdiger. Bovendien komen er steeds nieuwe producten van gerenommeerde vendors uit die integreren met Hadoop. Hoogste tijd dus eens te kijken wat er zoal mogelijk is op het vlak van BI. Ook is het interessant te inventariseren welke organisaties Hadoop al succesvol toepassen, ook in Nederland. Ik begin met een beschrijving van wat Hadoop onderscheidend maakt tov traditionele technologieën. Karakteristieken Voor diegenen die het gemist hebben. Hadoop is een platform voor gedistribueerde opslag en verwerking van data. In een cluster, bestaande uit meerdere servers die over een netwerk met elkaar verbonden zijn, draagt iedere Hadoop node bij aan de totale opslagen verwerkingcapaciteit. Hadoop is inmiddels een verzamel -en merknaam geworden voor een heel scala aan tools dat is opgebouwd rondom core -Hadoop. Dit is vergelijkbaar met Linux, waar de naam van de kernel nu synoniem is voor het geheel aan aanverwante modulaire functionaliteit. De Hadoop kern bestaat uit twee complementaire onderdelen; het Hadoop Distributed File Sytem (HDFS) en MapReduce (MR). Door de gebundelde capaciteit van alle clusterhardware (Disk space, RAM en CPU s) is Hadoop in staat om tegen lage kosten veel data in gevarieerde formaten op te slaan en te verwerken. Hadoop is namelijk open source en draait op commodity hardware oftewel goedkope standaard servers ( ). Het cluster is horizontaal schaalbaar tot duizenden nodes en kan eenvoudig worden uitgebreid waarbij de capaciteit nagenoeg lineair toeneemt. Ook enigszins verouderde servers kunnen meedraaien in een cluster. Op een hoog abstractieniveau is Hadoop te beschouwen als een schaalbare computer voor High Performance Computing (HPC) met schier oneindig uitbreidbare opslag- en CPU capaciteit. De gebruiker wordt afgeschermd voor het gedistribueerde karakter en de complexiteit om alle nodes te laten samenwerken. Het HDFS kent slechts één manier om opgeslagen data te organiseren en dat zijn mappen en submappen. HDFS is een logisch filesysteem; de mapindeling bestaat alleen in het geheugen van Hadoop. Op OS niveau (Linux) zijn uiteindelijk de opgeknipte datablokken terug te vinden van files die in het HDFS werden gezet. Om de beschikbaarheid van de data te waarborgen worden datablokken tijdens het wegschrijven gerepliceerd en strategisch geplaatst op meerdere nodes. De standaard replicatiefactor van 3 zorgt er tevens voor dat de verwerking van de data tegen een stootje kan; indien één van de opslag- en verwerkingslocaties mislukt zijn er nog 2 kansen om dit ergens anders nogmaals op te starten. Wanneer een file wordt verwerkt in een MR job wordt het werk toegewezen aan nodes waar de datablokken van de file zich al bevinden. De blokdistributie is in essentie random wat periodiek onderhoud aan verdeelsleutels, zoals bij sharded gedistribueerde databases, overbodig maakt. In het ontwerp van Hadoop is compromisloos ingezet op de efficiënte verwerking van grote hoeveelheden data. Dat is waar de kracht van Hadoop ligt. In 2009 werd door een Hadoop cluster met CPU cores (1.460 nodes) 1TB random gegenereerde data (regels van 100kb) gesorteerd in 62 seconden [1] Dichter bij huis nu; een 4-node cluster waar ik mee werkte was in staat om 100 miljoen regels Jasper Knulst 1 Incentro 2012

2 data (17GB) in 700 subfiles op order-id te sorteren/splitsen in 6,5 minuut. Ditzelfde cluster telde een aantal regels ( ) in een file van 99GB in 3,5 minuut [2]. Belangrijke factoren voor het behalen van deze prestaties zijn de eenvoud van het datamodel en het verwerkingsparadigma MR. Afgezien van de HDFS mapindeling is er géén inherente datastructuur. Hadoop is schemaloos, er zijn geen restricties voor het formaat van de data, geen keys, geen referentiele constraints en geen indices. Tijdens het wegschrijven wordt data niet geïnterpreteerd, zelfs niet of nieuwe files qua formaat bij andere files in een HDFS map horen. Dit is te vergelijken met hoe u files beheert op uw PC. Interpretatie van de data komt pas als de data wordt verwerkt tijdens een MR job; schema on read heet dat. Hadoop is geen passieve storage solution zoals SAN/NAS. Opslag in Hadoop is alleen zinvol als de data op enig moment verwerkt wordt om waarde te creëren. Hadoop biedt zelf geen inhoudelijke analytische functionaliteit. Deze moet geschreven worden in MR jobs in de taal Java. Dat klinkt ingewikkelder dan het is, aangezien MR een uitgebreide kapstok biedt waar slechts een beperkt aantal regels code hoeft te worden toegevoegd. Zolang er een programma geschreven kan worden om iets zinvols met de data te doen kan Hadoop dus het formaat aan. Een zeer rekbaar begrip dus. Bij de New York Times is Hadoop ingezet om een zeer groot aantal scans van verschenen artikelen uit de laatste 2 eeuwen te converteren naar PDF formaat [3]. Deze artikelen zijn nu online beschikbaar gesteld voor het publiek. Aangezien Hadoop niks weet van de data die verwerkt moet worden is er geen andere optie dan vooraan de file te beginnen en deze tot het eind toe volledig streaming door te nemen, op zoek naar iets. Wat dat iets is bepaalt de analist dmv een MR job. De brondata wordt dus maar één keer van disk gelezen en dit gebeurt altijd lokaal. Belangrijk aangezien I/O vanaf disks momenteel de meest beperkende factor is voor snelle dataverwerking. De map fase van een MR job is te vergelijken met een full table scan in een database waar dit als zeer inefficiënt wordt beschouwd. Echter, in de architectuur van Hadoop ligt de nadruk op rauwe CPU power en niet zo zeer op slimme maar ook bewerkelijke datastructuren zoals bij te werken indices en te controleren constraints. In deze opzet herkent men de oorsprong van Hadoop als onderdeel van het websearch project Nutch [4], waarbij webcontent volledig moet kunnen worden geïndexeerd ongeacht inhoud en structuur. In een dergelijke opzet hebben datastructuren geen enkele waarde, maar zijn slechts tot last. Debat Tot zover de theorie. Wat kun je allemaal doen met deze nieuwe technologie in het kader van informatievoorziening? Een groot deel van wat er over Hadoop wordt geschreven gaat over verschillen met bestaande technologieën. Niet zelden eindigt het met een opsomming van wat Hadoop allemaal tekort komt om een modern DWH te bouwen, real-time analyses te doen en een breed publiek te bedienen. Sommigen zien Hadoop als een grote stap terug in de tijd wegens het ontbreken van schema s en optimalisaties die de afgelopen 40 jaar in RDBMS en zijn toegepast. Bovendien voldoet Hadoop niet aan de ACID vereisten en dat zou alleen maar tot chaos kunnen leiden. Jasper Knulst 2 Incentro 2012

3 Maar Hadoop is niet terugwaarts, Hadoop is anders en is heel goed in waar het voor ontworpen is. Random toegang tot slechts één record in een file en het wijzigen daarvan is niet één van die ontwerpprincipes en wordt niet ondersteund. Hadoop is ook helemaal geen database. Het beheert geen records maar files. Hadoop hoort dan ook niet tot de groep NoSQL databases. Er zijn wel degelijk overlaps met RDBMS technologie en met name met analytische en MPP appliances. Daarenboven is Hadoop veelzijdiger en schept daardoor nieuwe analytische mogelijkheden. Laten we alle data die een bedrijf in de ruimste zin van het woord ter beschikking staan voorstellen als een (data)berg in zee (zie figuur I). Het deel boven het waterniveau zijn de data die al worden aangewend in het DWH obv traditionele tools. Hierin zitten de enterprise darlings ; zorgvuldig uitgemodelleerde data met bedrijfsbreed gedragen definities in betrouwbare en routinematige dagelijkse processen. Onder het waterniveau bestaat nog een enorme hoeveelheid data die niet gebruikt wordt omdat de kosten van opslag en analyse tot nu toe niet opwegen tegen de baten. Door de inzet van Hadoop verschuift het (water)niveau waarbij de ROB gelijk is aan 1 naar beneden. Enerzijds wordt opslag van nieuwe databronnen economisch omdat de opslagkosten van Hadoop lager zijn en anderzijds wordt er extra waarde gecreëerd door analyses op nieuwe data die voorheen niet mogelijk waren. In het deel wat nog onder water ligt zijn (Big) databronnen aanwezig die zo groot zijn dat een RDBMS geen optie is appliances te inflexibel en/of te duur. Sterker nog, de reden dat deze bronnen de laatste jaren überhaupt aangewend (kunnen) worden voor informatie is dat tools als Hadoop bestaan. ROB = 1 traditional tools High ROB >1 ROB = 1 Big Data Hadoop Low ROB <1 Return on Byte (ROB) = Figuur I. Hadoop & return on byte Value from byte Cost of storage & analysis of byte bron: Cloudera Jasper Knulst 3 Incentro 2012

4 Hadoop en NoSQL NoSQL en Hadoop worden beiden veelvuldig genoemd in de context van big data en dit blijkt nogal verwarrend te zijn. NoSQL is een verzamelterm voor een tiental non-relationele databases, waarin records worden beheerd. Hadoop behoort niet tot de NoSQL-databases. Het beheert geen records maar files en werkt niet als een database. Hadoop werkt batchgewijs en heeft typisch langere responstijden, vooral gezien de grote hoeveelheid data die normaalgesproken per opdracht wordt verwerkt. Er is dan weer wel een NoSQL-database die Hadoop als onderliggend filesysteem gebruikt (HBase), om de verwarring compleet te maken. Het specialisme van NoSQL is het bliksemsnel opdienen van één of enkele records uit zeer vele, bijvoorbeeld wanneer een webpagina wordt opgevraagd; heel veel kleine units of work (jobs) tegelijk dus. Hadoop verwerkt typisch weinig, maar wel hele grote jobs en heeft met name bestaansrecht voor het offline destilleren van informatie uit zeer veel data. Het resultaat wordt dan overwegend door andere applicaties gebruikt. Wat Hadoop en NoSQL gemeen hebben is de gedistribueerde opslag (meerdere servers), de horizontale schaalbaarheid en het open source karakter. Tot zover NoSQL. Wat zijn dan die databronnen onder het huidige waterniveau? Het zijn bijvoorbeeld relationele datadumps op tape die zijn verwijderd omdat het RDBMS zuchtte onder de belasting. Te herkennen aan; we houden nu maar 30 dagen historie vast, want anders wordt het te veel voor de database... Hadoop kan tabellen als delimited files opslaan en vervolgens met MR filtering, aggregatie en joins uitvoeren als ware het een tabel (zie kader Hive). Een groot deel van de Big Data bronnen bestaat uit logs. Als je meer wilt weten over een proces, de klant of een websitebezoeker kan een bedrijf ofwel bij leveranciers als webhosting partijen aankloppen. Wanneer momenteel alleen een aggregaat beschikbaar is, moet de granulaire data ook aanwezig en opvraagbaar zijn. Indien de logging intern wordt beheerd kan het loggingniveau worden verhoogd of voorkomen worden dat de oudste logs niet worden gewist maar opgeslagen. Big Data bronnen kunnen ook publieke internet databronnen zijn zoals data.gov of data.overheid.nl of knmi.nl. Het grootste deel van de berg data onder water bestaat verder uit ongestructureerde data zoals webcontent, social media, en andere zakelijke documenten. Hadoop kan ook deze bronnen verwerken, maar de kostencomponent analyse zal groter worden naarmate de complexiteit toeneemt. De vraag of ongestructureerde bronnen als eerste of als laatste boven de lijn uitkomen hangt natuurlijk sterk af van de business case. Hier volgen nog enkele use cases waarvoor Hadoop ingezet kan worden. Data Sandboxing & Archiving Om nieuwe (big)databronnen te evalueren is een Hadoop cluster een uitkomst. De analyse kan beginnen zonder dat er een schema op de data wordt gelegd. Ik heb te maken gehad met logfiles van 100 miljoen regels die niet in een RDBMS geladen konden worden. Hoe kom je er in zo n geval achter wat de kwaliteit is van deze bron? Hadoop is ook geschikt als dataarchief. Een DWH kan ontlast worden door oude data naar Hadoop te verplaatsen. Denk ook aan de verplichte opslag van DWH bronfiles. De data kunnen met meerdere compressieformaten gereduceerd worden terwijl ze toch on-line en verwerkbaar blijven. Compressie is overigens een standaard voorziening in Hadoop. Het herkent de gebruikte compressie en voert de decompressie automatisch uit voordat de data verwerkt worden. Jasper Knulst 4 Incentro 2012

5 ETL Engine Een interessante mogelijkheid is een ETL tool gericht taken in een batch te laten uitbesteden aan het Hadoop cluster. Denk aan zware recursieve berekeningen, een dataformaat dat niet ondersteund wordt door de ETL tool of een voorbewerking op een bronbestand die te lang duurt. Inmiddels integreren de meeste ETL vendors met Hadoop voor het uitwisselen van files uit HDFS naar RDBMS en andersom. Een logfile in een niet gangbaar formaat kan worden geparsed, gefilterd en geaggregeerd om vervolgens het resultaat terug te laden in het DWH. Pentaho s PDI, Talend en sinds kort ook Informatica s Powercenter zijn zelfs in staat om met de vertrouwde componenten uit de GUI automatisch MR code te genereren. Een goeie ontwikkeling, want ETL engines opschalen is kostbaar en niet lineair. Advanced Analytics Dit is waar de meest aansprekende succesverhalen van Big Data analyses op zijn gebaseerd. Het voorspellen obv gevonden patronen, producten die vaak samen worden verkocht, het inspelen op het meest waarschijnlijke volgende klantevent en het toekennen van profielen op basis van gedrag. In Hadoop kunnen alle open source libraries voor statistische analyses (zoals R) ingezet worden. Mahout is een aan Hadoop gelieerd subproject met een rijke verzameling datamining algoritmes waarvan de meeste specifiek voor gedistribueerde verwerking op Hadoop zijn ontworpen. Ongestructureerd De grote belofte van Hadoop ligt mijns inziens in het omvormen van tekst naar gestructureerde data. De omvang van ongestructureerde data wordt groter ingeschat dan gestructureerde data. Om kenniswerkers niet te overspoelen en in staat te stellen om uit de massa nog relevante informatie te selecteren en te analyseren zijn slimme algoritmes nodig die automatisch de essentie van een tekst kunnen vaststellen. Relevante vragen zijn bijvoorbeeld; Zijn deze s te koppelen aan één van onze producten? en Tot welke categorie kan dit document gerekend worden?. Inmiddels zijn er veel open source implementaties van algoritmes voor indexatie, ranking, clustering, classificatie, entity extraction en NLP waardoor het mogelijk is met Hadoop op kleinere schaal Googletje te spelen. Proprietary Vendors In 2011 is duidelijk geworden dat Hadoop het leidende platform is geworden voor gedistribueerde HPC. Hier zijn enkele, maar zeker niet alle nieuwsfeiten van vorig jaar. Er zijn nu meerdere commerciële Hadoop distributies op de markt van Cloudera, Hortonworks, IBM en MapR, in wat ook wel de distro war wordt genoemd. Deze producten bieden een gepatchde versie van standaard Apache Hadoop, enkele additionele tools en enterprise support. IBM bracht haar InfoSphere Biginsights platform uit, een distributie van standaard Hadoop onderdelen met een IBM sausje. Microsoft heeft recentelijk de handdoek in de ring gegooid en de ontwikkeling van het eigen HPC product Dryad gestaakt. Op haar cloud platform Azure gaat Microsoft Hadoop aanbieden. Hadoop op Windows dus. De meeste BI tools kunnen inmiddels data ophalen uit Hadoop en presenteren. Vendors van analytische en MPP databases als Vertica, Sybase, Infobright, Netezza, Greenplum en Teradata en Aster Data buitelden over elkaar heen met nieuws over de uitkomst van connectoren voor Hadoop en haastten zich te onderstrepen waar de meerwaarde van hun producten ligt tov Hadoop. Die meerwaarde is er, maar het Jasper Knulst 5 Incentro 2012

6 toont ook aan dat Hadoop als een nieuwe speler wordt gezien om rekening mee te houden. Greenplum bracht haar eigen Hadoop distributie obv MapR op de markt; Greenplum HD. Helaas draait Hadoop niet mee op dezelfde nodes als de Greenplum PostgreSQL database, want dan zou een uniform platform ontstaat voor zowel gestructureerde als ongestructureerde data. Het product is nu eigenlijk een Hadoop appliance naast de Greenplum DB. Oracle kondigde half januari nog haar eigen Hadoop appliance aan. Dit is een 18 nodes tellend rack met voorgeconfigureerde en geoptimaliseerde nodes obv de Cloudera distributie. Ik ben benieuwd of er een markt is voor Hadoop appliances aangezien dit in druist tegen het commodity hardware voordeel. Naast de grote spelers positioneren veel specialisten zich met integratie- en uitbreidingsproducten voor Hadoop. Specifieke lacunes worden opgevuld, maar er moet wel voor betaald worden. MapR bracht een Hadoop distributie waarin het gehele HDFS is herschreven (in de programmeertaal C++) om oa het single point of failure (SPOF) van de Hadoop namenode aan te pakken. MapR zegt dat haar distributie veel sneller is. Karmasphere en Datameer richten zich op het vereenvoudigen van analytische workflows. Beiden claimen dat analyses in Hadoop zo eenvoudig worden door wizzards en een Excel-achtige workspace dat er geen Java specialisten meer nodig zijn. Self service analyses op Hadoop dus. Bovendien beantwoorden deze producten aan de vraag naar visualisaties van MR resultaten direct vanuit Hadoop, dus zonder additionele BI tools. Het grote aanbod van commerciële vendors houdt enerzijds het open source aanbod van Hadoop scherp. Een oplossing voor het SPOF probleem en verdere optimalisaties zijn ook onderdeel van de volgende open source release. Anderzijds zorgt het ervoor dat Hadoop niet een nieuwe informatiesilo wordt en bestaande investeringen in BI tools beschermd worden. Hadoop Implementaties Dat het niet alleen bij theorie blijft blijkt ook uit een aantal aansprekende cases die gepresenteerd werden tijdens Hadoop World 2011, een jaarlijks evenement dat plaatsvond op 8 en 9 november in New York. Facebook, Yahoo, StumbleUpon, LinkedIn en Ebay zijn Hadoop grootgebruikers en trekken veel aandacht. Data hosten en toegankelijk maken is hun kernactiviteit. Meer herkenbaar en interessant waren echter de puur-analytische toepassingen van Hadoop. Dat JP Morgan Chase Hadoop al sinds 3 jaar inzet voor fraude detectie, risk assesment, datamining en social media sentiment analyse [5] toont aan dat Hadoop volwassen genoeg is om een bedrijfskritische rol te vervullen. De bank heeft de beschikking over 150 PB aan data waarvan een deel dus in Hadoop. Hadoop allows us to store and analyse data that we never could before vertelde Larry Feinsmith tijdens zijn presentatie. Ook de Bank of America is een Hadoop gebruiker met soortgelijke use cases. Het Hadoop Ecosysteem Er zijn een aantal interessante tools ontstaan rondom Hadoop. Het zijn allemaal subprojecten van de Apache Sofware Foundation (ASF). Gratis dus. Ze vullen Hadoop aan op belangrijke punten waardoor een breed platform ontstaat voor dataverwerking. Het ecosysteem is onder te verdelen in de functionele categorieën interfaces, extensies, metadata, core-hadoop, database en management (zie figuur II). Jasper Knulst 6 Incentro 2012

7 Hive Met Hive kan iedereen met basale SQL kennis MR code genereren en uitvoeren zonder enige kennis van Java. Het presenteert soortgelijke files in HDFS mappen als tabellen. Hive werkt het beste met semi-gestructureerde files, zoals dumpfiles uit een RDBMS of andere files met een field delimiter. Gebruikers kunnen een fieldmapping aanmaken in de vorm van een CREATE TABLE opdracht. Alle interactie verloopt via HiveQL (HQL) wat bijna één op één is met het MySQL SQL dialect. De DDL definitie maakt metadata aan over de files waaruit de tabel is opgebouwd waardoor Hive in staat is om HQL queries te vertalen naar MR code in Java. Indien nodig wordt de query over meerdere MR jobs verdeeld. Hive ondersteunt inmiddels complexe joins, subqueries, indices, partities, hints en ODBC/JDBC zodat Hadoop integratie met sommige BI tools een realiteit is. Pig Pig is soortgelijk aan Hive. Het verschil is dat de interactie verloopt met een scripting taal genaamd Pig latin die lijkt op de programmeertalen van statistische pakketten. In vergelijking met Hive zijn complexere bewerkingen mogelijk zoals geneste constructies. Hue Hadoop is naar maatstaven van hedendaagse tools nog niet erg gebruiksvriendelijk. De tool Hue voorziet in deze behoefte met een fraaie webinterface voor Hadoop. Via Hue kunnen oa files worden bekeken, geladen en gedownload uit HDFS. Via Hue kunnen MR jobs worden gelanceerd en gemonitord en is er een usermanagement module. Ten slotte is er een uitgebreide webinterface voor Hive. Hue is volledig webbased. Dus eenvoudige toegankelijkheid voor Hadoop via het bedrijfsnetwerk. Sqoop Sqoop voorziet in de uitwisseling van data tussen RDBMS en Hadoop. Ook Sqoop is een abstractielaag om MR code te genereren. In een MR job benaderen meerdere nodes tegelijk de database voor snelle parallelle imports en exports. Figuur II. Overzicht Hadoop ecosysteem Jasper Knulst 7 Incentro 2012

8 Flume Wanneer er een noodzaak is om data near real-time te analyseren biedt Flume uitkomst. Een Flume cliënt kan increments van bijvoorbeeld logfiles of webbronnen monitoren, consolideren tot files en naar HDFS sturen voor verwerking. HBase HBase is de NoSQL database die HDFS als onderliggend filesysteem voor persistente opslag gebruikt. Schaalbaarheid en snelle random read/write transacties zijn de specialiteit van HBase, waardoor het met name wordt toegepast om voor omvangrijke websites razendsnel data te serveren voor bezoekers. Voor BI toepassingen heeft HBase nu nog een aantal handicaps, maar ook op dit vlak zijn er volop ontwikkelingen. Een andere interessante case was die van één van 4 grote telecom aanbieders in Zuid-Korea genaamd KT Telecom. Om de gewenste analyses op het groeiend aantal Call Detail Records (CDR s) te faciliteren is besloten de data te migreren van een Oracle platform naar Hadoop. Hierbij worden meerdere componenten uit het Hadoop Ecosysteem ingezet zoals Hive, Sqoop en Flume. Er wordt search technologie ingezet om de data snel toegankelijk te houden via meerdere ingangen als alternatief voor Oracle indices. Bij travel en leisure website Orbitz wordt Hadoop toegepast als extensie op een bestaand DWH. Complexe bronbestanden worden voorbewerkt in Hadoop en de resultaten geladen in een DWH obv Greenplum. Complexe statistische jobs over grote datasets worden uitbesteed aan het Hadoop cluster. Op die manier wordt elk onderdeel optimaal ingezet; Greenplum voor snelle responstijden en interactiviteit voor relationele data en Hadoop als werkpaard voor het zware werk en het omzetten van complexe formaten. Ik raad iedereen aan eens een kijken op de websites van Apache Hadoop [6]en Cloudera [7] voor nog veel meer use cases. Hadoop in Nederland Zal Hadoop Nederland veroveren? De eerste implementaties zijn er al. Ik schat het aantal organisaties met een eigen cluster op tien tot vijftien. Niet alle early adaptors willen hier ruchtbaarheid aan geven. Het gaat immers om technologie die een concurrentievoordeel kan opleveren. Een aantal vooruitstrevende partijen hebben de stap gezet. Bol.com en Marktplaats hebben Hadoop clusters [8] waarmee op basis van data uit weblogs aanbevelingen voor websitebezoekers worden berekend en ad-hoc analyse worden gedaan. Een grote internetmedia uitgever heeft een eigen Hadoop cluster voor het filteren en aggregeren van gigantische weblogs. Wetenschappelijk Nederland kan vanaf begin dit jaar gebruik maken van een groot Hadoop cluster van Sara bestaande uit 500 CPU cores. RIPE NCC in Amsterdam, een partij die een belangrijke rol speelt in de internetinfrastructuur voor Noordwest Europa, heeft data over internetroutering vanuit MySQL gemigreerd naar een Hadoop cluster bestaande uit 8 nodes [9]. De Rabobank en een bekende energiereus zijn van start gegaan met pilots op eigen Hadoopclusters om de meerwaarde van Hadoop aan te tonen. Deze pilotclusters werken niet zelden als een magneet op andere databronnen uit dezelfde organisatie die momenteel nog onbenut blijven. In het KPN concern lopen meerdere projecten om met Jasper Knulst 8 Incentro 2012

9 Figuur III. Hadoop verovert Nederland Hadoop geautomatiseerd metadata te genereren uit webcontent en een ander om logfiles te interpreteren. Conclusie De komende jaren zal blijken of Hadoop in Nederland breed geïmplementeerd zal worden. Een factor die de adoptie van Hadoop in de weg zou kunnen staan is de beschikbaarheid van de analytische capaciteit om waarde uit nieuwe databronnen te destilleren. BI professionals kunnen prima omgaan met SQL en op SQL gebaseerde BI tools, maar worden momenteel nog niet goed bediend door tools die met Hadoop integreren. Joinen, filteren en aggregeren van gestructureerde data met Hive is het probleem niet, er zijn al veel implementaties waar Hadoop alleen op basis daarvan wordt ingezet. Hadoop valt niet goed in de trend van self-service BI waarbij een brede groep in staat wordt gesteld om zelf datasets te exploreren. Ook uit de hoek van de pleitbezorgers voor dataquality en datagovernance wordt gemopperd. Zij stellen dat de inzichten uit de analyse van big data minder betrouwbaar of bruikbaar zouden zijn, omdat deze zijn verworven door programmeurs in plaats van BI-professionals. Helaas diskwalificeren zij de nieuwe technologie daarom op voorhand. Dat Hadoop voor de meeste BI-professionals ver buiten hun comfort zone ligt speelt hierbij zeker een rol. Laat u niet misleiden; de nieuwe mogelijkheden zijn te mooi om te laten liggen. In de VS is er inmiddels een groot tekort aan zogenaamde data scientists. Bij de omgang met complexe databronnen en voor het verwerven van minder grijpbare inzichten zijn statistiek, wiskunde en bovenal Java skills noodzakelijk. Er blijken maar weinig mensen te zijn die deze vaardigheden combineren en Jasper Knulst 9 Incentro 2012

10 dit is een factor die verdere adoptie in de weg zou kunnen staan. Een drietal scenario s zijn denkbaar. Ten eerste zouden BI professionals de overstap kunnen maken naar Hadoop en NoSQL gerelateerde tools. Ik ben hier zelf een voorbeeld van; aangetrokken door de vele nieuwe mogelijkheden. Ten tweede zouden analytisch ingestelde Java programmeurs, die nu applicaties bouwen, zich bezig kunnen gaan houden met het verwerven van waardevolle informatie uit grote hoeveelheden data. Ten derde zouden Hadoop en aanverwante tools op den duur gebruiksvriendelijker kunnen worden zodat het vakgebied minder specialistisch wordt. Op dat vlak wordt al veel werk verzet, maar het is nog lang niet zover dat een breed publiek direct met Hadoop kan werken, hoezeer vendors ook roepen dat dat wel zo is. Jasper Knulst is Hadoop en BI consultant bij Incentro Gildeweg 5B 2632 BD Nootdorp The Netherlands E: T: M: W: Bronnen: [1] [2]Voor het laatste heb ik geen vergelijk op een RDBMS platform, omdat het niet gelukt is dezelfde data te laden. [3]http://www.infoworld.com/d/open-source/whats-the-new-york-times-doing-hadoop-392 [4] [5] [6] [7] [8] Java Magazine 4, september 2011, TechRally bij Bol.com levert veel nuttigs op [9] Hadoop and HBase at RIPE NCC, Jasper Knulst 10 Incentro 2012

Misvattingen (korte) Intro Hadoop Hadoop & BI Demo logparsing met Hadoop Showcase Datameer Stappenplan Vragen

Misvattingen (korte) Intro Hadoop Hadoop & BI Demo logparsing met Hadoop Showcase Datameer Stappenplan Vragen Baarn, 5 juli 2012 Agenda Misvattingen (korte) Intro Hadoop Hadoop & BI Demo logparsing met Hadoop Showcase Datameer Stappenplan Vragen 18-07-2012 2 Misvattingen Meest gehoorde bezwaren Hadoop is alleen

Nadere informatie

Big Data Schaalbaar rekenen

Big Data Schaalbaar rekenen Big Data Schaalbaar rekenen Big Data Niels Basjes Niels@Basjes.nl @nielsbasjes http://github.com/nielsbasjes TU-Delft Informatica Nyenrode Bedrijfskunde Zoek Suggesties Software ontwikkelaar Onderzoeker

Nadere informatie

Begrippenlijst Inzicht in de wereld van big data, marketing en analyse

Begrippenlijst Inzicht in de wereld van big data, marketing en analyse Begrippenlijst Inzicht in de wereld van big data, marketing en analyse 4orange, 13 oktober 2015 Hogehilweg 24 1101 CD Amsterdam Zuidoost www.4orange.nl 2 Inhoud Achtergrond & Aanleiding... 3 A... 3 B...

Nadere informatie

Aandachtspunten bij de transitie naar een Big Data-omgeving

Aandachtspunten bij de transitie naar een Big Data-omgeving Aandachtspunten bij de transitie naar een Big Data-omgeving Organisaties worden steeds meer voor de uitdaging gesteld om grote volumes aan data te verwerken en op te slaan. Het gemiddelde volume aan data

Nadere informatie

Zelftest Informatica-terminologie

Zelftest Informatica-terminologie Zelftest Informatica-terminologie Document: n0947test.fm 01/07/2015 ABIS Training & Consulting P.O. Box 220 B-3000 Leuven Belgium TRAINING & CONSULTING INTRODUCTIE Deze test is een zelf-test, waarmee u

Nadere informatie

Big Data en Testen samen in een veranderend speelveld. Testnet 10 april 2014 Paul Rakké

Big Data en Testen samen in een veranderend speelveld. Testnet 10 april 2014 Paul Rakké Big Data en Testen samen in een veranderend speelveld Testnet 10 april 2014 Paul Rakké Kernvraag Is het testen van Big Data omgevingen, applicaties en de data anders dan het testen van meer traditionele

Nadere informatie

Functionele beschrijving: scannen naar Exact Globe.

Functionele beschrijving: scannen naar Exact Globe. Functionele beschrijving: scannen naar Exact Globe. Algemeen Met de KYOCERA scannen naar Exact Globe beschikt u over een efficiënte oplossing om uw documenten te scannen naar Exact Globe. Met deze oplossing

Nadere informatie

Magnutude 2012 Efficient BI. 18 september Joost de Ruyter van Steveninck

Magnutude 2012 Efficient BI. 18 september Joost de Ruyter van Steveninck Magnutude 2012 Efficient BI 18 september Joost de Ruyter van Steveninck 2 Inhoud Is BI nog niet efficiënt? Trends in BI Efficient BI: de trends in praktijk 3 Feedback van de gebruiker Informatie behoefte

Nadere informatie

Functionele beschrijving: Scannen naar AFAS Profit.

Functionele beschrijving: Scannen naar AFAS Profit. Functionele beschrijving: Scannen naar AFAS Profit. Algemeen Met de Kyocera Scannen naar AFAS Profit beschikt u over een efficiënte oplossing om uw documenten te scannen naar AFAS Profit. Met deze oplossing

Nadere informatie

Waarmaken van Leibniz s droom

Waarmaken van Leibniz s droom Waarmaken van Leibniz s droom Artificiële intelligentie Communicatie & internet Operating system Economie Computatietheorie & Software Efficiënt productieproces Hardware architectuur Electronica: relais

Nadere informatie

Big Data en Variabele Data Printing

Big Data en Variabele Data Printing Big Data en Variabele Data Printing Roelof Janssen Definitie Big Data Verwerken en interpreteren van grote en/of gevarieerde dataverzamelingen Doug Laney, Gartner: groeiend volume van data Socialmedia

Nadere informatie

BIG DATA. 4 vragen over Big Data

BIG DATA. 4 vragen over Big Data 4 vragen over Big Data Dit ebook geeft in het kort antwoorden op 4 vragen omtrent Big Data. BIG DATA Wat is Big Data? Hoe zet ik een Big Data Strategie op? Wat is het verschil tussen Big Data en BI? Wat

Nadere informatie

Functionele beschrijving: scannen naar van Brug software.

Functionele beschrijving: scannen naar van Brug software. Functionele beschrijving: scannen naar van Brug software. Algemeen Met de KYOCERA scannen naar van Brug Software beschikt u over een efficiënte oplossing om uw documenten te scannen naar het Notarieel

Nadere informatie

Functionele beschrijving: scannen naar UNIT4 DocumentManager

Functionele beschrijving: scannen naar UNIT4 DocumentManager Functionele beschrijving: scannen naar UNIT4 DocumentManager Algemeen Met de KYOCERA Scannen naar UNIT4 DocumentManager beschikt u over een efficiënte oplossing om uw documenten te scannen naar UNIT4 DocumentManager

Nadere informatie

Functionele beschrijving: scannen naar UNIT4 Cura Documentmanagement.

Functionele beschrijving: scannen naar UNIT4 Cura Documentmanagement. Functionele beschrijving: scannen naar UNIT4 Cura Documentmanagement. Algemeen Met KYOCERA scannen naar UNIT4 Cura Documentmanagement beschikt u over een efficiënte oplossing om uw documenten te scannen

Nadere informatie

Erik Poll Martijn Warnier. http://www.cs.kun.nl/~erikpoll/linux

Erik Poll Martijn Warnier. http://www.cs.kun.nl/~erikpoll/linux Introductie Linux/UNIX Erik Poll Martijn Warnier http://www.cs.kun.nl/~erikpoll/linux Concrete doel van vandaag Basisvaardigheden UNIX/Linux werken met de command line shell file beheer proces beheer Betere

Nadere informatie

DB architectuur. joost.vennekens@denayer.wenk.be

DB architectuur. joost.vennekens@denayer.wenk.be DB architectuur joost.vennekens@denayer.wenk.be DB - logisch perspectief - DB - fysisch perspectief - DBMS Fysische details van databank beheren Zodat gebruiker zich enkel om logische perspectief moet

Nadere informatie

OpenText RightFax. Intuitive Business Intelligence. Whitepaper. BI/Dashboard oplossing voor OpenText RightFax

OpenText RightFax. Intuitive Business Intelligence. Whitepaper. BI/Dashboard oplossing voor OpenText RightFax OpenText RightFax Intuitive Business Intelligence Whitepaper BI/Dashboard oplossing voor OpenText RightFax Beschrijving van de oplossing, functionaliteit & implementatie Inhoud 1 Introductie 2 Kenmerken

Nadere informatie

De Outlook en SharePoint integratie

De Outlook en SharePoint integratie Direct vanuit Outlook e-mailberichten en/of bijlagen opslaan in SharePoint ( drag and drop ). GeONE is uw partner voor SharePoint Informatie Management. Alle document management functionaliteiten beschikbaar

Nadere informatie

Three Ships CDS opschalingsdocument Overzicht server configuratie voor Three Ships CDS

Three Ships CDS opschalingsdocument Overzicht server configuratie voor Three Ships CDS CDS opschalingsdocument Overzicht server configuratie voor CDS 1. Algemeen Dit document geeft een overzicht van een aantal mogelijke hardware configuraties voor het inrichten van een serveromgeving voor

Nadere informatie

Business Intelligence. Toepassing BI Database en Datawarehouse BI proces BI Organisatie Implementatie BI

Business Intelligence. Toepassing BI Database en Datawarehouse BI proces BI Organisatie Implementatie BI Business Intelligence Toepassing BI Database en Datawarehouse BI proces BI Organisatie Implementatie BI Toepassing BI (Operationele) sturing Financieel (BBSC) Performance NIET voor ondersteuning proces

Nadere informatie

Functionele beschrijving: scannen naar Trivium FORTUNA.

Functionele beschrijving: scannen naar Trivium FORTUNA. Functionele beschrijving: scannen naar Trivium FORTUNA. Algemeen Met KYOCERA scannen naar Trivium FORTUNA beschikt u over een efficiënte oplossing om uw documenten te scannen naar Trivium FORTUNA. Met

Nadere informatie

HOE EENVOUDIG IS HET OM GEBRUIK TE MAKEN VAN CLOUD COMPUTING?

HOE EENVOUDIG IS HET OM GEBRUIK TE MAKEN VAN CLOUD COMPUTING? Innervate: Januari 2011 WHITEPAPER CLOUD COMPUTING HOE EENVOUDIG IS HET OM GEBRUIK TE MAKEN VAN CLOUD COMPUTING? Lees hier in het kort hoe u zich het best kunt bewegen in de wereld van cloud computing

Nadere informatie

Nieuwe Technologie en Architecturen voor Business Intelligence en Datawarehousing

Nieuwe Technologie en Architecturen voor Business Intelligence en Datawarehousing LOCATIE Amrath Hotel Lapershoek, Hilversum TIJD van 9.30 uur tot 17.00 uur REGISTRATIE www.arrayevents.nl Nieuwe Technologie en Architecturen voor Business Intelligence en Datawarehousing met Rick van

Nadere informatie

The End of an Architectural Era

The End of an Architectural Era The End of an Architectural Era M. Stonebraker, S. Madden, D. J. Abadi, S. Harizopoulos, N. Hachem, P. Helland Jorn Van Loock Inleiding Oorsprong relationele DBMS IBM System R (1974) DB2 Sybase SQL Server

Nadere informatie

Naar de cloud: drie praktische scenario s. Zet een applicatiegerichte cloudinfrastructuur op. whitepaper

Naar de cloud: drie praktische scenario s. Zet een applicatiegerichte cloudinfrastructuur op. whitepaper Naar de cloud: drie praktische scenario s Zet een applicatiegerichte cloudinfrastructuur op whitepaper Naar de cloud: drie praktische scenario s Veel bedrijven maken of overwegen een transitie naar de

Nadere informatie

Self Service BI. de business

Self Service BI. de business BI in de praktijk Self Service BI Breng de kracht van BI naar de business Luc Alix Sogeti Nederland B.V. Redenen voor Business Intelligence Sneller kunnen beslissen 42 % Beter kunnen beslissen 42 % Concurrentieel

Nadere informatie

Big Data: wat is het en waarom is het belangrijk?

Big Data: wat is het en waarom is het belangrijk? Big Data: wat is het en waarom is het belangrijk? 01000111101001110111001100110110011001 Hoeveelheid 10x Toename van de hoeveelheid data elke vijf jaar Big Data Snelheid 4.3 Aantal verbonden apparaten

Nadere informatie

Databases - Inleiding

Databases - Inleiding Databases Databases - Inleiding Een database is een verzameling van een aantal gegevens over een bepaald onderwerp: een ledenbestand van een vereniging, een forum, login gegevens. In een database worden

Nadere informatie

Big Data Schaalbaar rekenen

Big Data Schaalbaar rekenen Big Data Schaalbaar rekenen Big Data Niels Basjes Niels@Basjes.nl @nielsbasjes http://github.com/nielsbasjes TU-Delft Informatica Nyenrode Bedrijfskunde Zoek Suggesties Software ontwikkelaar Onderzoeker

Nadere informatie

Hoe zet u virtualisatie slim in bij forensische onderzoeksomgevingen?

Hoe zet u virtualisatie slim in bij forensische onderzoeksomgevingen? Hoe zet u virtualisatie slim in bij forensische onderzoeksomgevingen? ir. Ronald van Vugt ronald@netwell.eu Aanleiding Deze presentatie is ontstaan naar aanleiding van een nieuw architectuur ontwerp voor

Nadere informatie

EIGENSCHAPPEN CONVERGED HARDWARE

EIGENSCHAPPEN CONVERGED HARDWARE EIGENSCHAPPEN CONVERGED HARDWARE Eigenschappen Converged Hardware 1 van 8 Document Informatie Versie Datum Omschrijving Auteur(s) 0.1 29-09-2015 Draft Remco Nijkamp 0.2 29-09-2015 Volgende Versie opgesteld

Nadere informatie

1 Deelproject Spraakherkenning: SHoUT Audio Indexering Service

1 Deelproject Spraakherkenning: SHoUT Audio Indexering Service 1 Deelproject Spraakherkenning: SHoUT Audio Indexering Service De in het CHoral project ontwikkelde audio-indexeringstechnologie op basis van automatische spraakherkenning (SHoUT) wordt beschikbaar gemaakt

Nadere informatie

Ondersteuning van zorg gerelateerde processen en activiteiten voor patiënt en zorgverstrekkers

Ondersteuning van zorg gerelateerde processen en activiteiten voor patiënt en zorgverstrekkers Ondersteuning van zorg gerelateerde processen en activiteiten voor patiënt en zorgverstrekkers Contact persoon: Thera Splinter: 020 6445160 team@webfysio.nl Contact persoon: Joost Nagelmaeker: 0642115336

Nadere informatie

Gimme Five! Op weg naar TYPO3 5.0 'Phoenix'

Gimme Five! Op weg naar TYPO3 5.0 'Phoenix' Gimme Five! Op weg naar TYPO3 5.0 'Phoenix' Waarom TYPO3 5.0? Waarom TYPO3 5.0? Enkele redenen: Waarom TYPO3 5.0? Enkele redenen: Complexiteit De TYPO3 Core architectuur heeft zijn limiet bereikt en is

Nadere informatie

Gebruikersvriendelijke beheer van bestanden in SharePoint

Gebruikersvriendelijke beheer van bestanden in SharePoint #1 Oplossing wereldwijd. Bewezen in omgvangrijke omgevingen 100+ en 10.000+ gebruikers. GeONE is uw partner voor SharePoint Informatie Management. GeONE levert het volledige pakket aan SharePoint toepassingen

Nadere informatie

Ctac: Klanten de weg wijzen naar Real-time Data Platform met SAP ASE

Ctac: Klanten de weg wijzen naar Real-time Data Platform met SAP ASE SAP Customer Success Story Professional services Ctac-ASE Ctac s Hertogenbosch Used with permission. Ctac: Klanten de weg wijzen naar Real-time Data Platform met SAP ASE Als gecertificeerd SAP partner

Nadere informatie

Presentatie Rapportage Met SAP Business Objects

Presentatie Rapportage Met SAP Business Objects Presentatie Rapportage Met SAP Business Objects Verzorgd door: Camille van Dongen, itelligence Fouad Allabari, i3 Woerden 4 februari 2011 Agenda Voorstellen itelligence & i3 Business Intelligence SAP Business

Nadere informatie

SIMPLIFYSCAN. A sharp choice in intelligent scanning

SIMPLIFYSCAN. A sharp choice in intelligent scanning SIMPLIFYSCAN A sharp choice in intelligent scanning SIMPLIFYSCAN: A SHARP CHOICE IN INTELLIGENT SCANNING SimplifyScan maakt het voor gebruikers mogelijk om documenten op een eenvoudige wijze te scannen

Nadere informatie

Niklas Integratie Platform Verbeteren, besparen en méér

Niklas Integratie Platform Verbeteren, besparen en méér Niklas Integratie Platform Verbeteren, besparen en méér Het betaalbare integratieplatform voor al uw Business-to-Business Integratie en Applicatie Integratie Volledig geautomatiseerde afhandeling van elektronisch

Nadere informatie

output management www.advanced-forms.com

output management www.advanced-forms.com output management www.advanced-forms.com Advanced-Forms Advanced-Forms is een state-of-the-art, gebruiksvriendelijke- en flexibele outputmanagementoplossing voor bedrijven van elke grootte. Met Advanced-Forms

Nadere informatie

Technische keuzes Management Informatie Systeem MeanderGroep

Technische keuzes Management Informatie Systeem MeanderGroep Technische keuzes Management Informatie Systeem MeanderGroep Dit document beschrijft de keuzes die gedaan worden ten aanzien van de hard en software voor het Management Informatie Systeem. Voor de presentatielaag

Nadere informatie

Big Data bij de Rabobank

Big Data bij de Rabobank Big Data bij de Rabobank Platform Klantgericht Ondernemen, 19 sept 2012 Marcel Kuil en Hilde van Hulten Onderwerpen Big Data bij Rabobank; Wat en waarom? Roadmap Aanleiding Doelstelling Aanpak Inrichting

Nadere informatie

Linux. Linux lezing 13 april 2005 Marcel Nijenhof Note: De slechste vragen zijn niet gestelde vragen

Linux. Linux lezing 13 april 2005 Marcel Nijenhof <marceln@xs4all.nl> Note: De slechste vragen zijn niet gestelde vragen Linux Linux lezing 13 april 2005 Marcel Nijenhof Note: De slechste vragen zijn niet gestelde vragen Indeling Inleiding Overeenkomsten Verschillen Opbouw Toepassen distributies opensource

Nadere informatie

1 Client/Server. 2 Geschiedenis. 3 Toekomst

1 Client/Server. 2 Geschiedenis. 3 Toekomst Deel 1 Inleiding 1 Client/Server 2 Geschiedenis 3 Toekomst Het client-server model is een model voor de samenwerking tussen twee of meer programma's, die zich op verschillende computers kunnen bevinden.

Nadere informatie

Application Services. Alles onder één dak: functioneel applicatiebeheer, applicatieontwikkeling en testdiensten

Application Services. Alles onder één dak: functioneel applicatiebeheer, applicatieontwikkeling en testdiensten Application Services Alles onder één dak: functioneel applicatiebeheer, applicatieontwikkeling en testdiensten Application Services van KPN Afdelingen smelten samen, markten verschuiven, klanten willen

Nadere informatie

WD en het WD-logo zijn gedeponeerde merken van Western Digital Technologies, Inc. in de V.S. en andere landen; absolutely, WD Re, WD Se, WD Xe,

WD en het WD-logo zijn gedeponeerde merken van Western Digital Technologies, Inc. in de V.S. en andere landen; absolutely, WD Re, WD Se, WD Xe, WD en het WD-logo zijn gedeponeerde merken van Western Digital Technologies, Inc. in de V.S. en andere landen; absolutely, WD Re, WD Se, WD Xe, StableTrac en RAFF zijn merken van Western Digital Technologies,

Nadere informatie

Product marketing met

Product marketing met Product marketing met Michiel Klaren, Natasja Paulssen 2007-11-22 Complexiteit van de Content Management Chain Hoe het was (2002) Meer dan 9,000 uitwisselingen nodig voor verzamelen content van catalogus

Nadere informatie

Automatische online en lokale backup en recovery van bedrijfsdata

Automatische online en lokale backup en recovery van bedrijfsdata Automatische online en lokale backup en recovery van bedrijfsdata Omdat u moet kunnen vertrouwen op uw backup... BACKUPAGENT, DE VOORDELEN OP EEN RIJ - Veilige backups zonder omkijken, alle bedrijfskritische

Nadere informatie

PRODUCT SHEET WHAT WE DO

PRODUCT SHEET WHAT WE DO ESDNOW, onderdeel van DISC BV, is dé Europese specialist als het gaat om het beheren, beveiligen, verkopen, toegang verschaffen tot, en distributie van digitale content. ESDNOW helpt uitgevers bij het

Nadere informatie

IBM Tivoli Storage Manager Licentie structuur

IBM Tivoli Storage Manager Licentie structuur Ad van Leeuwen Client Technical Professional Tivoli 18 april 2013 IBM Tivoli Storage Manager Licentie structuur Document number TSM licentie modellen Standaard model: PVU s Aantal cpus x aantal cores x

Nadere informatie

SharePoint 2010 versus 2013

SharePoint 2010 versus 2013 Whitepaper SharePoint 2010 versus 2013 Is een upgrade noodzakelijk? T +31 418 57 07 00, F +31 418 57 07 50 Inleiding Microsoft komt met een echt sociaal samenwerkingsplatform dat past bij de eisen en wensen

Nadere informatie

Uitgebreid voorstel Masterproef Informatica

Uitgebreid voorstel Masterproef Informatica HoGent Uitgebreid voorstel Masterproef Informatica Titel van het project: Optimalisatie & ontwikkeling van een gegevenstransfertool voor Business Intelligence-gebruikers Datum : 01/11/2012 Naam student

Nadere informatie

HET SUCCES VAN QLIKVIEW. Breda, 31 augustus 2011 Leon de Ridder, UNIT4

HET SUCCES VAN QLIKVIEW. Breda, 31 augustus 2011 Leon de Ridder, UNIT4 HET SUCCES VAN QLIKVIEW Breda, 31 augustus 2011 Leon de Ridder, UNIT4 UNIT4 BI SOLUTIONS Leon de Ridder UNIT4, beursgenoteerd, 24 landen Specialist in BI & Financial Management Sinds 1996 actief, > 800

Nadere informatie

Marlin Family. Marlin

Marlin Family. Marlin PCA Mobile PCA Mobile Organisatie PCA Mobile BV maakt deel uit van de Mobile Solution Group en biedt met ruim 40 enthousiaste collega s een veelomvattend pakket van innovatieve en gebruiksvriendelijke

Nadere informatie

Hoge beschikbaarheid bij Lips Textielservices Johan Westerduin, Transfer Solutions

Hoge beschikbaarheid bij Lips Textielservices Johan Westerduin, Transfer Solutions Hoge beschikbaarheid bij Lips Textielservices Johan Westerduin, Transfer Solutions 22 April, 2010 Woerden, Nederland Introductie Transfer Solutions Transfer Solutions is een gespecialiseerde

Nadere informatie

Gebruikersvriendelijke beheer van bestanden in SharePoint

Gebruikersvriendelijke beheer van bestanden in SharePoint #1 Oplossing wereldwijd. Bewezen in omgvangrijke omgevingen 100+ en 10.000+ gebruikers. GeONE is uw partner voor SharePoint Informatie Management. GeONE levert het volledige pakket aan SharePoint toepassingen

Nadere informatie

HOGESCHOOL ROTTERDAM / CMI

HOGESCHOOL ROTTERDAM / CMI HOGESCHOOL ROTTERDAM / CMI CMIENSBDH BIG DATA PROCESSING MET HADOOP Aantal studiepunten: 4 Modulebeheerder: R. Bakker INFANL01-3 1 Modulebeschrijving CMIENSBDH Cursusnaam: BIG DATA PROCESSING MET HADOOP

Nadere informatie

Technische nota AbiFire5 Rapporten maken via ODBC

Technische nota AbiFire5 Rapporten maken via ODBC Technische nota AbiFire5 Rapporten maken via ODBC Laatste revisie: 29 juli 2009 Inhoudsopgave Inleiding... 2 1 Installatie ODBC driver... 2 2 Systeeminstellingen in AbiFire5... 3 2.1 Aanmaken extern profiel...

Nadere informatie

Uitleg algemene structuur WTell

Uitleg algemene structuur WTell Uitleg algemene structuur WTell Brondocument C:\WebServer\Handleiding\WTellAlgemeen\WTellStructuurGlobaal.odt Versiebeheer Versie Datum Uitleg 1.0v 21-09-11 1e versie met uitleg globale structuur WTell

Nadere informatie

Zo helder kan communicatie zijn!

Zo helder kan communicatie zijn! Zo helder kan communicatie zijn! Solide VoIP oplossing ClearVox; noem het gerust dé Nederlandse softwarespecialist van VoIP oplossingen. Wij combineren opensource-technologie met eigen ontwikkelde software

Nadere informatie

Inhoud. Wat is Power BI?... 3. Voorbeelden gemaakt met Power BI... 4. Beginnen met Power BI... 6. Werkruimte uitleg... 7

Inhoud. Wat is Power BI?... 3. Voorbeelden gemaakt met Power BI... 4. Beginnen met Power BI... 6. Werkruimte uitleg... 7 Inhoud Wat is Power BI?... 3 Voorbeelden gemaakt met Power BI... 4 Beginnen met Power BI... 6 Werkruimte uitleg... 7 Naar een dashboard in 3 stappen... 8 Stap 1: Gegevens ophalen... 8 Stap 2: Rapport maken...

Nadere informatie

Optimaliseer de performance van uw dienst

Optimaliseer de performance van uw dienst Whitepaper Optimaliseer de performance van uw dienst Succes van uw online applicatie hangt mede af van de performance. Wat kunt u doen om de beste performance te behalen? INHOUD» Offline sites versus trage

Nadere informatie

Testen van Datawarehouses en Informa2e. Kan het 2x zo snel, 2x zo goedkoop en 2x zo volledig?

Testen van Datawarehouses en Informa2e. Kan het 2x zo snel, 2x zo goedkoop en 2x zo volledig? Testen van Datawarehouses en Informa2e Kan het 2x zo snel, 2x zo goedkoop en 2x zo volledig? Wat verwachten we van DWH testen? 1. 2. 3. 4. 5. Gestructureerd Bekende afwijkingen Herhaalbaar (regressietesten)

Nadere informatie

Opbouw archief tot nu toe

Opbouw archief tot nu toe Agenda Achtergrond bij de rollout VIAA timeline & archiefsysteem Proces digitalisering => archivering VIAA en U Demo & Training Future Work Support en documentatie. Opbouw archief tot nu toe Grootste mijlpalen

Nadere informatie

CaseMaster RP ResellerProfiling

CaseMaster RP ResellerProfiling CaseMaster RP ResellerProfiling ResellerProfiling Het verzamelen van reseller informatie is een zeer belangrijke stap in het proces om bij te blijven in de huidige tijd. De performance van de resellers

Nadere informatie

Big Data. Fundamentals. Ontwikkel slimme data-producten voor new business development

Big Data. Fundamentals. Ontwikkel slimme data-producten voor new business development 3 e editie U ontvangt een ipad mini met het digitale lesmateriaal Big Data Fundamentals Diepgaande introductie opleiding voor een succesvolle implementatie van uw Big Data project Ontwikkel slimme data-producten

Nadere informatie

Handleiding website Pax Christi

Handleiding website Pax Christi Handleiding website Pax Christi deel II Inhoudstafel 1. Invoegen van afbeeldingen... 1 1.1 Wat is een digitale afbeelding?...1 1.2 Het invoegen van een digitale afbeelding in een bericht... 2 2. Posten

Nadere informatie

DATA MANAGEMENT Manuel Zafirakis. Actuarial Presales Consultant SunGard. Data Optimisatie.

DATA MANAGEMENT Manuel Zafirakis. Actuarial Presales Consultant SunGard. Data Optimisatie. DATA MANAGEMENT Manuel Zafirakis Actuarial Presales Consultant SunGard Data Optimisatie. Agenda 01 DE SLEUTELBEGRIPPEN VAN DATA MANAGEMENT 02 VERANDERENDE REGELGEVING EN HET EFFECT OP DATA MANAGEMENT 03

Nadere informatie

Invantive Producer. Als integriteit en compliance noodzakelijk is. Maar niks extra mag kosten.

Invantive Producer. Als integriteit en compliance noodzakelijk is. Maar niks extra mag kosten. Invantive Producer Als integriteit en compliance noodzakelijk is. Maar niks extra mag kosten. Agenda Invantive Visie De Invantive Benadering Het Invantive Resultaat Invantive Producer Praktijkvoorbeelden

Nadere informatie

Tools voor canonieke datamodellering Bert Dingemans

Tools voor canonieke datamodellering Bert Dingemans Tools voor canonieke datamodellering Tools voor canonieke datamodellering Bert Dingemans Abstract Canonieke modellen worden al snel omvangrijk en complex te beheren. Dit whitepaper beschrijft een werkwijze

Nadere informatie

Applicatie Integratie in de zorg: implementatie tips uit de praktijk

Applicatie Integratie in de zorg: implementatie tips uit de praktijk Applicatie Integratie in de zorg: implementatie tips uit de praktijk Veel zorginstellingen geven aan informatievoorziening te willen verbeteren. Om bijvoorbeeld de cliënt meer centraal te stellen of Het

Nadere informatie

Dataconversie met Oracle Spatial

Dataconversie met Oracle Spatial Realworld klantendag 19 september 2013 Voorstellen 1 2 Computer Science & Engineering (TU/e) 3 Realworld Systems 4 Datamigraties Alliander Stedin Agenda 1 Architectuur Inleiding Ontwerp migratie 2 Rapportage

Nadere informatie

Virtueel of Fysiek. Uitdagingen bij migratie naar Windows 7

Virtueel of Fysiek. Uitdagingen bij migratie naar Windows 7 Het jaar 2011/2012 staat voor veel organisaties in het teken van Windows 7. De overstap van Windows XP naar Windows 7 lijkt in eerste instantie eenvoudig te zijn maar blijkt in de praktijk toch complex.

Nadere informatie

De cloud die gebouwd is voor uw onderneming.

De cloud die gebouwd is voor uw onderneming. De cloud die gebouwd is voor uw onderneming. Dit is de Microsoft Cloud. Elke onderneming is uniek. Van gezondheidszorg tot de detailhandel, van fabricage tot financiële dienstverlening: geen twee ondernemingen

Nadere informatie

Invantive 2012 Release 1 (build 44)

Invantive 2012 Release 1 (build 44) Invantive 2012 Release 1 (build 44) Invantive Estate Invantive Vision Invantive Control Invantive Producer Invantive Query-programma Invantive Composition Invantive Studio 30 maart 2012 Oplossingen van

Nadere informatie

edocs database structuur info

edocs database structuur info edocs database structuur info EMAIL WEBSITE Zwolle, 3 jan. 12 j.moorman@edocs.nl www.edocs.nl PAGINA 2 VAN 6 Background info edocs is een digitale archiveringsproduct voor windows platforms geschreven

Nadere informatie

Invantive 2012 Release 1 (build 44)

Invantive 2012 Release 1 (build 44) Invantive 2012 Release 1 (build 44) Invantive Estate Invantive Vision Invantive Control Invantive Producer Invantive Query-programma Invantive Composition Invantive Studio 30 maart 2012 Oplossingen van

Nadere informatie

#doorbraakmetmkb #doorbraakmetbigdata. High Performance Computing, Data Science & Data Storage solutions

#doorbraakmetmkb #doorbraakmetbigdata. High Performance Computing, Data Science & Data Storage solutions #doorbraakmetmkb #doorbraakmetbigdata High Performance Computing, Data Science & Data Storage solutions Overzicht Introductie - SURFsara en het bedrijfsleven - Type vraagstukken - SURFsara ICT Infractructuur

Nadere informatie

To cloud or not to cloud Afgewogen keuzes maken met DYA Software

To cloud or not to cloud Afgewogen keuzes maken met DYA Software To cloud or not to cloud Afgewogen keuzes maken met DYA Software Robert Deckers Engineering World 2011 v1 Architectuur: technologie in perspectief Klantbehoefte Toepassing Systeem T 2 Vele wegen die naar

Nadere informatie

VAN PAPIERSTROOM NAAR INFORMATIESTROOM

VAN PAPIERSTROOM NAAR INFORMATIESTROOM VAN PAPIERSTROOM NAAR INFORMATIESTROOM MET ZELF LERENDE DOCUMENTHERKENNING Een continue stroom aan binnenkomende post en interne documenten. Wie herkent het niet? Het vergt tijd en energie om al deze documenten

Nadere informatie

Filr. Sebastiaan Veld Anthony Priestman. 10 april 2013. Overview en business case

Filr. Sebastiaan Veld Anthony Priestman. 10 april 2013. Overview en business case Filr Overview en business case 10 april 2013 Sebastiaan Veld Anthony Priestman Introductie Even voorstellen: Sebastiaan Veld s.veld@interexperts.nl Anthony Priestman apriestman@novell.com 10 april 2013

Nadere informatie

Weblogic 10.3 vs IAS 10.1.3

Weblogic 10.3 vs IAS 10.1.3 Vision ~ Knowledge ~ Results Weblogic 10.3 vs IAS 10.1.3 OGh Fusion Middleware/ SOA Dag 19 Mei 2010, Het Oude Tolhuys Edwin Biemond email edwin.biemond@whitehorses.nl Web http://blogs.whitehorses.nl/,

Nadere informatie

High Performance Computing

High Performance Computing High Performance Computing Kristian Rietveld (krietvel@liacs.nl, kamer 138) Groep Computer Systems - Embedded systems - Specifieke software mappen op specfieke hardware. - Hardware synthesis. - Real-time

Nadere informatie

BPM voor Sharepoint: het beste van twee werelden

BPM voor Sharepoint: het beste van twee werelden BPM voor Sharepoint: het beste van twee werelden BPM voor Sharepoint: het beste van twee werelden Analisten als Gartner en Forrester voorzien dat Sharepoint dé standaard wordt voor document management

Nadere informatie

HPC CLOUD INTRODUCTIE. Jan Bot, SURFsara 5 augustus 2015

HPC CLOUD INTRODUCTIE. Jan Bot, SURFsara 5 augustus 2015 HPC CLOUD INTRODUCTIE Jan Bot, SURFsara 5 augustus 2015 Iets over jullie Doel van vandaag Introductie van het nieuwe HPC Cloud Kweken van een gezamelijk vocabulaire [S4R] Gelegenheid tot netwerken De hands-on

Nadere informatie

Tinus Plotseling 29-12-2002. MySQL

Tinus Plotseling 29-12-2002. MySQL Tinus Plotseling 29-12-2002 MySQL Inhoudsopgave Inleiding... 3 MySQL Geschiedenis... 3 MySQL Toepassingen... 3 MySQL Voordelen... 4 MySQL Nadelen... 4 MySQL bij ASCI... 4 PostgreSQL... 5 ORACLE... 6 MS

Nadere informatie

Van ruwe data naar bruikbare informatie. Sales Insight van itradenetwork

Van ruwe data naar bruikbare informatie. Sales Insight van itradenetwork Van ruwe data naar bruikbare informatie. Sales Insight van itradenetwork Inzicht, kansen, groei Ziet u het niet meer? Het is kenmerkend voor de horeca-, hospitality- en voedingssector dat producenten en

Nadere informatie

Agenda 26-4-2009. Wat zijn de gevolgen van Cloud en Gridcomputing voor de gebruikersorganisatie en de beheersfunctie.

Agenda 26-4-2009. Wat zijn de gevolgen van Cloud en Gridcomputing voor de gebruikersorganisatie en de beheersfunctie. Wat zijn de gevolgen van Cloud en Gridcomputing voor de gebruikersorganisatie en de beheersfunctie. John Lieberwerth Agenda Even voorstellen Cloud Computing De tien Plagen Gebruikersorganisatie en ICT

Nadere informatie

Cerussa FIN Pre-requirements

Cerussa FIN Pre-requirements Pre-requirements Inhoudstafel A. Algemeen... 3 B. Type installaties... 3 C. Hardware en software vereisten... 4 1. PC Clients... 4 2. Terminal Server Clients (Thin Clients)... 4 3. Server... 4 D. Operating

Nadere informatie

Onze diensten. Op de volgende pagina s treft u een overzicht aan van onze diensten

Onze diensten. Op de volgende pagina s treft u een overzicht aan van onze diensten Onze diensten Op de volgende pagina s treft u een overzicht aan van onze diensten Al onze diensten zijn ook beschikbaar in de vorm van workshops en 3 Day Challenges waarin de belangrijkste ICT vraagstukken

Nadere informatie

Cloud Computing. Definitie. Cloud Computing

Cloud Computing. Definitie. Cloud Computing Cloud Computing Definitie In de recente literatuur rond Cloud Computing zijn enorm veel definities te vinden die het begrip allemaal op een verschillende manier omschrijven. Door deze diversiteit zijn

Nadere informatie

Open Informatie Management Server

Open Informatie Management Server OpenIMSR Open Informatie Management Server OpenIMS Algemeen OpenIMS is een platform voor het beheren van ongestructureerde informatie (stromen). U kunt hierbij denken aan werkprocessen of projecten waarin

Nadere informatie

OpenX Hosting. Opties en Alternatieven

OpenX Hosting. Opties en Alternatieven OpenX Hosting Opties en Alternatieven Versie 1.0 Groningen, 9 juni 2009 Opgesteld door: Copyright 2009 ErikGeurts.com B.V. Niets uit dit document mag worden verveelvoudigd, opgeslagen in een geautomatiseerd

Nadere informatie

Wie is leidend of lijdend?

Wie is leidend of lijdend? Organisatie Medische Technologie en ICT Wie is leidend of lijdend? Martijn Schasfoort Manager Zorg en Informatie Technologie Deze presentatie. Het betreft ervaringen uit Máxima Medisch Centrum Cultuur

Nadere informatie

Uw online verkoop volledig onder controle

Uw online verkoop volledig onder controle Uw online verkoop volledig onder controle esuite inloggen Het succesvol en bewezen betrouwbaar inlogsysteem van eerdere esuite systemen is wederom in de XIV en XV-serie terug te vinden. Dankzij het unieke,

Nadere informatie

VMware vsphere 5. What s New! Bram de Laat, Marek Zdrojewski, Jan van Leuken

VMware vsphere 5. What s New! Bram de Laat, Marek Zdrojewski, Jan van Leuken VMware vsphere 5 What s New! Bram de Laat, Marek Zdrojewski, Jan van Leuken ESXi firewall Hardware versie 8 Limieten weer hoger: 32 vcpu s (Multi-core Virtual CPU Support) Max 1TB ram HD Audio USB 3.0

Nadere informatie

Ontdek de mogelijkheden

Ontdek de mogelijkheden Business Intelligence Ontdek de mogelijkheden Drs.Roel Haverland An apple a day.. Page 3 Hoe vertaalt dit zich naar u? Page 5 Hoe vertaalt dit zich naar u? Winst Page 6 Hoe de winst te verhogen? Winst

Nadere informatie

Historische informatie in een Spatial Dynamisch Data Warehouse. Wil de Jong Enterprise Architect

Historische informatie in een Spatial Dynamisch Data Warehouse. Wil de Jong Enterprise Architect Historische informatie in een Spatial Dynamisch Data Warehouse Wil de Jong Enterprise Architect Spatial Eye Synergiedag 2 februari 2012 Aanleiding Business Intelligence project De oplossing en aanpak BI-Visie

Nadere informatie