Ogh => nloug Betreft Engeneered systems SIG => meetup group Nieuwe leader: Laurens Wagemakers Email adres: laurens@leathan.nl Bijeenkomsten => meetup Onderwerpen.??? 1
Marti Koppelmans Appliance Copyright 2016, Oracle and/or its affiliates. All rights reserved.
Agenda BDA als engeneered system Verwachtingen ; keuzes maken als organisatie Aflevering door ACS Uitbreidingen Workshops aan diverse groepen Lessons learned 3
1 Big Data Appliance: starter rack Sun Oracle X6-2L Servers with per server/node: 2 * 22 Core (2.2GHz) Intel Xeon E5-2699 v4 Processors 256 GB DDR4-2400 Memory 96TB Disk space Included Software (4.5): Oracle Linux 6.7 Cloudera Distribution of Apache Hadoop 5.7.1 EDH Edition Cloudera Manager 5.7 4
Nodes with FS, HDFS, CPU & Mem. ory Per server: 2* 22 cores / 256 GB RAM For Linux files: 8TB per node/server On HDFS: net 6 * 32 TB space overall 5
Most important layers Apps Execution Storage
Big Data Appliance: standard services B Node 1 Node 2 Node 3 Node 4 Node 5 Node 6 to n Balancer CM Agent DataNode Failover Controller JournalNode NameNode NodeManager Puppet Puppet Master ZooKeeper CM Agent DataNode Failover Controller JournalNode MySQL Backup NameNode NodeManager Puppet ZooKeeper CM Server CM Agent DataNode JobHistory JournalNode MySQL Primary NodeManager Puppet ResourceManager ZooKeeper CM Agent DataNode Hive, Hue, Oozie, Solr NodeManager ODI Agent Puppet ResourceManager CM Agent DataNode NodeManager Puppet CM Agent DataNode NodeManager Puppet 7
Big Data Appliance: standard services & extensions B BDSQL1 BDSQL2 BDSQL3 BDSQL4 Node 1 Node 2 Node 3 Node 4 Node 5 Node 6 to n Balancer CM Agent CM Agent DataNode DataNode Failover Controller Failover Controller JournalNode JournalNode MySQL Backup NameNode NameNode NodeManager NodeManager Puppet Puppet Puppet Master ZooKeeper ZooKeeper CM Server CM Agent CM Agent DataNode DataNode JobHistory Hive, Hue, Oozie, Solr JournalNode MySQL Primary YARN NodeManager BDSG=4 Puppet ResourceManager ResourceManager ZooKeeper BDD BDSQL6 CM Agent DataNode Rstudio NodeManager NodeManager ODI Agent Puppet Puppet H B A S E over all HDFS nodes in the cluster! 8
2 Verwachtingen ; keuzes maken als organisatie Wat heb ik gekocht als basis? Wat is er extra aangeschaft? Is e.e.a. al standaard geinstalleerd? Of als extra optie? 9
3 Aflevering door ACS HW: checks uitgevoerd OS/OEL : installatie; checks uitgevoerd Cloudera: installatie; checks, ook van Cloudera Manager Connectoren: software aanwezig ; checks rondom MYSQL en ODI agent BDSG: software aanwezig BDD: installatie op dedicated node; checks BDSQL: installatie en servers up - checks 10
Zelf doen: Install & config BDS&G Developers en beheerders : Config in R omgeving (samenwerking met beheerders) Configs in ODI-agent omgeving (environment vars) en binnen ODI NB samenwerking met beheerders zeer belangrijk! 11
4 Uitbreiding / bijstelling Kerberos installatie: ook voor gebruik van Sentry (naar Hive, Impala etc.) BDSQL versie: ook afh. van netwerk bekabeling ODI architectuur: mag ook op andere platforms 12
5 Workshops aan groepen: overzicht Introduction Essentials Big Data Discovery Big Data Spatial Big Data Graph Oracle R libraries (ORAAH) & R schil Big data SQL 13
5 Workshops aan groepen: specifiek Introduction: Overzicht, belangrijkste begrippen Essentials: Overzicht aan technologiën; principes BDD: GUI; Upload ; profilering ; transformaties; analyses; weg(schrijven) Big Data Spatial: kaarten inlezen: - data afbeelden; analyses (binning, clustering) - images afbeelden en bewerkingen doorvoeren Big Data Graph: objecten en relaties opzetten; - analyses: belangrijkste object ; groeperen ; centreren; kortste pad analyse 14
5 Workshops aan groepen specifiek vervolg Oracle R: Statistiek en Data mining m.b.v. Rstudo gebruiken naar filesystemen en processing-omgevingen - data van en naar: FS en HDFS en Hive - executie in Map/Reduce en Spark Big Data SQL : data combineren op database niveau: - gebruik vanuit (Exadata) database - alle bewerkingen en security settings hier mogelijk! 15
6 Big Data SQL: data management Uiteindelijk alle data via reeds bekend SQL benaderen 16
SQL-on-Hadoop Engines Share Metadata, not MapReduce Hive Metastore Oracle Big Data SQL SparkSQL Hive Impala Hive Metastore Table Definitions: movieapp_log_json Tweets avro_log Metastore maps DDL to Java access classes 17
What Gives Exadata Extreme Performance? SQL Small data subset quickly returned Hadoop & NoSQL Oracle Database 12c Offload Query to Exadata Storage Servers 18
Oracle Big Data SQL with specific servers Massively Parallel SQL Query execution, even Relational combined SQL SQL Offload Query to Data Nodes data subset Small data subset quickly returned Offload Query to Exadata Storage Servers Hadoop & NoSQL Oracle Database 12c 19
Apply Advanced Security on Hadoop & NoSQL databases Same security policies apply to all the data sets JSON JSON data unconverted in Hadoop SQL Customer data in Oracle Redaction Virtual Private Database Hadoop Redacted data subset Oracle Database 12c Small data subset quickly returned DBMS_REDACT.ADD_POLICY( object_schema => 'hr', object_name => 'employee', column_name => 'salary', policy_name => 'emp_salary_redaction', function_type => DBMS_REDACT.RANDOM, expression => '1=1' ); 20
7 lessons learned BDA is grote bak met data maar ook een bak met tooling en applicaties Omgeving is nog niet klaar; je hebt een basis om op voort te borduren Totaal nieuwe omgeving Dus moet je open staan voor die nieuwe omgeving & mogelijkheden Stimulerende projectleider is heel belangrijk Samenwerking nodig van ontwikkelaars en beheerders om de omgeving af te maken (configuratie) en uit te bouwen 22
7 Lessons learned vervolg Bij gebruik BDSQL: combinatie met Exadata; delen van gegevens Uit eindelijk kiezen waar een aantal groepen gebruikers zal werken: Data Scientists (BDA ), business analysten (BDA / EXA), BI consultants (BDA /EXA), andere gebruikers (EXA) Bij de technische voorbereiding van de workshops is ook de discussie over te gebruiken versies gestart en zijn patches doorgevoerd Door de technische voorbereiding van de workshops is ook de discussie over best practices documenten voor het beheer gestart De Big data Lite VM s zijn een prima start als voorbereiding op de (nieuwe) mogelijkheden van een platform (versie). 23
8 Big data in Cloud: Mogelijkheden BDCS ~ BDA BDCS-CE ~ losse servers combineren; met Oracle Hadoop IaaS: Hadoop installatie uitvoeren ook mogelijk: VM met Hadoop op Ravello benutten 25
8 Big data in Cloud:Migratie pad van BDA naar BDCS Fase 1 opslag data sets, exports (op media), config files Fase 2 transport naar cloud (via bulk media en transport tooling) Fase 3 kopieren naar FS en HDFS ; specifieke import in databases (MYSQL, HBASE) Fase 4 checks uitvoeren Fase 5 gewoon weer gebruiken / in productie! 26
8 Big data in Cloud: Migratie pad van BDA naar Cloud Welke datasets gebruik je waar (FS, HDFS) > data transfer Welke metadata gebruik je (Hive op HDFS) > export metadata (later import) Welke databases gebruik je (Hbase) > export dataset mysql Welke tooling gebruik je (b.v. bij R, ODI, BDSG) > settings ; config files! 27
Copyright 2016, Oracle and/or its affiliates. All rights reserved.