vsphere Healthcheck Gabrie van Zanten Open Line GabesVirtualWorld.com
OPEN LINE Gestart in 2002 70 Medewerkers Consultancy: Architectuur Ontwerp en implementatie vanuit projectaanpak Managed Services Explotatie en beheer Remote outtasking en housing Full outsourcing Op maat dienstverlening volgens Service Level Agreement (SLA) Twee datacenters
DIENSTEN Cloud Services ISP ICT domein monitoring Storage on Demand Backup as a Service met EMC Avamar (Remote Backup)
vsphere Healthcheck Waarom? - Stabiele omgeving - Vroegtijdig signaleren mogelijke problemen - Makkelijker troubleshooten
Hoe houd ik een healthy omgeving? Gauitvan de defaults DO-CU-MEN-TEER!!!! Beschrijf afwijkingen en het waarom NieuwevSphereupdate? Review je design / afwijkingen. Geautomatiseerde checks Maandelijkse healthcheck Leg resultaten vast, vergelijk met vorige maand
Watligterin Gabeskoffer? Verzameling PowerShell scripts RVtools van Rob de Veij( www.robware.net) VMware Health analyzer appliance (Partners) PowerShell Healtcheck PowerPack Subset VMware Community PowerPack Eigen Aanvullingen Verschillende versies vsphere Client als ThinApp VMware Resource Guide & Performance Guide Template Healthcheck doc met theorie
PowerGUI Health Check PowerPack Download PowerGUI http://powergui.org/ PowerGUI VMware Libraries Installeer VMware PowerCLI 4.x Installeer VMware vsphere Client Download en importeer PowerPack
PowerGUI Health Check PowerPack Check op updates Wijzig PS_TYPE bij aanpassingen Eigen PowerPack maken
PowerGUI Health Check PowerPack Verbinding maken met vcenter Server Clear credentials bij inlog problemen
Check list CPU Memory Storage VMs Hosts / Network Cluster
CPU checks %Ready afgelopen uur VM wachtop CPU toewijzing 0-4% per vcpu= ok 5-9% per vcpu= opletten 10+% per vcpu= onderzoeken (CPU summation value / (<chart default update interval in seconds> * 1000)) * 100 = CPU ready % Verder onderzoeken via bijv ESXTOP: %CSTP > 3 vsmp Excessive usage of vsmp. Decrease amount of vcpusfor this particular VM. This should lead to increased scheduling opportunities.
CPU checks Reservations / Shares / Limits Veel voorkomend misbruik Reservation Shares Limits Oorzaken: Handmatige aanpassingen Template / Clone vcenter upgrades SWAP!!!! LIMIT Reservation Assigned
CPU checks Resource Pools!!! GEEN VM placeholders
CPU checks Lees: VMware vsphere4.1 HA and DRS VMware vsphere 5 Clustering Duncan Epping / Frank Denneman
CPU checks Checks: vcpu* 1000 = normal CPU shares GB RAM * 10 = normal RAM shares CPU/ Memory reservation op 0 CPU/ Memory limit op unlimited Documenteer afwijkingen In action pane correctie scripts
CPU checks Verschil PowerShell en VI Client!
CPU checks CPU Affinity settings - Gemaakte fout bij Citrix XenApp op vsphere - XenApp: - geencpu overcommit (1 vcpu= 1 LCPU) - Geen CPU affinity Aantal vcpus per host Rule of thumb: 6 vcpusper core (Server VM) 10 vcpusper core (VDI VM)
Memory checks Ballooning en Swapping Ballooning eerste waarschuwing Active swapfile Check host RAM usage & VM limits Memory overcomit en Memory overcomit Artikel op GabesVirtualWorld: Memory overcommit in production? YES YES YES Geenreboot maarshutdown omswap te clearen
Storage checks Datastore info Check op vrijeruimte Alarm % vrije ruimte onbruikbaar 10% vrijvan 2TB = 205GB 10% vrijvan 500GB = 50GB GB beter werkbaar Datastores in folders Per folder anderalarm %
Storage checks Orphaned VMDK files Verborgen storage vreters Negeer CTK files (Changed Block Tracking) Dubbel check voor verwijdering (VMSD) Opletten VMs niet binnen vcenter Bijv: apart Oracle cluster, CBT files
Storage checks Waste finder geeft inzicht verloren diskruimte in VMs Alleen Powered ON & Windows Capacity datastore / FreeSpaceMB datastore Capacity per VMDK / FreeSpaceper VMDK Reclaim = Cap (Used /.8 ) The script is based off the formulas in Quest voptimizer. The reclaim value of.8 is stating that if I recover storage or resize disk, I still want 20% free space for growth. This value in the report states how much you can reclaim and still maintain 20% free.
Storage checks Actieve Snapshots Achtergebleven van VMDK backups Consolidated helper snapshot KanVSS issue zijnbijbackup Flinke performance impact Op high I/O systemensoms50% verlies Vollopendatastore en freeze van de VM Enorme groei door defragtools Change Block Tracking invloed Opletten met verwijderen grote snapshots
Storage checks Tip: Dagelijks Snapshot script schedulen Mail overzicht Afspraken maken Max 3 dagen actief AdminID / UserID in snapshot naam Reden in omschrijving, vermeld klant contact
Storage checks Datastore blocksizes Kopieren langzaam verschillende blocksizes Na VMFS3 naar VMFS5 upgrade: blocksizevan 2,4,8MB op VMFS5 ipv 1MB Blijft 64K subblock. Block Size VMFS2 VMFS3 VMFS5 1MB 456GB 256GB 2TB-512B 2MB 912GB 512GB 2TB-512B * 4MB 1.78TB 1TB 2TB-512B * 8MB 2TB 2TB 512B 2TB-512B * 16MB 2TB Invalid Invalid
Upgrade VMFS3 naar VMFS5 Upgrade naarvmfs 5 kanmet draaiendevms Overeenkomst upgrade & Clean format 64TB datastore limiet 64TB passthrough RDM Max VMDK size 2TB 512B Verschil clean format vs upgrade Oude blocksize blijft(1,2,4,8mb), geen VAAI tussen verschillende blocksizes Blijft64K subblockipv8k Limiet 30.720 files ipv >100.000 Alignment blijftop sector 128 ipv2048
Virtual Machine checks Quick-wins Connected CD-roms VMotion warnings Connected floppy drives VMs met out of date tools VMs met oude Virtual Hardware Levels Nieuwe functies Hoger, verder, sneller Bij upgrade denk aan vmupgradehelper.exe Nic settings en Mac changes
Virtual Machine checks VMs inconsistente foldernaam Vooral tijdens troubleshooten VM time sync Wel/ Nietvia VMware Tools? AlleVMs op zelfdewijze Voorkom time-sync loop: ESXi krijgt tijd van DC (PDC Emulator) DC zonder externe source DC pakttijdvan ESXibijboot (BIOS tijd) Per host tijd verschil Active Directory problemen
Host checks NTP settings Zelfde NTP servers Zelfdetime zone Bij log troubleshooting denk aan tijdverschil!!! Check op current time
Host checks Check op vrije poorten per vswitch Schatting max VM-nics per vswitch Na VMotion disconnect Aanpassing vereist reboot
Host checks Security check SSH disabled (ook duidelijk in GUI) TechSupport mode disabled Root password reset / renew Check of complexity hooggenoegis Is root login disabled (handmatig) En natuurlijk gelijke build nummers
Host checks ESXi specifieke settings Logfile locatie Advies om remote syslog te gebruiken grep vmkernel messages Dump file locatie(handmatige controle) Zie: GabesVirtualWorld Setting logfilelocation, swap file, SNMP and vmkcore partition in ESXi Scratch file locatie Configured-& CurrentScratchLocation Reboot nodig
Host checks Path policies Check VMware HCL voor storagetype Storage Array Type Plugin (SATP) Path Selection Plug-in (PSP) MRU Fixed Path Round Robin DOCUMENTEER! BijMRU check vooralnareconnect van path esxcli nmp satp setdefaultpsp psp VMW_PSP_RR satp VMW_SATP_SYMM (voorbeeld)
vcenter checks vcenter logging level Default 1, veelgebruikt2 Level 3 en 4 vooralvoortroubleshooting Vaak ook vergeten na troubleshooting Number of DRS migrations last x days Unbalanced cluster Teveelkanduidenop resource tekort MoeilijktemovenVMs Zuinigmet VM affinity rules
VMware HA Check VMware HA settings Host failure =1 of 25%? VM blocks, vaak ongunstig Isolation Response Shutdown, nothing, Leave Powered On Documenteer beslissing! Redundant Service console portgroup vsphere4: das.isolationaddress& das.isolationaddress2 das.failuredetectiontime setting to >20000ms
VMware DRS Where is Waldo? (vcenter VM) vcenter DRS host affinity rule vcenter/ SQL / 1 DC op eerstehost in cluster Should run rule! Metro Cluster host affinity rule Hou VMs bij dichtstbijzijnde storage obvious DRS rules DC s uitelkaar
Handmatige checks Disk aligment van VMs vdiskinformer virtualizeplanet.com by Ricky El-Qasem UBERalign appliance Nickapedia.com by Nicholas Weaver BACKUP!!!! Eigen risico!!!
Alles OK?
vsphere Healthcheck Gabrie van Zanten Open Line GabesVirtualWorld.com