De baraminic distance method

Maat: px
Weergave met pagina beginnen:

Download "De baraminic distance method"

Transcriptie

1 De baraminic distance method Peter Beernink Inleiding Robinson & Cavanaugh (1998), Wood (2005) en Wood & Cavanaugh (2003) ontwierpen wat zij noemden de baraminic distance method', om baramin als afgescheiden groepen in de biologie te herkennen of te specificeren. De methode beoogt een scherp onderscheid te krijgen tussen groepen. Het gebruik van het woord 'baramin houdt een ideologische positie in. Die ideologisch positie laat ik even voor wat het is. Daarom zal ik het steeds over b-groep hebben, over de BDIST-methode en over het programma dat beschikbaar is op internet als BDIST. Hier gaat het om de volgende vragen over de methode van Cavanaugh, Wood etc: 1. hoe werkt de methode? 2. wat voor effect heeft de methode? 3. is deze methode bruikbaar voor zijn doel? 4. geven voorbeelden inzicht in het belang van b-groepen in de biologie? 1. Hoe werkt de methode? Het is duidelijk hoe de methode werkt, ondanks dat de genoemde artikelen niet in hun geheel op internet beschikbaar zijn. Wood (2006) zegt het volgende: "Robinson and Cavanaugh (1998a) defined the baraminic distance as a percentage of characteristics that differ between two taxa, while ignoring unknown characteristics. The baraminic distance is a modified simple matching coefficient (Cox and Cox, 1994). Because the characters used to calculate baraminic distance depend on the selectivity of a researcher, and because different created kinds seem to vary to different extents, the raw baraminic distance is not a measure that can be used directly to infer baraminic membership. Recognizing this problem, Robinson and Cavanaugh (1998a) proposed a correlation test to measure the relative similarities and differences between taxa." We hebben kennelijk te maken met een correlatiematrix op percentages verschillen. Prettig genoeg is er een kleine uitleg in de internetfile Daar staat een voorbeeld met 5 taxa en 7 kenmerken: Kenmerk k1 k2 k3 k4 k5 k6 k7 Taxon freddie 0 {10} {01} velma 0 {01} 2 13 {12} 0? scooby shaggy {01} daphne {23} Kenmerk 7 is aanwezig in 80% van de taxa, en wordt bij een 95% aanwezigheidscriterium van kenmerken niet gebruikt. Verschillen turven kan met de hand, van 1 op de 6 verschillend tot 5 op de 6 verschillend. Dat geeft een tabel voor het percentage verschillen: 1

2 d f sc sh v d f sc sh v Met Excel correlaties berekenen op de verschillentabel geeft een correlatiematrix: d f sc sh v d f sc sh v Als we alleen de significante correlaties laten staan, komt de volgende correlatiematrix te voorschijn: d f sc sh v d 1 f 1 sc sh v 1 Het programma BDIST in de file geeft precies dezelfde correlatiematrix. Wat er gebeurt, is dus met Excel te volgen (al moet 'zowel waarde 0 als waarde 1 wordt gevonden', {01} met de hand). In een plot staan zowel op de x-as als de y-as de taxa, op dezelfde volgorde, maar het programma drukt alleen de y-as af. Wel komt steeds de diagonaal die identeit geeft in het plaatje, zodat we weten dat horizontaal (d,f,sc,sh,v) is uitgezet. Verder staat de Bgroep Distance Correlation (BCD) aangeven: positief is een zwart vierkantje, als de BCD negatief is een open rondje, als er geen significantie is blijft het vakje open. Het programma sorteert de visuele output; een voorbeeld komt volgt hier. Dat sorteren in de visuele output is mogelijk van belang voor de interpretatie. Eerst het effect van sorteren in de verwerking. Dat wordt duidelijk met het volgende voorbeeld: 2

3 Data k1 k2 k3 k4 k5 k6 k7 B E A D C Correlatiematrix B E A D C B E A D C Significant B E A D C B E A D C De correlatiematrix in Excel is identiek aan de correlatiematrix in het programma BDIST. In de tweede matrix zijn alleen de significante correlaties weergegeven. De visuele output geeft een meer gegroepeerde weergave. De x-as is A D B E C, als de y-as. B en E zijn positief gecorreleerd, en negatief met C. Het is onduidelijk waarom A in de output van BDIST verder weg staat van BE dan D. Alleen alfabetisering lijkt hier de verklaring. Vergelijk een eenvoudige clustering. Het is duidelijk dat de methode grof is. Het gaat alleen om het percentage verschil, niet om welke verschillen. Ook kan een zelfde percentage verschil afkomstig zijn van verschillen in andere kenmerken. Bovendien worden kenmerken die niet voor alle taxa bekend zijn snel weggegooid. Veel gegevens worden dus niet gebruikt. 3

4 2. Wat voor effect heeft de methode? De methode beoogt een scherp onderscheid te krijgen tussen groepen. In het ideale geval zijn er een aantal groepen, met steeds significant positieve correlatie binnen de groep en significant negatieve correlatie tussen de groepen. Wood (2005, blz. 3) geeft het volgende voorbeeld als ideaal (de rondjes voor significant negatieve correlaties in de output van BDIST zijn wat grijs in kleur). Hierbij zijn volgens Wood de vier taxa linksonder de buitengroep, en de 16 andere taxa de groep waarvan we willen weten of het een b-groep is. Een buitengroep is een groep beesten waarvan we weten dat ze niet tot de te onderzoeken groep behoren. Woods vraag is dus niet of de groepen bij elkaar horen, maar hoe scherp de scheiding is. De groep van 20 taxa voldoet volgens Wood aan de definitie van een ideale b-groep; zo is een b-groep in de plotjes te herkennen. Replica van figuur 1 pagina 3 in Wood (2005). Hier komt een merkwaardig probleem: Wood heeft het over een buitengroep, maar er is niets in zijn programma dat taxa aanmerkt als buitengroep. Dus er zijn geen van te voren geoormerkte buitengroepen volgens de methode. De vraag is daarmee wat er met een biologische buitengroep gebeurt. De bedoeling is dat de methode de buitengroep afscheidt, maar dat weten we niet van te voren. Als de biologische buitengroep niet herkent wordt door de methode is er een probleem. Ik had zelf de figuur zelf gemaakt, met data van het volgende type: voorbeelddataset 1 k1 k2 k3 k4 k5 k6 k7 k8 A B C D E F G H Op de diagonaal staat steeds 0 voor kenmerk waarde (dit mag ook bv 2 zijn). De waarden op de diagonaal zijn alleen nodig de 4 soorten per groep niet identiek te laten zijn. Taxa ABCD hebben behalve op de diagonaal kenmerkwaarde 1 voor de eerst 4 kenmerken; taxa EFGH hebben behalve op de diagonaal kenmerkwaarde 1 voor de laatste 4 kenmerken. Dat geeft dan (x-as A B C D E F G H): 4

5 Dus, duidelijk zijn er twee groepen in de gegevens (zie boxjes in de gegevensmatrix) met het ideale patroon voor de b-groep. Hetzelfde zie je in een wat biologisch voorbeeld, met wat losse kenmerken: k1 k2 k3 k4 k5 k6 k7 k8 k9 k10 k11 k12 zangvogel papegaai eend valk kat cavia vleermuis koe K1: vierkamerig hart; k2: rechter aortaboog; k3: ei; k4: haar; k5: vleugel; k6: aantal tenen; k7: aantal vingers; k8: zwemvlies; k9: aantal botten in onderkaak; k10: kromme snavel; k11: kaak kan horizontaal bewegen; k12: tenen 2voor/2achter. Twee blokjes bestaan duidelijk in de gegevens. Deze matrix geeft de vogels en de zoogdieren gescheiden volgens BDIST, zoals te verwachten was (het zou gek zijn als dit niet werkte). Twee b- groepen volgens de criteria van Wood. Wat krijg je als je de methode toepast op andere voorbeeld datasets, met een wat andere blokstructuur in de gegevens? Voorbeeld dataset 2: k1 k2 k3 k4 k5 k6 k7 k8 k9 k10 k11 k12 k13 k14 k15 A B C D E F G

6 H I J K L M N O De vijf taxa KLMNO hebben veranderingen in kenmerk 11 t/m 15, en 0 voor kenmerk 1 t/m 10. De groep 1 taxa ABCDE hebben veranderingen in kenmerk 1 t/m 5, 0 in kenmerk 6 t/m 10 en 1 in kenmerk 11 t/m 15. De groep 2 taxa FGHIJ hebben veranderingen in kenmerk 6 t/m 10, 0 in kenmerk 1 t/m 5 en 1 in kenmerk 11 t/m 15. De taxa ADCDE (groep 1) en FGHIJ (groep 2) hebben dezelfde verhouding ten opzichte van de taxa KMNLO (groep 3), als je de kenmerknummering als arbitrair beschouwd. BDIST geeft: En dat vertelt meer over hoe zo'n plaatje werkt. De x-as is ABCDEFGHIJKLMNO. Er zijn drie groepen van elk 5 soorten, 1: A-E, 2: F-J, en 3: K-O, zoals bekend. In de 'oksel' van groep 2 en groep 3 zijn er de positieve correlaties IK, JK, en JL; in de 'oksel' van groep 1 en groep 3 zijn er de positieve correlaties EK, EL en DK. Dat kan niet tegelijk als oksels worden geplot, dus daar komen die 'pootjes' vandaan. Het is handig om te onthouden waar 'pootjes' vandaan komen. Dus, we hebben een doorgaande club ABCDEKLMNO en een doorgaande club FGHIJKLMNO; en twee clubs die niet samenhangen. ABCDE en FGHIJ. Dus, groep 1 en groep 3 vervloeien; groep 2 en groep 3 vervloeien; groep 1 en groep 2 zijn gescheiden. Dat geeft deze plot met 'pootjes'. Ik weet niet of er hier b-groepen volgens de omschrijving zijn of niet. Groep 1 en groep 2 b-groepen noemen? Ze zitten toch erg aan groep 3 vast, allebei op dezelfde manier. Het is dus niet moeilijk een dataset op te zetten die wel door het programma loopt maar waarop de idealen van b-groepindeling niet erg werken. 6

7 Je kunt je natuurlijk afvragen waarom het programma BDIST de volgorde op x- en y-as niet als ADCDEKMONLJIHGF geeft. Dan zou je een brede strook positieve correlaties langs de diagonaal met negatieve correlaties in de afgelegen hoeken van de plot zien. Die plot is met de hand te maken op grond van de correlatiematrix, waarbij als significantiegrens 0.05 gekozen is. Let op: de diagonaal loopt hier noordwest zuidoost, en niet zuidwest noordoost als in de BDIST output. A B C D E K M O N L J I H G F A B C D E K M O N L J I H G F Ik heb groep 1 uitgebreid tot 8 soorten (A t/m H), groep 2 uitgebreid tot 8 soorten (I t/m P) en groep 3 blijft 5 soorten (nu Q t/m U). Er zijn nu 21 kenmerken. Weer geeft het programma BDIST een plot met 'pootjes : Met de hand gesorteerd op de correlatie matrix, weer met significantie grens 0.05: 7

8 A B C D E F G H Q R S T U P O N M L K J I A B C D E F G H Q R S T U P O N M L K J I Opnieuw, groep 1 en groep 3 vervloeien; groep 2 en groep 3 vervloeien; groep 1 en groep 2 zijn gescheiden. Ik weet niet of er hier b-groepen volgens de omschrijving zijn of niet; als groep 1 en groep 2 b-groepen zijn, is de eigenschap 'b-groep' niet absoluut, maar alleen 'ten opzichte van een gedefinieerde andere b-groep'. In ieder geval blijkt dat de plotjes van het programma BDIST minder inzichtelijk en informatief zijn dan mogelijk is. Overigens, een eenvoudige neighbourhood-joining clustering geeft veel duidelijker de structuur van de data weer, inclusief de rol van taxon Q. Ook in deze clustering is duidelijk dat groep 1 en groep 2 gescheiden zijn. Tot nu toe is de conclusie dat 'buitengroep' niet bestaat in de methode en dat de plotjes niet noodzakerwijs inzicht geven in de verhoudingen tussen de groepen. Ook blijkt dat de methode niet forceert dat de eigenschap 'is b-groep' voor een groep absoluut is. 'B-groep' kan alleen gedefiniëerd worden ten opzichte van een andere groep. Een groep kan volgens een dataset zowel een b-groep als een niet-b-groep zijn. Wood (2005) geeft als patroon voor een ideale b-groep positieve correlaties binnen de groepen en negatieve correlaties tussen de groepen. Dat geeft een scherpe scheiding. Er is nog een mogelijkheid voor een scherpe scheiding tussen groepen: positieve correlaties binnen de groepen en afwezigheid van correlaties tussen de groepen. Uit het boek van Wood (2005) blijkt dat Wood dit geen b-groepen wil noemen. Ik noem het hier even c-groepen, ten opzichte van elkaar. 8

9 H O O O O G O O O O F O O O O E O O O O D O O O O C O O O O B O O O O A O O O O A B C D E F G H H G F E D C B A A B C D E F G H Twee mogelijkheden voor groepsverhoudingen in een afstandscorrelatieplot: b-groep links en c-groep rechts. 3. Is deze methode bruikbaar voor zijn doel? Wood (2005) geeft geen biologisch voorbeeld voor zijn ideale verdeling van positieve en negatieve correlaties op de verschilgegevens. Dat is jammer, want in principe is zou dat wel mogelijk moeten zijn, en het zou ook verhelderend werken op de voorbeelden die hij in zijn 2005 boek geeft. Neem bijvoorbeeld een datamatrix voor de familie honden en een datamatrix voor de familie katten. Volgens Wood etc. zijn deze families uitstekende kandidaten voor het zijn van b-groep. Beide datamatrixen bestaan (Mattern en McLellan 2000 voor de katten, en Tedford, Taylor en Wang 1995 voor de honden). Bij samenvoegen van die datamatrixen moet je bedenken of er dezelfde kenmerken in staan, en als een kenmerk wel in de ene set gegevens staat maar in de andere niet moet je die zelf scoren. Kortom, het is veel werk (dat werk ga ik niet doen). Als iemand dat werk gedaan heeft, voor de soorten k 1 t/m k n de soorten h 1 t/m h m, komt er een verschillenmatrix. Dan heb je als gegevens voor kat k 1 de verschillen de verschillen met k 1 t/m k n en h 1 t/m h m, en voor kat k 2 de verschillen de verschillen met k 1 t/m k n en h 1 t/m h m, en zo voor alle honden en katten. Dan zullen de twee kolommen verschilgegevens voor twee katten c.q. twee honden naar verwachting meer gelijk zijn dan voor een kat en een hond. En je verwacht een ideale b-groepplot te zien; het zou me verbazen als de methode geen echte b-groepplot voor katten en honden gaf bij voldoende gegevens. (Hoewel, de positieve correlaties gaan er naar verwachting wel uitkomen, maar de negatieve correlaties? Misschien worden het wel c-groepen.) Op dezelfde manier kun je de hele orde roofdieren nemen, en kijken in hoeveel b- groepen die uiteenvalt. Gezien de vaak herhaalde bewering dat families b-groepen zijn, verwacht je die toepassing van de methode. Ik heb die toepassing nog nooit gezien. Ik zal wat voorbeelden geven om te zien of de methode b-groepen in biologische gegevens vindt waar je eigenlijk verwacht dat je een b-groep zult vinden. Er is een grote gegevensfile van fossiele roofdieren en een paar levende roofdieren, met een paar niet-roofdieren als buitengroep (Wesley-Hunt en Flynn 2005). De levende beesten in deze datafile geven volgens het programma BDIST: 9

10 De buitengroep insectivoren verschijnt netjes. De vier katvormigen (pardelroller t/m civet) en de twee insectivoren (spitsrat, egel) geven een net voorbeeld van twee wederzijdse b-groepen. De hondvormigen (oorrob t/m beer) geven geen negatieve correlaties met de katvormigen en de insectivoren, en ik zou dan concluderen dat het hier niet om hondvormigen als b-groep gaat volgens de opvatting van Wood. De superfamilie wezeloidea (wasbeer, veelvraat, skunk, rode panda) vormt een groep, maar heeft geen enkele negatieve correlatie ergens mee, en wordt daarmee geen b-groep. Hondvormigen en katvormigen vormen wederzijds c-groepen. In feite is deze plot in overeenstemming met de huidige opvattingen over de indeling van de roofdieren er staat niets nieuws in, en geeft minder biologie dan de klassieke indeling. Het is opmerkelijk dat de hondvormigen geen negatieve correlatie met welke soort dan ook hebben. Biologisch zijn de positieve correlaties te verwachten, maar de BDIST methode had hier toch meer negatieve correlaties moeten geven om als methode een goede beoordeling te krijgen. De hele dataset geeft volgens het programma BDIST (de rondjes voor de negatieve correlaties zijn niet zo goed te zien): 10 95% relevance cutoff Dit laat een eigenschap van het programma BDIST zien: de plot verzamelt negatieve correlaties, en construeert daarmee een 'buitengroep' ten opzichte van een of andere groep. Wat staat nu waar in deze plot? Een mogelijke interpretatie in groepen is:

11 95% relevance cutoff Groep 1 zijn alle levende en fossiele katvormigen in de dataset. Groep 2 zijn drie insectivoren, twee creodonten (uitgestorven, geen roofdier), de levende beer en twee fossiele roofdieren uit het Eoceen, toen er nog geen hondvormigen en katvormigen bestonden. Zulke beesten heten 'stamfossielen' van de roofdieren. Groep 2 is dus een samenraapsel, niet een echte buitengroep. Groep 3 bestaat uit stamfossielen van de roofdieren, fossiele hondachtigen en de levende coyote. Groep 4 zijn vier stamfossielen. Groep 5 zijn: een fossiele wezelachtige, skunk, wasbeer, veelvraat, rode panda, fossiel zeeroofdier, oorrob. Beer en coyote komen niet bij de overige levende hondvormigen, oorrob wel. Groep 1 geeft negatieve correlaties met groep 2. Daarmee lijkt het alsof groep 1 een b-groep is ten opzichte van groep 2. Groep 2 is zelf geen b-groep, want hij heeft allerlei positieve correlaties her en der. Groep 2 is geen biologische groep. Groep 4 geeft wat negatieve correlaties met groep 1. Groep 1 en groep 5 hebben geen negatieve correlaties; de veelvraat uit groep 5 geeft positieve correlaties met groep 1. Hondvormigen in groep 5 en katvormigen in groep 1 zijn hoogstens c-groep ten opzichte van elkaar. Het enige dat duidelijk is dat de katvormigen veel homogener zijn dan de hondvormigen, zoals we altijd al wisten. Als de soorten op biologische groep gesorteerd worden (door gebruik te maken van het alfabet), en we dan de correlaties uit BDIST plotten, komt er: correlatie apinapincancancancancancancancancancancancancanstemstemstemstemstemstemstemstemstemstemtanitanitfeltfeltfeltfeltfelufe ufe ufe ufe ysisysiszinszinszins apin apinfos canif canif canif canif canif canif canifos canifos canifos canifos canifos canifos canifos stemfos stemfos stemfos stemfos stemfos stemfos stemfos stemfos stemfos stemfos tanimfos tanimfos tfelifos tfelifos tfelifos tfelifos tfelifos ufelif ufelif ufelif ufelif ysisfos ysisfos zinsec zinsec zinsecfos % relevance cutoff 11

12 Lichtblauw/donkerblauw is een positieve correlatie, lichtrood/rood is een negatieve correlatie. Langs de diagonaal van noordwest naar zuidoost staan: levende hondvormigen, fossiele hondvormigen, stamfossielen van de roofdieren, fossiele katvormigen, levende katvormigen (donkere kleuren), creodonten, insectivoren (lichte kleuren). De fossiele en levende katvormigen vormen weer het grote gesloten blok van positieve correlaties. Weer blijken de negatieve correlaties van de katvormigen voornamelijk met de buitengroepen creodonten en insectivoren te zijn. De veelvraat steekt er een stokje voor de katvormigen een b-groep ten opzichte van alle overige roofdieren te noemen. Ook met de insectivoren en creodonten geven de roofdieren niet systematisch negatieve correlaties. Dus de conclusie dat de roofdieren als geheel een b-groep vormen ten opzichte van de buitengroep is niet mogelijk. Het programma BDIST geeft wat het noemt een 'relevance cutoff'. Voor elk kenmerk wordt berekend in hoeveel procent van de taxa het gescoord is. Bij een 95% relevance cutoff worden alleen kenmerken die in 95% van de taxa of meer gescoord zijn meegenomen; bij een 75% relevance cutoff worden alleen kenmerken die in 75% van de taxa of meer gescoord zijn meegenomen. Bij een 95% relevance cutoff gebruikt BDIST dus minder kenmerken, bij een 75% relevance cutoff meer kenmerken maar met een hoger aantal kenmerken dat niet volledig gescoord is. De plaatjes die BDIST oplevert verschillen wat tussen 95% en 75%. Nog steeds de dataset van Wesley-Hunt en Flynn (2005). Weer verzamelt het programma negatieve correlaties om een 'buitengroep' te creëren: 75% relevance cutoff 12

13 Groep 1 zijn de insectivoren en creodonten (de buitengroep) plus zeven stamfossielen en een fossiele hondvormige. Groep 2 bestaat drie stamfossielen, vijf fossiele hondvormigen en de coyote. Groep 3 zijn alle levende en fossiele katvormigen in de dataset. Groep 4 bestaat uit twee fossiele en zes levende hondvormigen. Groep 1 en groep 2 zijn niet erg duidelijk gescheiden: ik heb de getekende grens gezet omdat dit de meeste negatieve correlaties met katvormigen binnenboord hield. Lang niet alle correlaties tussen groep 1 en groep 2 zijn negatief, trouwens. Het verschil met 95% relevance cutoff is kleiner dan het op het eerste gezicht lijkt. 95% relevance cutoff 75% relevance cutoff Groep 1 Groep 3 Groep 2 Naar groep 1 Groep 3 Grotendeels groep 2 Groep 4 Naar groep 1 Groep 5 Groep 4 De nieuwe heterogene groep 1 geeft veel negatieve correlaties met groep 3 en groep 4, maar niet consistent. De levende katvormigen in groep 3 en de levende hondvormigen in groep 4 laten nog steeds vooral het ontbreken van correlaties zien. Het totaal aantal positieve correlaties is kleiner dan bij 95% relevance cutoff (van 597 naar 531), en het aantal negatieve correlaties is groter (van 288 naar 332). Ondanks dat blijkt uit de plot van de correlaties op biologische groep hetzelfde patroon: correlatie apinapincancancancancancancancancancancancancanstemstemstemstemstemstemstemstemstemstemtanitanitfeltfeltfeltfeltfelufe ufe ufe ufe ysisysiszinszinszins apin apinfos canif canif canif canif canif canif canifos canifos canifos canifos canifos canifos canifos stemfos stemfos stemfos stemfos stemfos stemfos stemfos stemfos stemfos stemfos tanimfos tanimfos tfelifos tfelifos tfelifos tfelifos tfelifos ufelif ufelif ufelif ufelif ysisfos ysisfos zinsec zinsec zinsecfos % relevance cutoff Nog steeds is een conclusie dat de roofdieren als geheel een b-groep vormen ten opzichte van de buitengroep niet mogelijk, omdat de roofdieren en de buitengroep niet consistent negatieve correlaties hebben. Ook de heel homogene katvormigen weigeren een b-groep te vormen ten opzichte van de hondvormigen. De methode beoogt een scherp onderscheid te krijgen tussen groepen. Dat levert de methode hier niet op. Gezien de positieve correlaties tussen roofdieren en insectivoren die ook aanwezig zijn bij deze methode, is de mate van onderscheid zelfs kleiner dan bij de traditionele indeling. Een groot probleem is dat de biologische buitengroep in de BDIST-analyse niet als aparte groep verschijnt, maar steeds ingedeeld wordt bij een grotere groep beesten. 13

14 Dit is niet de enige keer dat de buitengroep zich niet wil afzonderen, of dat biologische groepen niet willen verschijnen of splitsen in de bekende onderverdeling. In de behandeling door Radagast van een dataset voor dinosauriers (Baron en Barrett, 2017) zitten de drie beesten die absoluut geen dinosauriër zijn, Euparkeria (Archosauromorph), Dimorphodon (Pterosauriër), en Postosuchus (Rauisuchia), met de theropoden en sauropoden in een verder niet opgesplitste groep (https://logos.nl/een-ontbrekende-schakel-in-de-dinopuzzel/ ). De door Radagast gebruikte dataset laat trouwens zien dat de methode niet alleen gevoelig is voor de relevance cutoff van de kenmerken maar ook voor een vergelijkbare cutoff in de gebruikte soorten. Voordat de klassieke indeling in groepen bij de dino's in BDIST verschijnt, moet je alleen de soorten waarvoor 50% of meer van de kenmerken bekend is gebruiken. Dat zijn er 25 van de dataset van 76 soorten die in de oorspronkelijke studie van Baron en Barrett (2017) gebruikt worden. De plots en de informatie die ze opleveren blijken sterk beïnvloed door het aantal gebruikte soorten in de inputfile (Commentaar onder plaatje): Alleen taxa minimaal 33% van de kenmerken en minimaal 75% van de kenmerken gescoord. Hier zijn Ornithischia en alle andere soorten b-groepen ten opzichte van elkaar. Alleen taxa minimaal 50% van de kenmerken en minimaal 75% van de kenmerken gescoord. 14

15 De drie soorten die de biologische buitengroep vormen komen nu te voorschijn als cluster. De Ornithischia en de biologische buitengroep vormen b-groepen ten opzichte van elkaar. In het grote cluster zitten alle niet-ornithischia dino's. Ornithischia en overige dino's vormen geen b-groep ten opzichte van elkaar maar een c-groep. Alleen Sauropoden en Theropoden met minimaal 50% van de kenmerken en minimaal 75% van de kenmerken gescoord. Nu vormen Sauropoden en Theropoden een b-groep ten opzichte van elkaar. De correlaties veranderen van teken afhankelijk van het aantal gebruikte soorten. Bij gebruik van veel soorten correleren Theropoda en Saurischia positief, bij minder soorten is er geen correlatie, bij alleen Saurischia versus Theropoden is de correlatie negatief. Het verschijnen van b-groepen is dus afhankelijk van de hoeveelheid of het type gebruikte gegevens. Dat is niet gewenst bij een nette methode. Het veranderen van teken van de afstandscorrelatie bij verandering van aantal soorten is een direct gevolg van het gebruik van relatieve afstanden als maat. Saurischia en Theropoden verschillen niet in relatieve afstand van Ornithischia; hun onderlinge verschillen vallen dan weg. Wat je dus in feite ziet is de hiërarchische opbouw van de indeling van de soorten: bij gebruik van veel groepen op hoger niveau in de indeling vallen de verschillen tussen groepen op lager niveau binnen een groep op hoger niveau weg. Ook met BDIST blijkt de hiërarchische opbouw van indeling van de levende wezens. Alleen moet je dan de BDIST toepassing getrapt herhalen. 4. Geven voorbeelden inzicht in het belang van b-groepen in de biologie? Wood (2005) geeft 61 voorbeelden van het gebruik van BDIST met als doel te beoordelen of een biologische familie of onderfamilie een b-groep is. Wood gebruikt bestaande datafiles, die bedoeld waren om de biologische indeling binnen een familie op te helderen. Geen van de voorbeelden vergelijkt een familie met een andere familie, of families binnen ordes, terwijl dat het juiste niveau van behandeling zou zijn om de bewering 'b-groep is omstreeks biologische familie' te staven. De bestaande datafiles geven vaak kleine buitengroepen omdat bij gebruik van bv parsimonie maar kleine 15

16 buitengroepen nodig zijn. Over het geheel genomen blijken de families die Wood bekijkt niet erg homogeen in de BDIST analyse: er is veel ruis. Sommige datafiles die Wood gebruikt bevatten een vrij grote buitengroep. De datafile van Ksepka et al. (2006) voor de pinguïns bevat 21 fossiele en 18 levende soorten pinguïns en 10 soorten stormvogels en albatrossen en de ijsduiker. Wood gebruikte alleen de levende soorten. Het resultaat is een ideale b-groep plot van de levende pinguïns en de buitengroep van niet-pinguïns. Ksepka publiceerde in 2012 een grotere datafile waarvan18 levende en 32 fossiele pinguïns en een outgroep van 14 levende soorten voor het programma BDIST bruikbaar zijn. De buitengroep zijn weer stormvogels en albatrossen en zeeduikers; op grond van hun DNA zijn dit de naast verwante groepen naast de pinguïns. Deze datafile geeft ook de kenmerken van de twee fossiele Waimanu soorten uit het Paleoceen, miljoen jaar geleden. Waimamu tuatahi laat positieve afstandscorrelaties met alle soorten van de buitengroep zien, en met Waimanu manneringi, en met 11 fossiele pinguïns; en negatieve correlaties met de zes overige fossiele pinguïns en alle levende pinguïns. Waimanu manneringi laat een positieve afstandscorrelatie met Waimanu tuatahi zien, is niet gecorreleerd met de buitengroep en positief gecorreleerd met 19 fossiele pinguïns, en negatief gecorreleerd met drie fossiele en alle levende pinguïns. Deze resultaten met BDIST zijn in overeenstemming met wat Wood (2017) zegt te hebben gevonden met deze dataset. Van linksboven naar rechtsonder: buitengroep (14 soorten), 32 fossiele pinguïns inclusief de twee Waimanu soorten bovenaan, 18 levende soorten pinguins. De volgorde van de soorten is die van de fylogenie van Ksepka et al. (2012). Een uitsnede laat de correlaties in de omgeving van de twee Waimanu soorten vergroot zien. De Waimanu soorten geven een overgang tussen buitengroep en pinguïns. Waimanu soorten geven een overgang tussen pinguïns en verwanten> 16

17 Er is een duidelijke geleidelijke overgang tussen de fossiele en levende pinguïns; desondanks is er een negatieve correlatie tussen de levende pinguïns en de fossiele pinguïns die meer basaal in de fylogenie staant (de fossielen meer naar linksboven). De twee soorten Waimanu laten een overgang tussen pinguïns en buitengroep zien, ondanks de negatieve afstandscorrelaties van Wainamu soorten met de levende pinguïns. De levende en de fossiele pinguïns zouden een b-groep ten opzichte van de buitengroep vormen als als Waimanu dat niet verhinderde. Er is duidelijk evolutie binnen de pinguïns. Zoals Wood (2017) opmerkt: "The sphenisciform cluster is highly diffuse and forms a crude biological trajectory (Wood and Cavanaugh 2003) with Paleocene and Eocene forms on one end and a tight cluster of extant sphenisciforms on the other." Wood (2017) concludeert dat de pinguïns een duidelijke familie zijn; zoals altijd al bekend was. Wood (2017) is niet bereid tot de conclusie te komen dat Wainamu overgangsvormen tussen de buitengroep en de pinguins zijn. Wood (2005) vergelijkt ook de zwanen (Cygnini ) en de ganzen (Anserini), groepen binnen de familie Eenden (blz. 59). De buitengroep is een diverse set overige eenden. De zwanen en de ganzen laten een ideaal b-groep patroon zien: ze zijn duidelijk b-groepen ten opzichte van elkaar. De zwanen en de buitengroep vormen ook b-groepen ten opzichte van elkaar. De ganzen en de butiengroep vormen c- groepen. Wood (2005) verwerpt deze resultaten omdat de familie Anatidae als klassiek voorbeeld van een b-groep bekend staat. Wood (2005) zegt: "no reliable baraminic conclusions can be drawn from this dataset", ondanks het ideale patroon. Als er hier geen conclusie over b-groepen getrokken kan worden, waar dan wel? Ook bij de familie egels (blz. 30) is er een b-groep patroon tussen onderfamilies. Hier concludeert Wood dat een onderfamilie een b-groep is. De conclusie van Wood is dus verschillend bij zelfde patronen. Wood (2005) geeft ook een BDIST analyse van de familie katten, met twee soorten als buitengroep: de mangoeste Galicia elegans en de gevlekte hyena Crocuta crocuta. De 'grote katten' (leeuw, tijger, panter, jaguar, sneeuwluipaard, nevelpanter) vertonen negatieve correlaties met de geslachten Felis en Lynx, en geen correlatie met de overige 'kleine katten'. De buitengroep komt niet te voorschijn als een aparte groep. De buitengroep heeft geen enkele negatieve correlatie, maar positieve correlaties zowel met de 'grote katten' als met de 'kleine katten' (blz. 18). Wood (2005) zegt dat er geen reden is de katten als b-groep te verwerpen. De Katten zijn natuurlijk een duidelijke familie. Grappig is de opduikende negatieve correlatie tussen Felis en de 'grote katten'. Een interpretatie als voortschrijdende evolutie binnen de katten is daar mogelijk. De civetkatten (blz. 22) geven één cluster van de familie Viverridae met de families Nandiniidae, Prionodontidae en Eupleridae. Die buitengroepfamilies hebben één soort, de pardelroller, tweesoorten, de linsangs, en de Madagascar roofdieren hebben hier ook twee soorten in de datafile. Alleen de hyena s en de katten geven negatieve correlaties, de overige zes roofdieren laten geen correlatie zien. Hier zien we dat beesten met omstreeks dezelfde ecologie in één cluster komen. Wood geeft het grote cluster als b-groep. De b-groep analyse levert niets nieuws voor de biologie op in het boek van Wood. Er zijn wel de nodige tegenstrijdigheden en haperingen in de methode te zien. 17

18 Discussie De b-groep methode zoals in het programma BDIST geïmplementeerd is niet erg inzichtelijk omdat het gaat over correlaties van twee taxa over hun verschillen met zichzelf en andere taxa. De enige heldere voorspelling is dat een homogeen sterk gespecialiseerd taxon gemakkelijker als b-groep te voorschijn komt dan een taxon van generalisten, maar dat hangt van de vergelijkingsgroep af. De methode heeft veel zwakke punten. Een kleine buitengroep wordt niet herkend als buitengroep. Niet nauw verwante beesten met zelfde levenswijze komen gemakkelijk in eenzelfde cluster, zie de behandeling van de civetkatten bij Wood. Levende pinguïns tegen hun naaste allemaal vliegende verwanten (op grond van DNA) in het boek van Wood geeft een mooie scheiding, en een fossiele overgangsgroep; pinguïns versus hun ecologische noordpool tegenhangers de alken is niet gedaan. Hiërarchische indeling komt moeizaam tevoorschijn hiërarchische indeling blijkt wel bij herhaling van BDIST toepassing, maar is niet in de BDIST-plots weer te geven. Overgangssoorten zijn te vinden, zie de pinguïns en de hondvormigen, maar het vraagt wel wat zoeken. Over het geheel genomen is er veel ruis te zien. Dat er een hiërarchische indeling van de levende wezens bestaat is bekend, en dus zullen er met elke methode wel groepen teruggevonden worden. Het is moeilijk katten of pinguïns niet als groep uit een methode met clustering te krijgen. De BDIST methode geeft niets biologisch nieuws, laat veel niet zien, en is niet efficiënt in gebruik van de gegevens. De bedoeling van de methode is om b-groepen als afgescheiden groepen in de biologie te herkennen of te specificeren. Daarbij is de veronderstelling dat baramin te voorschijn komen als b-groep. Ik ben er niet ver genoeg ingedoken om te zien of er ook argumentaten bestaan dat een baramin een b- groep moet zijn: waarom mag een 'baramin' geen c-groep zijn, of niet te herkennen mogen zijn? Dat er baramin bestaan is een buitenwetenschappelijke overtuiging. Een methode die b-groepen zoekt kan die overtuiging niet bevestigen of ontkennen. Literatuur Baron M.G., Barrett P.M A dinosaur missing-link? Chilesaurus and the early evolution of ornithischian dinosaurs. Biol. Lett. 13: Ksepka, D.T., R.E. Fordyce, T. Ando, and C.M. Jones New fossil penguins (Aves: Sphenisciformes) from the Oligocene of New Zealand reveal the skeletal plan of stem penguins. Journal of Vertebrate Paleontology 32: Robinson, D.A. and D.P. Cavanaugh A quantitative approach to baraminology with examples from the primates. CRSQ 34: Wesley Hunt G.D. & J.J. Flynn (2005) Phylogeny of the carnivora: Basal relationships among the carnivoramorphans, and assessment of the position of miacoidea relative to carnivora, Journal of Systematic Palaeontology, 3:1, Wood, T.C Animal and Plant Baramins. Wood, T.C The current status of baraminology. CRSQ Vol 43 No 3 pp December

19 Wood, T.C Visualizing baraminic distances using classical multidimensional scaling. Origins (GRI) 57:9-29. Wood, T.C BDISTMDS software, v Center for Origins Research, Bryan College. Distributed by the author. Wood, T.C Baraminological Analysis of Sphenisciformes Supports their Holobaraminic Status and Reveals a Biological Trajectory. CBS Annual Conference Abstracts 2017 https://fossilpenguins.wordpress.com/2010/01/30/waimanu-the-first-penguin/ 19