Phylogenetic trees

 

mushrooms Voordat je een fylogenetische boom wilt maken, moet je er zeker van zijn, dat de 'alignment' van de sequenties optimaal is. Om dit te bereiken gebruik je software, dat op het internet te vinden is. Software, dat kan worden geïnstalleerd voor stand-alone gebruik of via webservers (portals). Voorbeelden zijn:

Muscle of MAFFT op de EMBL-EBI website

Een nieuwere versie van MAFFT is te vinden op deze server.
Wil je geen gebruik maken van een server, maar een stand-alone versie gebruiken op je PC dan kunnen deze programma's ook gedownload worden.

Hoewel ik geen professionele programmeur ben, heb ik toch geprobeerd een 'All-in-One' programma te maken. Geïnteresseerd? Kijk hier.

 

Download Muscle 5.0.1428
Download MAFFT 7

Maar misschien moeten we eerst een stap terug doen. Bomen moeten gemaakt worden van homologe genen. Het probleem van programma's om bomen te maken, is dat wat de inhoud van alignment is er altijd een boom uitkomt. Maar of dit een goede representatie is van de gegevens, blijft onzeker.

Sequentie homologie

Net als met anatomische structuren wordt homologie tussen proteïne of DNA sequenties bepaald door gedeelde afstammeling. Twee DNA segmenten kunnen een gedeelde afstammeling hebben door of speciatie (orthologen) of duplicatie (paralogen).

Homologie tussen proteïnes of DNA wordt vaak incorrect gebaseerd op sequentie-gelijkheid. De termen percentage homologie en sequentie-gelijkheid worden vaak door elkaar gebruikt. Net als met anatomische structuren kan een hoge sequentie-gelijkheid gebaseerd zijn op convergente evolutie, of met kortere sequenties op basis van kans. Zulke sequenties zijn gelijkwaardig, maar niet homoloog. Sequentie-regio's, die homoloog zijn, worden ook wel geconserveerde regio's genoemd. Dit moet niet worden verward met conservering van aminozuren sequenties, waar een aminozuur op een specifieke positie is vervangen door een ander aminozuur, maar met dezelfde functionele fysiochemische eigenschappen. Er is echter de mogelijkheid van een gedeeltelijke homologie, waarbij een gedeelte afstamt van een gedeelde voorouder en een ander gedeelte niet. Gedeeltelijke homogologie kan een een resultaat zijn van gen-fusie.

Orthologie

Homologe sequenties zijn ortholoog als ze zijn gescheiden door speciatie: als een soort opsplitst in twee aparte soorten dan zijn de kopieën van dit gen in de twee resulterende soorten ortholoog. Orthologe genen zijn genen in verschillende soorten, die door verticale overerving van een enkel gen van de laatste gezamenlijke voorouder zijn ontstaan.

Orthologie wordt gedefinieerd in termen van voorouderschap, overerving. Het is moeilijk te achterhalen wat de voorouderlijke genen in verschillende soorten zijn door gen-duplicatie en genoom-herschikking, maar het beste bewijs, dat twee genen orthologen zijn, is door het maken van een fylogenetische analyse van de genlijnen. Orthologen hebben vaak, maar niet altijd, dezelfde functie.

Orthologe sequenties geven bruikbare informatie over taxonomische klassificatie en fylogenetische studies van organismen. Het patroon van genetische divergentie wordt gebruikt om de relatie tussen organismen weer te geven. Twee organismen, die sterk aan elkaar verwant zijn, zullen gelijke DNA sequenties hebben als het orthologen zijn. Dit betekent, dat organismen, die evolutionair verder van elkaar verwijderd zijn, ook grotere verschillen in de orthologen te zien geven. 

Verschillende gespecialiseerde biologische databases hebben hulpprogramma's on orthologe gen sequenties te identificeren en te analyseren. Deze hulpprogramma's werken op basis van sequentie-vergelijkingen (heuristisch) en op basis van fylogenetische methodes. Sequentievergelijkingsmethodes zijn voor het eerst toegepast op COG's en later uitgebreid en verbeterd met de eggNOG database. InParanoid legt de focus op onderlinge orthologe relaties. OrthoDB bouwt een hierarchie van orthologen op in de soortsboom in relatie tot verschillende speciatie-gebeurtenissen.

De fylogenetische benadering op basis van bomen probeert onderscheid te maken in soorten, ontstaan door gen duplicatie, door een gen-boom te vergelijken met een soortsboom. Programma's, die hier gebruik van maken zijn TreeFam en LOFT. Een derde categorie maakt gebruik van zowel heuristische als fylogenetische methodes om soortclusters te maken en zo een boom te construeren, zoals bijvoorbeeld in Ortholuge, EnsemblCompara GeneTrees en HomoloGene.

Paralogie

Homologe sequenties zijn paralogen als ze zijn ontstaan door gen duplicatie:  als een gen in een organisme wordt gedupliceerd en twee verschillende posities in het genoom innemen, dan zijn de twee kopieën paralogen van elkaar.

Paraloge genen behoren meestal tot dezelfde soort, maar dat is niet altijd zo: bijvoorbeeld het hemoglobine gen bij mensen en het myoglobine gen bij chimpansees zijn paralogen. Paralogen kunnen worden opgedeeld in in-paralogen, (een paraloog paar, dat is ontstaan na speciatie), en out-paralogen (een paraloog paar, dat is ontstaan vóór speciatie). Tussen soorten zijn out-paralogen een paar van paraloge genen, die ontstaan zijn voordat speciatie heeft plaats gevonden, terwijl binnen de soort out-paralogen een paar paraloge genen zijn, die in hetzelfde organisme aanwezig is, maar waarbij duplicatie plaats vond voor speciatie. Paralogen hebben typisch dezelfde of gelijkwaardige functie, maar soms ook niet: door gebrek aan selectieve druk op één van de kopieën van het gedupliceerde gen, kan deze vrijelijke muteren en een nieuwe functie krijgen.