Similarity / Identity

 

Fylogenetische bomen geven de onderlinge verwantschap aan tussen de organismen, die in die boom worden weergegeven.
Zo'n fylogenetische boom is nooit compleet, omdat niet alle verwante organismen in de dataset zitten.
De lengte van de takken (branches) geeft hierbij de verschillen aan, die in de dataset aanwezig zijn.
Maar hoe groot zijn die verschillen? Hierbij worden twee termen gebruikt: gelijkheid en identiteit.

 

Wat is het verschil?
Sequentie identiteit is het aantal karakters, dat precies overeenkomt tussen twee verschillende sequenties. Hierbij worden gaps niet meegeteld en is de identiteit gerelateerd aan de kortste sequentie van de twee sequenties, die worden vergeleken. Dit heeft het effect, dat sequentie identiteit niet transitief is, bv. als sequentie A=B en B=C, dan betekent niet automatisch dat A=C is:

A: AAGGCTT
B: AAGGC
C: AAGGCAT

Identiteit (A-B) = (identieke nucleotides / min(lengte(A),lengte(B)) = 5/5 = 1 (100%)
Identiteit (A-C) = 6/7 = 0.857 (85.7%)
Identiteit (B-C) = 5/5 = 1 (100%)

Dit betekent dus, dat 100% identiteit tussen twee sequenties, de sequenties niet hetzelfde hoeven te zijn.

Sequentie gelijkheid is in eerste instantie een algemene omschrijving van een verwantschap. Hierbij wordt gekeken naar het minimale aantal stappen, die nodig zijn om van de ene sequentie een exacte kopie te maken van de andere sequentie.

Gelijkheid (A-B) = 1-(aantal stappen/lengte van de kortste sequentie) = 1-(2/5) = 0.6 (60%)
Gelijkheid (A-C) = 1-(1/7) = 0.857 (85.7%)
Gelijkheid (B-C) = 1-2/5) = 0.6 (60%)

Er zijn programma's beschikbaar, die deze berekeningen doen op basis van twee 'pairwise aligned' sequenties.
Om gelijkheid en identiteit van een 'multiple aligned' dataset te berekenen, kan MatGAT worden gebruikt.
MatGAT gebruikt Java; dat moet op de PC geïnstalleerd zijn.

Bekijk dit artikel.

Als resultaten worden gebruikt in een eigen publicatie, refereer dan naar dit artikel.
James J Campanella, Ledion Bitincka and John Smalley.
MatGAT: An application that generates similarity/identity matrices using protein or DNA sequences.
BMC Bioinformatics 4:29 (2003). 

Download MatGAT



Start de batch-file run.bat en laad een alignment met 'Browse'.
Het programma gaat ook op zoek naar de folder waar Excel is opgeslagen. In 'Configuration' kan de folder handmatig worden gedefinieerd.
Hier kunnen ook de kleuren worden aangepast voor 'similarity' (onderste deel van tabel) en 'identity' (bovenste deel van tabel).
Het voorbeeld hier toont een alignment van elongation factor 1α van Aureobasidium stammen.


Door op 'Align' te klikken wordt een globale alignment gemaakt en de tabel berekent.

 

Exporteren als tekst-bestand

Met 'Export' kan de tabel worden geëxporteerd met verschillende instellingen (Tab, Space, Comma, Semi-colon). Of direct in Excel weergegeven.
Jammer genoeg verdwijnen de kleurinstellingen. Het blad in Excel heet 'tempX', waarbij X een getal voorstelt en bestandsnaam 'tempX.mg'.
Om kleuren aan te brengen, kunnen de MatGAT-macro's in de VBA-editor van Excel worden gekopieerd.
Hierin staan 7 macro's:

  • Colour Similarity - kleurt achtergrond onderkant matrix (ColorPicker)
  • Colour Identity - kleurt achtergrond bovenkant matrix (ColorPicker)
  • Show Borders - tekent lijnen om de cellen
  • Hide Borders - verwijdert lijnen
  • Autofit Columns - wijzigt kolombreedte tot passend
  • ShowCrossLink - toont similarity/identity cel (toggle)
  • Add Headers - verandert de nummers in de eerste rij met namen uit de eerste kolom (vraagt displayhoek 30-90°)
  • Remove Format - verwijdert alle kleuren en opmaak, behalve borders


Met toggle wordt bedoeld, dat de optie kan worden geactiveerd of gedeactiveerd als de macro opnieuw wordt uitgevoerd.
Er is een optie in Excel om een nieuwe menu-tab toe te voegen. Hierdoor zijn alle macro's via deze menu-tab beschikbaar.

nieuwe menu-tab in Excel


Macro's plaatsen in module van Excel-bestand




Het bestand moet daar wel als 'tempX.xlsm' worden opgeslagen om toegang te hebben tot de macro's. Kleur en instellingen kan men zelf wijzigen in de VBA-editor.
Bijv. in de Similarity macro wordt de achtergrondkleur gedefinieerd als RGB(145, 242, 148) en die van Identity als RGB(66, 244, 241).

Om te experimenteren met de instellingen, is hier een voorbeeld. Gebruik eventueel een
Hex-to-RGB converter.

Met 'ShowCrossLink' macro worden de twee cellen, die bij elkaar horen rood gekleurd.
Om de link op te heffen: voer de macro 'ShowCrossLink' opnieuw uit met een geselecteerde cel buiten de matrix.

CrossLink

Uiteraard kan men een toetscombinatie aan de macro koppelen; dat maakt het gebruik makkelijker.
Open "Macro's", selecteer 'ShowCrossLinks' en dan 'Edit'; hier kan bijv. met Shift-L een toetscombinatie worden gemaakt.
De macro wordt dan uitgevoerd met 'Ctrl-Shift-L'.

AddHeadings - de uitvoer van MatGat toont nummers in de eerste rij. Met deze macro worden de nummers vervangen met de namen uit de eerste kolom en wordt de tekst gedraaid, afhankelijk van de waarde-input van de gebruiker.



Tooltips plaatsen

Bij het openen van het Excel-werkboek wordt in elke cel een tooltip weergegeven als er in geklikt wordt. Om de tooltip uit te schakelen (tijdelijk) klikt dan in een lege cel.

 

Een voorbeeld

Tooltip in de kruistabel