Sequence Matrix
het samenvoegen van meerdere markers in een alignment
Download het programma
Voor het maken van een fylogenetische boom kan één marker worden gebruikt, maar om een grotere dataset te gebruiken, kunnen meerdere markers worden samengevoegd.
Dit levert soms problemen op, omdat men niet van alle organismen de sequentie van alle markers heeft. Om SequenceMatrix te gebruiken, moet Java op de computer geïnstalleerd zijn.
SequenceMatrix is een programma, dat toch een alignment kan maken en hierbij aangeeft welke markers ontbreken. De ontbrekende markers worden automatisch vervangen met een 'missing' karakter, bv. een '?'
Bij sequenties met ongelijke lengte worden de gaps aan het begin en einde ook vervangen met een '?' om te voorkomen, dat tijdens het maken van een boom deze gaps worden gezien als alignment gaps, terwijl het data is dat ontbreekt. Let wel: gaps in de alignment worden niet vervangen, omdat dit bij de alignment hoort.
Stel er zijn 3 fasta bestanden met ITS (internal transcribed spacer), EF1 (elongation factor 1) en BT2 (beta-tubulin) sequenties.
Om de sequenties te koppelen, moet de naamconventie van iedere stam in alle 3 de bestanden gelijk zijn.
Een stam KD35_v2 moet voor elke sequentie deze naam hebben.
>KD35_v2 en >KD35 v2 en >KD35v2 zullen door SequenceMatrix als aparte invoer worden gezien en worden de sequenties niet samengevoegd.
In dit voorbeeld worden 5 stammen samengevoegd, CBS114392, CBS114393, CBS114394, CBS114395 en CBS114396.
Start SequenceMatrix
Importeer 1-voor-1 de sequentie-bestanden: Import - Add sequences
Een popup window vraagt om alle 'external gaps' te vervangen met een vraagteken: Yes to all
Drie sequentie-bestanden zijn geïmporteerd; dit is aangegeven in de tabel.
Stel één van de stammen heeft een 'fout' in de naam. Deze sequentie zal als aparte invoer worden weergegeven in de tabel.
In de beta-tubulin sequentie wordt CBS114393 als CBS 114393 weergegeven.
De tabel toont duidelijk de aparte invoer voor CBS 114393.
Indien de naamgeving correct is en er wordt toch een (No data) weergegeven, betekent dit dat van betreffende stam en marker de sequentie ontbreekt.
Wanneer de bestanden zijn ingevoerd, zoals in het eerste voorbeeld, kan de samengevoegde bestanden worden geëxporteerd.
SequenceMatrix exporteert het bestand in een 'nexus'-format. De beste optie is ("naked", e.g. for GARLI); de inhoud kan dan eenvoudig worden aangepast voor andere programma's, die het nexus-format gebruiken, zoals MrBayes, RaxML of PAUP. Een conversie programma kan het bestand ook omzetten naar fasta-format. Een handige online conversie is hier te vinden.
Om het zelf te proberen, download hier de voorbeeld bestanden.
Als je gebruik maakt van dit programma en de data in een artikel gebruikt, citeer dan als volgt:
Vaidya, G., D. J. Lohman, R. Meier. SequenceMatrix: concatenation software for the fast assembly of multigene datasets with character set and codon information. Cladistics, accepted.
Accessible at: http://dx.doi.org/10.1111/j.1096-0031.2010.00329.x