Ett FASTA - format filen innehåller en eller flera sekvenser av nukleotider i DNA . FASTA format ursprung med FASTA programpaket för DNA-sekvensering , även om det har blivit ett standardformat för representation av DNA-sekvenser i bioinformatik . FASTA är ett enkelt format som gör sekvenser lätt att tolka med hjälp av skriptspråk som Perl och Python . Översikt
Grunden för en fil är en rad som börjar med " > "-tecken följt av text som identifierar ursprunget av sekvensen . Rubrikraden är typiskt mindre än 80 tecken . Linjen följer denna rubrikraden innehåller en serie av tecken som representerar nukleotider i DNA eller aminosyrarester i en peptid sekvens .
Tillåtna DNA Tecken
Endast meningsfulla tecken är tillåtna som en del av en FASTA sekvens . Sekvenser kan bestå av A, C, T, G eller U , motsvarande nukleotiderna adenosin , cytosin , tymidin , guanin eller uracil respektive. Emellertid kan den exakta identiteten av nukleotiden inte alltid vara närvarande från sekvensering. FASTA innehåller även koder som representerar möjliga nukleotider när osäkerheten är närvarande . Koden N används när ingen bestämning kan göras och X då nukleotiden maskeras av andra molekyler. Den " - " kod används för att representera en lucka på obestämd längd
tillåtna peptid Characters
En alfanumerisk kod även kan användas för att representera . de 24 aminosyror som finns i en peptidsekvens . Om en peptid inte kan bestämmas , är koden X används , på samma sätt som en DNA-sekvens . En " * " används för att indikera terminalen eller transla- sekvensen hos en peptid. En " - " . Används också för att representera en lucka i sekvensering data för peptider
Övrig information
NCBI sätter en standard sekvens ID , eller SeqlD , för användning i FASTA huvudrader , men det finns ingen definitiv standard för att ingå i FASTA rubrikraden . En FASTA fil som innehåller flera sekvenser är känd som en multi - FASTA fil . FASTA filer kan ha filändelsen " . FASTA , " " . Fna , " " . FFN , " " . Faa , " " . FRN " eller " . Fas . "
Addera ditt