Bioinformatik är tillämpningen av tekniker för datavetenskap till området biologi . Målen för bioinformatik är att hjälpa livforskare att organisera biologiska data och utveckla de nödvändiga IT-verktyg för upptäckten av nya vetenskapliga hypoteser . Klassificering tekniker , även känd som klustring tekniker , är viktiga i bioinformatik eftersom de tillåter separering av olika biologiska data med liknande egenskaper i olika uppsättningar . Historia
Storleken av biologiska data har ökat exponentiellt , med en fördubbling av information observerade var 15 månader . Som ett resultat , är datavetenskap och informatik tekniker som används intensivt i bearbetning och hantering av biologiska data . Den mest grundläggande begreppet i bioinformatik är att de flesta biologiska aktiedata liknande egenskaper och kan delas upp i kluster . Exempelvis kan generna av en organism delas in i deras funktionella grupper eller metaboliska vägar . Proteiner kan också klassificeras utifrån de gener som uttrycks . Klassificering eller klustring tekniker är nödvändiga i förvaltningen av stora databaser av genetiska och biologiska data. Det finns två huvudsakliga typer av klassificeringstekniker i bioinformatik : . Den hierarkiska och k -means klassificeringstekniker
hierarkiska klassificeringen
hierarkiska klassificeringen Tekniken organiserar biologiska data till en träddatastruktur . Gener uttrycks som noder i trädet , medan varje underträd av noder representerar ett kluster eller en gruppering av gener. Trädet kan antingen rotade eller rotade . En rotade träd definieras som ett träd med bara en enda nod på toppen . Däremot har en orotad träd flera översta noder .
K - Means Klassificering
En mer komplicerad klassificeringen teknik är k -means klassificering , som försöker att hitta en uppsättning centra som minimerar det kvadratiska felet snedvridning bland datamängder i flerdimensionell rymd . Ett kluster klassificeras genom att gruppera relaterade punkter till närmaste centrum . Den Lloyd -algoritmen används ofta i K - Means klassificering teknik . I denna algoritm är datapunkter slumpmässigt arrangerade i separata kluster, som därefter är optimerade för att producera de minimala lokala square error snedvridningar .
Betydelse
När besläktade proteiner har varit klassificeras i liknande grupper , kan livforskare använda den informationen för att förutsäga egenskaper hos vissa mindre studerade proteiner . Detta är också applicerbar på andra aspekter av strukturen hos proteiner. En annan användning av klassificeringstekniker är att lösa problemet med att fastställa evolutionära träd av vissa organismer baserat på deras genetiska sekvenser . Den evolutionära träd konstrueras från DNA-sekvensen av organismen med användning av antingen hierarkisk eller k- Medel klassificeringstekniker .
Överväganden
hierarkiska klassificeringen teknik är en relativt enkel och effektiv sätt klustring biologiska data . Däremot finns det ingen effektiv algoritm vid skrivande stund som är kompetent att utföra k -means klassificering tekniken effektivt som storleken på de biologiska data ökar . Detta tyder på att en stor beräkningskraft ofta krävs för att utföra k -means klassificering , vilket är en viktig faktor att beakta när man väljer klassificeringen tekniken att använda i bioinformatik program .