Bioinformatique
Renseignements g??n??raux
Cette s??lection se fait pour les ??coles par la charit?? pour enfants lire la suite . Voulez-vous savoir sur le parrainage? Voir www.sponsorachild.org.uk
Bioinformatique et la biologie computationnelle impliquent l'utilisation de techniques, y compris les math??matiques appliqu??es , informatique, statistiques , informatique , l'intelligence artificielle, la chimie et la biochimie pour r??soudre biologiques probl??mes habituellement sur le mol??culaire niveau. Le principe de base de ces techniques utilise les ressources informatiques afin de r??soudre des probl??mes sur des ??chelles de grandeur beaucoup trop de discernement humain. Recherche en biologie computationnelle chevauche souvent la biologie des syst??mes. Importants efforts de recherche dans le domaine comprennent alignement de s??quences , d??couverte de g??nes, assemblage du g??nome, alignement de la structure des prot??ines, pr??diction de la structure des prot??ines, de pr??diction l'expression du g??ne et interactions prot??ine-prot??ine, ainsi que la mod??lisation de l'??volution .
Introduction
Les termes et bioinformatique biologie computationnelle sont souvent utilis??s indiff??remment. Cependant bioinformatique se r??f??re plus correctement ?? la cr??ation et la promotion des algorithmes, des techniques informatiques et statistiques, et la th??orie pour r??soudre des probl??mes formels et pratiques d??coulant de la gestion et l'analyse des donn??es biologiques. Biologie computationnelle, d'autre part, se r??f??re ?? une enqu??te fond??e sur une hypoth??se d'un probl??me biologique sp??cifique ?? l'aide des ordinateurs, r??alis??e avec les donn??es exp??rimentales ou simul??es, avec l'objectif principal de la d??couverte et l'avancement des connaissances biologiques. Dit plus simplement, la bioinformatique est pr??occup?? par les informations tout en biologie computationnelle est pr??occup?? par les hypoth??ses. Une distinction similaire est faite par National Institutes of Health dans leur d??finitions de travail de la bioinformatique et de biologie computationnelle, o?? il est en outre soulign?? qu'il existe un couplage ??troit de l'??volution et de connaissances entre la recherche fond??e sur une hypoth??se plus biologie computationnelle et de la recherche technique ax??e en bioinformatique. Bioinformatique est ??galement souvent sp??cifi?? comme un sous-champ de la discipline appliqu??e plus g??n??rale de Informatique biom??dicale.
Un d??nominateur commun dans les projets de la bioinformatique et la biologie computationnelle est l'utilisation d'outils math??matiques pour extraire des informations utiles ?? partir de donn??es produites par des techniques biologiques ?? haut d??bit tels que s??quen??age du g??nome. Un probl??me repr??sentant en bioinformatique est l'assemblage de s??quences g??nomiques de haute qualit?? ?? partir d'ADN fragmentaire "fusil de chasse" s??quen??age. Autres probl??mes communs comprennent l'??tude de la r??gulation des g??nes ?? effectuer profilage d'expression en utilisant des donn??es de puces ou la spectrom??trie de masse .
Grands domaines de recherche
L'analyse de s??quence
Depuis la Phage Φ-X174 ??tait s??quenc?? en 1977, le s??quences d'ADN des centaines d'organismes ont ??t?? d??cod??s et stock??s dans des bases de donn??es. Les donn??es sont analys??es afin de d??terminer les g??nes qui codent des polypeptides, ainsi que des s??quences r??gulatrices. Une comparaison des g??nes au sein d'une esp??ce ou entre esp??ces diff??rentes peut montrer les similitudes entre les fonctions des prot??ines, ou les relations entre les esp??ces (l'utilisation de syst??matique mol??culaire pour construire des arbres phylog??n??tiques). Avec la quantit?? croissante de donn??es, il ya longtemps est devenu impossible d'analyser des s??quences d'ADN manuellement. Aujourd'hui, programmes informatiques sont utilis??s pour rechercher la g??nome de milliers d'organismes, contenant des milliards de nucl??otides. Ces programmes seraient compenser mutations (bases, supprim??s ou ins??r??s ??chang??s) dans la s??quence d'ADN, afin d'identifier des s??quences qui sont li??s, mais pas identiques. Une variante de cet alignement de s??quences est utilis?? dans le processus de mise en s??quence elle-m??me. La dite technique de s??quen??age shotgun (qui a ??t?? utilis??, par exemple, par L'Institut de recherche en g??nomique pour s??quencer le premier g??nome bact??rien, Haemophilus influenzae) ne donne pas une liste s??quentielle de nucl??otides, mais plut??t les s??quences de milliers de petits fragments d'ADN (chacun d'environ 600 ?? 800 nucl??otides de long). Les extr??mit??s de ces fragments se chevauchent et, lorsqu'elles sont align??es dans le bon sens, constituent le g??nome complet. S??quen??age Shotgun produit des donn??es de s??quence rapidement, mais la t??che d'assemblage des fragments peut ??tre assez compliqu?? pour les grands g??nomes. Dans le cas de la Projet du g??nome humain, il a fallu plusieurs mois de temps CPU (sur un vintage circa-2000 Ordinateur DEC Alpha) pour assembler les fragments. S??quen??age Shotgun est la m??thode de choix pour pratiquement tous les g??nomes s??quenc??s aujourd'hui, et des algorithmes d'assemblage du g??nome sont un domaine critique de la recherche en bioinformatique.
Un autre aspect de la bioinformatique dans l'analyse de s??quence est l'automatique rechercher des g??nes et des s??quences r??gulatrices dans un g??nome. Pas tous les nucl??otides dans le g??nome sont des g??nes. Dans le g??nome des organismes sup??rieurs, de grandes parties de l'ADN ne servent pas un but ??vident. Ce soi-disant ADN poubelle peut toutefois contenir des ??l??ments fonctionnels non reconnus. Bioinformatique contribue ?? combler le foss?? entre g??nome et projets prot??ome - par exemple, dans l'utilisation de s??quences d'ADN pour l'identification de prot??ines.
Voir aussi: analyse de la s??quence, s??quence outil de profilage, motif de s??quence.
Annotation du g??nome
Dans le contexte de g??nomique, annotation est le processus de marquage des g??nes et d'autres fonctions biologiques dans une s??quence d'ADN. Le syst??me logiciel d'annotation premier g??nome a ??t?? con??u en 1995 par le Dr Owen White, qui faisait partie de l'??quipe qui a s??quenc?? et analys?? le premier g??nome d'un organisme vivant en libert?? ?? d??coder, la bact??rie Haemophilus influenzae. Dr White a construit un syst??me de logiciel pour trouver les g??nes (places dans la s??quence d'ADN qui codent pour une prot??ine), l'ARN de transfert, et d'autres caract??ristiques, et de faire des affectations initiales de la fonction ?? ces g??nes. La plupart des syst??mes d'annotation du g??nome de courant fonctionnent de mani??re similaire, mais les programmes disponibles pour l'analyse de l'ADN g??nomique sont en constante ??volution et l'am??lioration.
Biologie ??volutive Computational
La biologie ??volutive est l'??tude de l'origine et de la descente des esp??ces , ainsi que leur ??volution dans le temps. Informatique a aid?? les biologistes ??volutionnistes, de plusieurs fa??ons; elle a permis aux chercheurs de:
- suivre l'??volution d'un grand nombre d'organismes par la mesure de l'??volution de leur ADN , plut??t que par taxonomie physique ou seules observations physiologiques,
- plus r??cemment, de comparer ensemble g??nomes, ce qui permet l'??tude des ??v??nements ??volutifs plus complexes, tels que la duplication de g??nes, transfert lat??ral de g??nes, et la pr??diction de facteurs importants dans bact??rien sp??ciation,
- construire des mod??les informatiques complexes des populations de pr??dire l'issue du syst??me au fil du temps
- suivre et partager des informations sur un nombre de plus en plus grande des esp??ces et des organismes
Projets futurs de travail pour reconstruire le d??sormais plus complexe arbre de la vie.
Le domaine de la recherche dans les sciences de l'ordinateur qui utilise algorithmes g??n??tiques est parfois confondu avec biologie ??volutive de calcul, mais les deux zones ne sont pas li??s.
Mesure de la biodiversit??
La biodiversit?? d'un ??cosyst??me peut ??tre d??finie comme le compl??ment g??nomique total d'un environnement particulier, de toutes les esp??ces pr??sentes, si ce est un biofilm dans une mine abandonn??e, une goutte d'eau de mer, une boule de sol, ou toute la biosph??re de la plan??te Terre . Bases de donn??es sont utilis??s pour recueillir les esp??ces noms, descriptions, les distributions, l'information g??n??tique, le statut et la taille des populations, doit l'habitat, et comment chaque organisme interagit avec d'autres esp??ces. Sp??cialis?? logiciels sont utilis??s pour trouver, visualiser et analyser les informations, et surtout, communiquer ?? d'autres personnes. Mod??le d'ordinateur des simulations de choses telles que la dynamique des populations, ou calculer la sant?? g??n??tique cumulatif d'un pool de reproduction (dans l'agriculture ) ou de la population en voie de disparition (en conservation). Un potentiel tr??s excitant de ce champ est que enti??res ADN s??quences, ou g??nomes de esp??ces menac??es peuvent ??tre conserv??s, permettant aux r??sultats de l'exp??rience g??n??tique de la nature pour se souvenir in silico, et peut-??tre r??utilis?? dans l'avenir, m??me si cette esp??ce est finalement perdu.
D'importants projets: Esp??ce de projet 2000; Projet uBio.
Analyse de l'expression des g??nes
Le expression de nombreux g??nes peut ??tre d??termin??e en mesurant taux d'ARNm avec plusieurs techniques comprenant microarrays, exprim?? marqueur de s??quence d'ADNc (HNE) le s??quen??age, analyse en s??rie de l'expression g??nique (SAGE) tag s??quen??age, s??quen??age massivement parall??le de signature (MPSS), ou diverses applications de multiplexage hybridation in situ. Toutes ces techniques sont extr??mement susceptible d'??tre bruyante et / ou sujettes ?? des biais dans la mesure biologique, et un domaine majeur de la recherche en biologie computationnelle implique le d??veloppement d'outils statistiques pour s??parer signal provenant de bruit dans les ??tudes d'expression g??nique ?? haut d??bit. Ces ??tudes sont souvent utilis??s pour d??terminer les g??nes impliqu??s dans une maladie: on peut comparer les donn??es de puces ?? ADN ?? partir canc??reuse les cellules ??pith??liales de donn??es ?? partir de cellules non canc??reuses pour d??terminer les transcriptions qui sont r??gul??s ?? la hausse et en baisse r??gul??e dans une population particuli??re de cellules canc??reuses.
Analyse de la r??glementation
Le r??glement est l'orchestration complexe d'??v??nements ?? partir d'un signal extracellulaire tel qu'un hormone et conduisant ?? une augmentation ou une diminution de l'activit?? d'une ou plusieurs prot??ines . Bioinformatique techniques ont ??t?? appliqu??es ?? explorer diverses ??tapes de ce processus. Par exemple, analyse de promoteur implique l'identification et l'??tude des s??quence de motifs dans l'ADN entourant la r??gion codante d'un g??ne. Ces motifs influencer la mesure dans laquelle cette r??gion est transcrit en ARNm. donn??es d'expression peuvent ??tre utilis??es pour d??duire la r??gulation des g??nes: on pourrait comparer donn??es de biopuces d'une grande vari??t?? d'??tats d'un organisme pour former des hypoth??ses sur les g??nes impliqu??s dans chaque Etat. Dans un organisme unicellulaire, on pourrait comparer les ??tapes de la cycle cellulaire, ainsi que diverses conditions de stress (heat shock, famine, etc.). On peut alors se appliquer algorithmes de clustering ?? ce que les donn??es d'expression afin de d??terminer quels g??nes sont co-exprim??. Par exemple, les r??gions en amont (promoteurs) de g??nes co-exprim??s peuvent ??tre recherch??s sur-repr??sent??s ??l??ments de r??gulation.
Analyse de l'expression de la prot??ine
puces ?? prot??ines et ?? haut d??bit (HT) spectrom??trie de masse (MS) peuvent fournir un instantan?? des prot??ines pr??sentes dans un ??chantillon biologique. La bioinformatique est tr??s impliqu?? dans la fabrication sens de micror??seau de prot??ines et de donn??es MS HT; la premi??re approche face ?? des probl??mes similaires avec des micror??seaux cibl??es ?? l'ARNm, celui-ci comporte le probl??me de l'ad??quation de grandes quantit??s de donn??es de masse contre des masses pr??dites ?? partir de bases de donn??es de s??quences de prot??ines, et l'analyse statistique complexe d'??chantillons o?? plusieurs, mais peptides incomplets de chaque prot??ine sont d??tect??e.
Analyse de mutations dans le cancer
Dans le cancer, les g??nomes de cellules affect??es sont r??arrang??s de mani??re complexe voire impr??visibles. Massive efforts de s??quen??age sont utilis??s pour identifier inconnue des mutations ponctuelles dans une gamme de g??nes dans le cancer . Bioinformaticiens continuent ?? produire des syst??mes automatis??s sp??cialis??s pour g??rer le volume de donn??es de s??quence produite, et ils cr??ent de nouveaux algorithmes et de logiciels de comparer les r??sultats de s??quen??age ?? la collection croissante de s??quences du g??nome humain et polymorphismes germinales. La technologie de d??tection physique New sont employ??s, tels que microarrays oligonucl??otides pour identifier les gains et pertes chromosomiques (appel??s hybridation g??nomique comparative), et simples tableaux nucl??otide polymorphisme pour d??tecter des mutations ponctuelles connues. Ces m??thodes de d??tection mesurent simultan??ment plusieurs centaines de milliers de sites ?? travers le g??nome, et lorsqu'il est utilis?? en haut d??bit pour mesurer des milliers d'??chantillons, de g??n??rer t??raoctets de donn??es par exp??rience. Encore une fois les quantit??s massives et de nouveaux types de donn??es g??n??rent de nouvelles opportunit??s pour les bioinformaticiens. Les donn??es sont souvent av??r?? contenir une variabilit?? consid??rable, ou bruit, et donc Mod??le de Markov cach?? et m??thodes d'analyse des points de changement sont en cours d'??laboration pour d??duire r??el nombre de copies change.
Un autre type de donn??es qui n??cessite le d??veloppement de nouvelles de l'informatique est l'analyse des l??sions jug??es r??currents parmi de nombreuses tumeurs.
La pr??diction de la structure des prot??ines
pr??diction de la structure des prot??ines est une autre application importante de la bioinformatique. L' acide amin?? s??quence d'une prot??ine, la dite structure primaire, peut ??tre facilement d??termin?? ?? partir de la s??quence du g??ne qui code pour elle. Dans la grande majorit?? des cas, cette structure primaire qui d??termine de fa??on unique une structure dans son environnement natif. (Bien s??r, il ya des exceptions, comme le enc??phalopathie spongiforme bovine - aka La vache folle - prion .) La connaissance de cette structure est essentiel dans la compr??hension de la fonction de la prot??ine. Faute de meilleures conditions, l'information structurelle est g??n??ralement class?? comme l'un des secondaire, tertiaire et structure quaternaire. Une solution g??n??rale viable pour de telles pr??dictions reste un probl??me ouvert. A partir de maintenant, la plupart des efforts ont ??t?? orient??s vers heuristique qui travaillent la plupart du temps.
Une des id??es cl??s en bioinformatique est la notion de homologie. Dans la branche de la bioinformatique g??nomique, l'homologie est utilis?? pour pr??dire la fonction d'un g??ne: si la s??quence du g??ne A, dont la fonction est connue, est homologue ?? la s??quence du g??ne B, dont la fonction est inconnue, on pourrait en d??duire que B mai part la fonction d'un. Dans la branche de structure de la bioinformatique, l'homologie est utilis?? pour d??terminer quelles sont les parties d'une prot??ine sont importants dans la formation de la structure et les interactions avec d'autres prot??ines. Dans une mod??lisation par homologie de la technique dite, cette information est utilis??e pour pr??dire la structure d'une prot??ine, une fois la structure d'une prot??ine homologue est connue. Cela reste actuellement le seul moyen de pr??voir de mani??re fiable les structures des prot??ines.
Un exemple de ceci est la prot??ine semblable homologie entre l'h??moglobine chez l'homme et l'h??moglobine dans les l??gumineuses ( legh??moglobine). Tous deux servent le m??me but de transporter l'oxyg??ne dans l'organisme. Bien que ces deux prot??ines ont compl??tement diff??rentes s??quences d'acides amin??s, leurs structures de prot??ines sont pratiquement identiques, ce qui refl??te leurs proches des fins identiques.
D'autres techniques pour pr??dire la structure des prot??ines comprennent filetage de prot??ines et de novo (?? partir de z??ro) de mod??lisation bas?? sur la physique.
Voir aussi: motif structural et domaine structural.
La g??nomique comparative
Le c??ur de l'analyse comparative du g??nome est l'??tablissement de la correspondance entre (analyse de g??nes orthologie) ou d'autres caract??ristiques g??nomiques dans diff??rents organismes. Ce sont ces cartes interg??nomiques qui permettent de tracer les processus ??volutifs responsables de la divergence des deux g??nomes. Une multitude d'??v??nements ??volutifs agissant ?? diff??rents niveaux organisationnels ?? fa??onner l'??volution du g??nome. Au niveau le plus bas, des mutations ponctuelles affectent nucleotides individuels. ?? un niveau sup??rieur, de larges segments chromosomiques subissent duplication, transfert lat??ral, l'inversion, la transposition, la suppression et l'insertion. En fin de compte, des g??nomes entiers sont impliqu??s dans les processus d'hybridation, et polyplo??disation endosymbiose, menant souvent ?? la sp??ciation rapide. La complexit?? de l'??volution du g??nome pose de nombreux d??fis passionnants pour les d??veloppeurs de mod??les et d'algorithmes math??matiques, qui ont recours ?? un spectre de techniques algorithmiques, statistiques et math??matiques, allant de exacte, heuristiques, param??tre fixe et algorithmes d'approximation pour des probl??mes bas??s sur des mod??les de parcimonie ?? Markov Chain Monte Carlo algorithmes pour l'analyse bay??sienne des probl??mes bas??s sur des mod??les probabilistes.
Beaucoup de ces ??tudes sont bas??es sur la d??tection d'homologie et familles de prot??ines calcul.
Mod??lisation de syst??mes biologiques
La biologie des syst??mes implique l'utilisation de des simulations informatiques cellulaires sous-syst??mes (tels que la r??seaux de m??tabolites et enzymes qui comprennent m??tabolisme, voies de transduction du signal et r??seaux de r??gulation de g??nes) ?? la fois ?? analyser et visualiser les connexions complexes de ces processus cellulaires. La vie artificielle ou de l'??volution virtuelle tente de comprendre les processus ??volutifs via la simulation par ordinateur des (artificiels) les formes de vie simples.
Haut D??bit analyse d'image
Technologies informatiques sont utilis??s pour acc??l??rer ou compl??tement automatiser le traitement, la quantification et l'analyse de grandes quantit??s d'informations ?? haute teneur en l'imagerie biom??dicale. Syst??mes d'analyse d'images modernes augmentent la capacit?? d'un observateur d'effectuer des mesures ?? partir d'un ensemble important ou complexe d'images, en am??liorant exactitude, l'objectivit??, ou la vitesse. Un syst??me d'analyse pleinement d??velopp?? peut remplacer compl??tement l'observateur. Bien que ces syst??mes ne sont pas uniques ?? l'imagerie biom??dicale, l'imagerie biom??dicale est de plus en plus important pour les deux diagnostic et la recherche. Certains exemples sont les suivants:
- ?? haut d??bit et haute fid??lit?? quantification et la localisation sous-cellulaire ( criblage ?? haut contenu, cytohistopathology)
- morphom??triques
- analyse d'image clinique et de visualisation
- d??terminer les motifs d'??coulement d'air en temps r??el dans la respiration poumons des animaux vivants
- quantifier la taille d'occlusion dans l'imagerie en temps r??el de l'??volution des cours et la r??cup??ration l??sion art??rielle
- faire des observations comportementales ?? partir d'enregistrements vid??o ??tendues des animaux de laboratoire
- mesures dans l'infrarouge pour la d??termination de l'activit?? m??tabolique
Prot??ine-prot??ine accueil
Dans les deux derni??res d??cennies, des dizaines de milliers de prot??ines structures tridimensionnelles ont ??t?? d??termin??es par Cristallographie aux rayons X et Prot??ine spectroscopie de r??sonance magn??tique nucl??aire (RMN des prot??ines). Une question centrale pour le scientifique biologique est de savoir si il est pratique pour pr??dire les interactions prot??ine-prot??ine possibles seulement sur la base de ces formes en 3D, sans faire prot??ine-prot??ine exp??riences d'interaction. Une vari??t?? de m??thodes ont ??t?? d??velopp??es pour se attaquer au Probl??me d'accueil prot??ine-prot??ine, mais il semble qu'il ya encore beaucoup de place pour travailler dans ce domaine.
Outils et Logiciels
Logiciels pour la bioinformatique va des outils de ligne de commande simples, ?? des programmes graphiques plus complexes et web-services autonomes. L'outil de la biologie computationnelle la plus connue des biologistes est probablement BLAST, un algorithme de d??termination de la similarit?? de s??quences arbitraires contre d'autres s??quences, ??ventuellement ?? partir de bases de donn??es curated de prot??ines ou des s??quences d'ADN. Le NCBI fournit une impl??mentation bas??e sur le Web populaire qui recherche leurs bases de donn??es. BLAST est l'un d'un certain nombre de programmes g??n??ralement disponibles pour faire l'alignement de s??quences.
Services Web en bioinformatique
SOAP et Interfaces REST ont ??t?? d??velopp??s pour une large vari??t?? d'applications de bioinformatique permettant une application se ex??cutant sur un ordinateur dans une partie du monde ?? utiliser des algorithmes, des donn??es et des ressources informatiques sur des serveurs dans d'autres parties du monde. Les principaux avantages r??sident dans l'utilisateur final ne pas avoir ?? traiter avec des frais g??n??raux et de maintenance de logiciels de base de donn??es des services de bioinformatique de base sont class??s par la EBI en trois cat??gories: SSS (S??quence Recherche Services), MSA (alignement multiple de s??quences) et BSA (biologique Sequence Analysis). La disponibilit?? de ces bioinformatique ressources orient??es services d??montrent l'applicabilit?? de solutions bioinformatiques bas??s sur le Web, et la gamme d'une collection d'outils autonomes avec un format de donn??es commun sous une seule, autonome ou interface Web, d'int??gration, distribu?? et extensible bioinformatique syst??mes de gestion de workflow.