Usage spécial

Mon panneau

Articles de la Science de signet

Nouvelles récentes

Bio-informatique

De la biologie moléculaire Wiki

La bio-informatique est la perception, l'organisation et l'analyse des grands nombres de données biologiques, utilisant des réseaux des ordinateurs, du logiciel, et des bases de données.


Image : Screenshot small.png de visualisateur de génome
Carte du chromosome de X humain (du site Web de NCBI). l'Assemblée du génome humain est l'un des plus grands accomplissements de la bio-informatique.


Contenu

Introduction

La bio-informatique de limites et la biologie de calcul sont employées souvent l'un pour l'autre. Toutefois la bio-informatique se rapporte plus correctement à la création et l'avancement des algorithmes, les techniques de calcul et statistiques, et la théorie pour résoudre des problèmes formels et pratiques a posé par ou a inspiré de la gestion et de l'analyse des données biologiques. La biologie de calcul, d'une part, se rapporte à la recherche hypothèse-pilotée sur un problème biologique spécifique utilisant des ordinateurs, effectué avec des données expérimentales et simulées, avec le but primaire de la découverte et de l'avancement de la connaissance biologique. Une distinction semblable est faite par les instituts nationaux de la santé dans leurs définitions fonctionnantes de bio-informatique et de biologie de calcul, où on le souligne encore qu'il y a un couplage serré des développements et de la connaissance entre la recherche hypothèse-pilotée dans la biologie de calcul et la recherche technique-pilotée en bio-informatique. La biologie de calcul inclut également des disciplines secondaires moins connues mais également importantes telles que la biochimie de calcul et la biophysique de calcul.

Un amorçage commun dans les projets dans la bio-informatique et la biologie de calcul est l'utilisation des outils mathématiques d'extraire l'information utile à partir des données produites par des techniques biologiques de haut-débit telles que l'ordonnancement de génome. Un problème représentatif en bio-informatique est l'assemblage des ordres de haute qualité de génome de l'ordonnancement fragmentaire d'ADN de « fusil de chasse ». D'autres problèmes communs incluent l'étude du règlement de gène utilisant des données des microarrays ou de spectrométrie de masse.

Domaines de recherche importants

Analyse d'ordre

Article principal : Cadrage d'ordre

Depuis que l'Φ-X174 bactériophage a été ordonnancé en 1977, les ordres d'ADN des centaines d'organizations ont été décodés et enregistrés dans les bases de données. Ces données sont analysées pour déterminer les gènes qui codent pour des protéines, aussi bien que des ordres de normalisation. Une comparaison des gènes dans des espèces ou entre différentes espèces peut afficher des similitudes entre les fonctions de protéine, ou des relations entre les espèces (l'utilisation de la systématique moléculaire de construire les arbres phylogénétiques). Avec la quantité croissante de données, il est il y a bien longtemps devenu impraticable d'analyser des ordres d'ADN manuellement. Aujourd'hui, des programmes informatiques sont employés pour rechercher le génome des milliers d'organizations, contenant des milliards de nucléotides. Ces programmes compenseraient des mutations (les bases permutées, effacées ou insérées) dans l'ordre d'ADN, afin d'identifier les ordres qui sont connexes, mais non identique. Une variante de ce cadrage d'ordre est utilisée dans le processus de ordonnancement lui-même. Le soi-disant fusil de chasse ordonnançant la technique (qui a été employé, par exemple, par l'institut pour que la recherche de Genomic ordonnance le premiers génome, Hemophilus influenzae bactériens) ne donne pas une liste séquentielle de nucléotides, mais à la place les ordres des milliers de petits fragments d'ADN (chacun environ 600-800 nucléotides longtemps). Les extrémités de ces fragments superposent et, une fois alignées de la bonne voie, composent le génome complet. Le fusil de chasse ordonnançant des rendements ordonnancent des données rapidement, mais la tâche d'assembler les fragments peut être tout à fait compliquée pour de plus grands génomes. Dans le cas du Projet génome humain, cela a pris plusieurs mois du temps- CPU (sur ordinateur de DEC de cru circa-2000 un alpha) pour assembler les fragments. L'ordonnancement de fusil de chasse est la méthode de choix pour pratiquement tous les génomes ordonnancés aujourd'hui, et les algorithmes de génome sont un domaine critique de la recherche en matière de bio-informatique.

Un autre aspect d'analyse de bio-informatique dans l'ordre est la recherche automatique des gènes et des ordres de normalisation dans un génome. Non tous les nucléotides dans un génome sont des gènes. Dans le génome des organizations plus élevées, les grandes parties de l'ADN n'atteignent aucun objectif évident. Cette soi-disant ADN d'ordure peut, cependant, contenir les éléments fonctionnels non reconnus. La bio-informatique aide à établir le lien entre le génome et les projets de proteome--par exemple, dans l'utilisation des ordres d'ADN pour l'identification de protéine.

Voyez également : ordonnancez l'analyse, ordre profilant l'outil, motif d'ordre.

Annotation de génome

Article principal : Conclusion de gène

Dans le cadre de la génomique, l'annotation est le processus de marquer les gènes et d'autres dispositifs biologiques dans un ordre d'ADN. Le système logiciel de la première annotation de génome a été conçu en 1995 par Dr. Owen White, qui faisait partie de l'équipe qui a ordonnancé et a analysé le premier génome d'une organization libre-vivante à décoder, Hemophilus influenzae de bactérie. Dr. White a établi un système logiciel pour trouver les gènes (les endroits dans l'ADN ordonnancent qui encodent une protéine), l'ARN de transfert, et d'autres dispositifs, et pour faire des affectations initiales de la fonction à ces gènes. La plupart des systèmes actuels d'annotation de génome fonctionnent pareillement, mais les programmes disponibles pour l'analyse de l'ADN genomic constamment changent et s'améliorent.

Biologie évolutionnaire de calcul

La biologie évolutionnaire est l'étude d'origine et de la descente des espèces, aussi bien que leur modification avec le temps. L'informatique a aidé les biologistes évolutionnaires de plusieurs voies principales ; elle a permis des chercheurs :

  • tracez l'évolution d'un grand nombre d'organizations en mesurant des changements de leur ADN, plutôt que par seule la taxonomie physique ou les observations physiologiques,
  • plus récemment, comparez les génomes entiers, qui permet l'étude des événements évolutionnaires plus complexes, tels que la duplication de gène, le transfert de gènes transversal, et la prévision des facteurs bactériens de speciation,
  • établissez les modèles de calcul complexes des populations pour prévoir les résultats du système avec le temps
  • l'information de piste et de part sur un nombre de plus en plus grand d'espèces et d'organizations

Les travaux futurs essayent de reconstruire l'arbre de now de la vie plus complexe.

Le domaine de recherche dans de l'informatique qui utilise des algorithmes génétiques est parfois confondu avec la biologie évolutionnaire de calcul, mais les deux zones sont indépendant.

Biodiversité de mesure

La biodiversité d'un écosystème pourrait être définie comme tout le complément genomic d'un environnement particulier, de toutes les espèces actuelles, si c'est un biofilm dans une mine abandonnée, une goutte de l'eau de mer, un godet de sol, ou la biosphère entière de la terre de planète. Des bases de données sont employées pour rassembler les noms d'espèces, les descriptions, les distributions, l'information génétique, le mode et la taille des populations, les besoins d'habitat, et comment chaque organization agit l'un sur l'autre avec d'autres espèces. Des logiciels spécialisés sont employés pour trouver, visualiser, et analyser les informations, et d'une manière plus importante, communiquez-les à d'autres personnes. Les simulations ordinateur modèlent des choses telles que la dynamique de population, ou calculent la santé génétique cumulative d'un regroupement d'élevage (dans l'agriculture) ou de la population mise en danger (dans l'économie). Un potentiel très passionnant de cette zone est que des ordres entiers d'ADN, ou les génomes des espèces en voie de disparition peuvent être préservés, permettant aux résultats de l'expérience génétique de la nature d'être retrouvés dans le silico, et probablement réutilisé à l'avenir, même si ce des espèces est par la suite détruites.

Projets importants : Projet des espèces 2000 ; projet d'uBio.

Analyse d'expression de gène

L'expression de beaucoup de gènes peut être déterminée en mesurant des niveaux d'ADN messagère avec des techniques multiples comprenant les microarrays, l'étiquette exprimée d'ordre de cDNA (est) ordonnançant, l'analyse séquentielle de l'étiquette d'expression de gène (SAUGE) ordonnançant, massivement la signature parallèle ordonnançant (MPSS), ou les diverses applications de l'hybridation in-situ multiplexée. Toutes ces techniques sont sujettes extrêmement bruit-sujettes et/ou à la polarisation dans la mesure biologique, et un domaine de recherche important dans la biologie de calcul implique de développer les outils statistiques pour séparer le signal du bruit dans des études d'expression de gène de haut-débit. De telles études sont employées souvent pour déterminer les gènes impliqués dans un désordre : on pourrait comparer des données de microarray des cellules épithéliales cancéreuses aux données des cellules non-cancerous pour déterminer les transcriptions qui vers le haut-sont réglées et vers le bas-réglées dans une population particulière des cellules cancéreuses.

Analyse de règlement

Le règlement est l'orchestration complexe des événements commençant par un signal extracellulaire et menant finalement à une augmentation ou à une diminution de l'activité d'un ou plusieurs molécules de protéine. Des techniques de bio-informatique ont été appliquées pour explorer de diverses étapes dans ce processus. Par exemple, l'analyse d'instigateur implique l'élucidation et l'étude des motifs d'ordre dans la région genomic entourant la région de codage d'un gène. Ces motifs influencent le point auquel cette région est transcrite en ADN messagère. Des données d'expression peuvent être employées pour impliquer le règlement de gène : on pourrait comparer des données de microarray d'une large variété d'états d'une organization aux hypothèses de forme au sujet des gènes impliqués dans chaque état. Dans une organization unicellulaire, on pourrait comparer des étapes du cycle de cellules, avec le divers effort conditionne (choc de la chaleur, famine, etc.). On peut alors s'appliquer des algorithmes de groupement à ces données d'expression pour déterminer quels gènes Co-sont exprimés. Par exemple, les régions ascendantes (instigateurs) des gènes Co-exprimés peuvent être recherchées les éléments de normalisation surreprésentés.

Analyse d'expression de protéine

Les microarrays de protéine et la spectrométrie de masse élevée du débit (HT) (milliseconde) peuvent fournir un instantané des protéines actuelles dans un échantillon biologique. La bio-informatique est beaucoup impliquée en semblant raisonnable du microarray de protéine et des données de milliseconde de HT ; l'ancienne approche fait face aux problèmes semblables comme des microarrays visés à l'ADN messagère, ce dernier implique le problème d'apparier des grands nombres de données de masse contre les masses prévues des bases de données d'ordre de protéine, et l'analyse statistique compliquée des échantillons où le multiple, mais les peptides inachevés de chaque protéine sont détectés.

Analyse des mutations dans le cancer

Les efforts de ordonnancement massifs sont actuel en cours pour identifier des mutations ponctuelles dans une série de gènes dans le cancer. Le volume de données fin produites exige des systèmes automatisés de lire des données d'ordre, et comparer l'ordonnancement résulte à l'ordre connu du génome humain, y compris des polymorphismes connus de germline.

Des microarrays d'oligonucléotide, y compris l'hybridation genomic comparative et les alignements simples de polymorphisme de nucléotide, capables sonder simultanément jusqu'à plusieurs centaines de mille sites dans tout le génome sont employés pour identifier des profits et des pertes chromosomiques dans le cancer. Des méthodes cachées de modèle de Markov et d'analyse de changer-point sont développées pour impliquer de vraies modifications de nombre de copie des données souvent bruyantes. D'autres approches d'informatique sont développées pour comprendre les implications des lésions avérées récurrentes à travers beaucoup de tumeurs.

Quelques outils modernes (par exemple Quantum 3.1) fournissent l'outil pour changer l'ordre de protéine aux sites spécifiques par des changements en ses acides aminés et prévoient des changements de la bioactivité après des mutations.

Prévision de structure de protéine

Article principal : Prévision de structure de protéine

La prévision de structure de protéine est une autre application importante de bio-informatique. L'ordre d'acide aminé d'une protéine, la soi-disant structure primaire, peut être facilement déterminé à partir de l'ordre sur le gène ce des codes pour lui. Dans la grande majorité de cas, cette structure primaire détermine seulement une structure dans son environnement indigène. (Naturellement, il y a des exceptions, telles que l'encéphalopathie spongiforme bovine - la maladie de la vache folle d'aka - le prion.) La connaissance de cette structure est essentielle en comprenant la fonction de la protéine. Faute de meilleures limites, l'information structurale est habituellement classifiée en tant qu'une de la structure secondaire, tertiaire et quaternaire. Une solution générale viable à de telles prévisions demeure un problème non résolu. En date de maintenant, la plupart des efforts ont été orientés sur l'heuristique qui fonctionnent le plus souvent.

Une des idées principales en bio-informatique est la notion de l'homologie. Dans le branchement genomic de la bio-informatique, l'homologie est employée pour prévoir la fonction d'un gène : si l'ordre du gène A, dont la fonction est connue, est homologue à l'ordre du gène B, dont la fonction est inconnue, on pourrait impliquer que B peut partager la fonction d'A. Dans le branchement structural de la bio-informatique, l'homologie est employée pour déterminer quelles parties d'une protéine sont importantes dans la formation et l'interaction de structure avec d'autres protéines. Dans une technique appelée l'homologie modelant, cette information est employée pour prévoir la structure d'une protéine une fois que la structure d'une protéine homologue est connue. Ceci reste actuel la seule voie de prévoir des structures de protéine sûrement.

Un exemple de ceci est l'homologie semblable de protéine entre l'hémoglobine chez l'homme et l'hémoglobine en légumineuses (leghemoglobin). Tous les deux atteignent le même objectif de transporter l'oxygène dans l'organization. Bien que tous les deux protéines aient des ordres d'acide aminé complètement différents, leurs structures de protéine sont pratiquement identiques, qui reflète leurs buts identiques proches.

D'autres techniques pour prévoir la structure de protéine incluent la protéine filetant et modélisation physique-basée de de novo (à partir de zéro).

Voir également le motif structural et le domaine structural.

Génomique comparative

Le noyau de l'analyse comparative de génome est l'établissement de la correspondance entre les gènes (analyse d'orthology) ou d'autres dispositifs genomic dans différentes organizations. C'est ces cartes intergenomic qui permettent pour tracer les processus évolutionnaires responsables de la divergence de deux génomes. Une multitude d'événements évolutionnaires agissant à de divers niveaux d'organisation forment l'évolution de génome. Au niveau le plus bas, les mutations ponctuelles affectent différents nucléotides. À des segments chromosomiques de plus haut niveau et grands subissez la duplication, le transfert transversal, l'inversion, la transposition, la suppression et la mise en place. Finalement, des génomes entiers sont impliqués dans les processus de l'hybridation, du polyploidization et de l'endosymbiosis, menant souvent au speciation rapide. La complexité de l'évolution de génome lance beaucoup de défis passionnants aux réalisateurs des modèles mathématiques et des algorithmes, qui ont recours à l'des éventails des techniques algorithmiques, statistiques et mathématiques, s'étendant d'exact, l'heuristique, le paramètre fixe et les algorithmes d'approximation pour des problèmes basés sur des modèles de parcimonie aux algorithmes de Monte Carlo de chaîne de Markov pour l'analyse bayésienne des problèmes basés sur les modèles probabilistes.

Plusieurs de ces études sont basées sur la détection d'homologie et le calcul de familles de protéine.

Voir également la génomique comparative, le réseau bayésien et la famille de protéine.

Modélisation des systèmes biologiques

Article principal : Biologie de systèmes

La biologie de systèmes comporte l'utilisation des simulations sur ordinateur des sous-systèmes cellulaires (tels que les réseaux des métabolites et des enzymes qui comportent le métabolisme, signalez les voies de transduction et les réseaux de normalisation de gène) à analysent et visualisent les connexions complexes de ces processus cellulaires. La vie artificielle ou l'évolution virtuelle essaye de comprendre des processus évolutionnaires par l'intermédiaire de la simulation sur ordinateur des formes de vie (artificielles) simples.

analyse d'image de Haut-débit

Des technologies de calcul sont employées pour accélérer ou automatiser entièrement le traitement, la quantification et l'analyse des grands nombres de langage figuré biomédical de haut-information-contenu. Les systèmes d'analyse d'image modernes augmentent la capacité d'un observateur de faire des mesures à partir d'un grand ou complexe ensemble d'images, en améliorant l'exactitude, l'objectivité, ou la vitesse. Un système d'analyse en pleine maturité peut complètement substituer l'observateur. Bien que ces systèmes ne soient pas seuls au langage figuré biomédical, la formation image biomédicale devient plus importante pour des diagnostics et la recherche. Quelques exemples sont :

  • haut-débit et localisation de quantification et sous-cellulaire de haute fidélité (criblage, cytohistopathology de haut-contenu)
  • morphometrics
  • analyse et visualisation d'image cliniques
  • détermination des configurations de flux d'air de temps réel dans des poumons de respiration des animaux vivants
  • mesure de la taille d'occlusion dans le langage figuré en temps réel du développement de et de la reprise pendant des dommages artériels
  • fabrication des observations comportementales à partir des enregistrements visuels étendus des animaux de laboratoire
  • mesures infrarouges pour la détermination métabolique d'activité

Outils logiciels

La bio-informatique de première génération usine des applications composées, habituellement avec une interface basée par texte, qui a bien effectué une tâche spécifique. L'outil de calcul de biologie le plus connu parmi des biologistes est probablement le SOUFFLE, un algorithme pour rechercher de grandes bases de données de protéine ou d'ordres d'ADN. Le NCBI fournit une mise en place basée sur le WEB populaire qui recherche leurs bases de données massives d'ordre. En outre assez tôt en fonction, en raison de l'accumulation de l'ordre et les données d'annotation, les engines de recherche par mot-clé qui pouvaient résoudre les synonymes de gène et de protéine étaient importants. Les langages scripting d'ordinateur tels que Perl (grâce à ses moyens de gestion d'expressions régulières) et python sont employés souvent pour se connecter par interface aux bases de données biologiques et pour analyser la sortie des programmes de bio-informatique écrits en langages tels que C ou C++. Les Communautés des programmeurs de bio-informatique ont installé des projets libres de bio-informatique de source ouverte pour développer et distribuer les outils et les modules qu'elles produisent.

Pendant que les points d'émission de données augmentaient et diversifiaient, dans le contenu et la géographie, les engines bioinformatic de recherche de méta, telles que l'ordre profilant des outils, ont émergé pour aider à trouver les informations importantes de plusieurs bases de données. Ces engines de recherche de méta pourraient indexer des données d'un serveur local ou même d'un panneau des services de tiers.

Plus récemment, des interfaces Savon-basées ont été développées pour une large variété d'applications de bio-informatique permettant une application fonctionnant sur un ordinateur dans une part du monde pour utiliser des algorithmes, des données et des ressources informatiques sur des serveurs dans d'autres régions du monde. Une grande disponibilité de ces services de Web Savon-basés de bio-informatique, avec les collections de bio-informatique de source ouverte, mènent à la prochaine génération des outils de bio-informatique : la plate-forme intégrée de bio-informatique. Intervalle de ces outils d'une collection d'outils autonomes avec un format de données commun sous une interface autonome ou basée sur le WEB simple et luisante, aux environnements de développement intégrateurs et extensibles de déroulement des opérations de bio-informatique.

Les cahiers électroniques de laboratoire (ELNs) deviennent de plus en plus populaires et importants en raison des réglementations gouvernementales telles que 21CFR11, qui spécifient comment des enregistrements doivent être créés, digitalement authentifié et archivé. Les enregistrements de laboratoire de Digitals qui sont 21CFR11 conformes sont admissibles dans des démarches légales ou de normalisation. Il y a quelques ELN libres dehors là mais obtenez vous ce que vous payez. Un exemple d'un ELN moderne est CERF par Rescentris Inc. CERF est un ELN basé par Java qui est Mac et Windows compatibles, 21CFR11 conforme et optimalisé pour la recherche en matière des sciences de la vie.

Références

    Bio-informatique d'ARN

    Bio-informatique d'ADN


    Discussions récentes de bio-informatique

      Amorçage/démarreur d'amorçage Dernier poteau Réponses Vues Forum
    snouto
    09-02-2009 02:40 AM
    par le nanofreak Allez au dernier poteau
    3 211 Bio-informatique
    bio_res
    09-02-2009 02:33 AM
    par le nanofreak Allez au dernier poteau
    1 53 Bio-informatique
    smithdx
    08-26-2009 03:07 P.M.
    par le smithdx Allez au dernier poteau
    0 9 Bio-informatique
    ipowerbioinfo
    08-24-2009 06:42 AM
    par projectcoordinator Allez au dernier poteau
    5 706 Bio-informatique
    aftabac
    08-21-2009 04:53 P.M.
    par l'aftabac Allez au dernier poteau
    0 51 Bio-informatique
    shoeboyon
    08-21-2009 03:54 P.M.
    par le shoeboyon Allez au dernier poteau
    0 38 Bio-informatique
    oBWhat
    08-21-2009 12:21 PM
    by NEHAB Go to last post
    10 3,041 Bioinformatics
    NEHAB
    08-15-2009 03:40 PM
    by nanofreak Go to last post
    1 32 Bioinformatics
    surt
    08-12-2009 07:05 PM
    by skatmbforum Go to last post
    2 1,211 Bioinformatics
    Buni
    08-11-2009 06:09 AM
    by Buni Go to last post
    0 30 Bioinformatics
    Bioinformatics
     

    Wiki Menu

    Science Wiki

    Protocols

    DNA Forum

    Science Forum

    DNA Forum
    Biology Forum

    Science News

    For more click here:Science News

    WARNING: SYSTRANLinks did not translate the document entirely. The document exceeds the maximum size allowed by the solution. ( 65536 bytes for HTML)