concept de biologie polysémique De Wikipédia, l'encyclopédie libre
Un gène, du grec ancien γένος / génos (« génération, naissance, origine »)[1],[2], est, en biologie, une séquence discrète et héritable de nucléotides dont l'expression affecte les caractères d'un organisme. L'ensemble des gènes et du matériel non codant d'un organisme constitue son génome.
Un gène possède donc une position donnée dans le génome d'une espèce, on parle de locus génique. La séquence est généralement formée par des désoxyribonucléotides, et est donc une séquence d'ADN (par des ribonucléotides formant de l'ARN dans le cas de certains virus), au sein d'un chromosome. Elle s'exprime via la transcription, c'est-à-dire la copie de la séquence d'ADN en une molécule d'ARN. L'ARN peut ensuite subir la traduction, produisant une protéine (cas des gènes dits « codants », qui produisent des ARN messagers), ou bien être directement actif (cas des gènes dits « non codants »). Dans les deux cas, l'ARN subit après sa transcription différentes étapes de maturation, avec en particulier l'épissage, qui consiste en l'excision de parties du transcrit que l'on appelle introns. L'ARN mature est donc composé des parties restantes, à savoir des exons. Selon que le gène est codant ou non, on pourra distinguer au sein des exons les parties codantes, appelées CDS, et les parties en amont et en aval des CDS, appelées respectivement 5'- et 3'-UTR. L'expression des gènes est un processus biologique régulé de différentes manières à chacune de ses deux grandes étapes (transcription et traduction), par des séquences dites « régulatrices » (enhancers, promoters, ou autres gènes, par exemple les gènes à micro-ARN).
Au cours de la vie de l'individu (une plante, un animal, une bactérie), des gènes peuvent acquérir des mutations dans leur séquence nucléotidiques ou dans leurs régions régulatrices, comme des SNP (modification d'un nucléotide) ou des INDEL (ajout ou retrait de nucléotides). Si ces mutations se transmettent, elle entraineront la présence au sein de la population de différents allèles du gène ou de la région régulatrice, et participeront à la diversité génétique de la population. L'ensemble des allèles des gènes et des régions régulatrices d'un individu constitue son génotype. Au cours du temps, ces allèles subissent la pression de la sélection naturelle et leur fréquence peut varier sous l'effet de la dérive génétique.
La transmission des allèles des gènes des individus parents à leur descendance est à l'origine de l'héritabilité des caractères phénotypiques (par exemple la taille ou la couleur des yeux). L'ensemble des caractères phénotypiques d'un individus forment son phénotype. Dans le détails, le phénotype d'un individu est influencé par son génotype, l'environnement dans lequel il évolue ou a évolué, et les interactions entre son génotype et l'environnement. Si certains caractères sont influencés par quelques gènes (caractères oligogéniques), voire plus rarement par un seul (caractères monogéniques), la plupart des caractères phénotypiques sont sous l'influence d'un grand nombre de gènes (on parle de caractères polygéniques). Un modèle dans lequel tous les gènes influeraient dans une certaine mesure les caractères a été proposé (modèle omnigénique)[3].
De nombreuses théories visant à expliquer l'hérédité des caractères (y compris des caractères acquis) ont été proposées depuis l'Antiquité jusqu'au XIXe siècle, notamment par Anaxagore, Hippocrate ou Aristote.
La théorie de la préformation, dont Aristote est un précurseur[4], a connu un certain succès à partir du XVIIe siècle et jusqu'au XIXe siècle. Cette théorie proposait que l'individu existait avant sa naissance, sous une forme complète mais trop petite pour être observée, au sein du spermatozoïde ou de l'ovule[4]. Darwin de son côté, proposait dans sa théorie de la Pangenèse, héritière d'Hippocrate et en compétition avec la théorie de la préformation, que les cellules germinales consistent en une accumulation de « gemmules », sortes d'entités sécrétées par les cellules du corps, et qui héritaient donc de leurs caractères. La rencontre des deux cellules germinales lors de la fécondation assurait la transmission des caractères à travers leur mélange[5].
Entre 1856 et 1863, à Brno dans l'empire d'Autriche, Gregor Mendel (1822—1884) réalise plusieurs milliers de croisements de plants de pois au cours desquels il observe la façon dont certains caractères ségrègent[6]. De ses travaux, il tire 5 observations :
Ces 5 observations sont réunies pour former les 3 lois de Mendel :
Les observations et lois de Mendel ne s'appliquent qu'à assez peu de caractères. Ils se présentent en effet rarement sous une forme bien définie (plant « grand » ou « petit »), et forment plutôt en population un continuum. Par exemple, lorsqu'on mesure leur taille, on observe une distribution continue plutôt qu'une distribution discrète.
Les caractères mendéliens correspondent à des caractères monogéniques, c'est-à-dire qu'ils ne sont influencés que par un seul gène, alors que la plupart des caractères sont polygéniques. De plus, des gènes peuvent présenter un lien génétique, c'est-à-dire que leurs allèles tendent à rester ensemble lors de la formation des gamètes. Lorsque la ségrégation d'un caractère ne suit pas les lois de Mendel, on parle d'hérédité non mendélienne.
Les travaux de Mendel et ses résultats sont restés largement ignorés de son vivant, mais ont mis en évidence au début du XXe siècle par Hugo de Vries, Carl Correns et Erich von Tschermak-Seysenegg.
Au cours des années 1940 et 1950, des expérimentations ont montré que l'acide désoxyribonucléique (ADN) était le support physique de l'information génétique[7],[8].
La structure de l'ADN a ensuite été étudiée par cristallographie aux rayons X grâce aux travaux de Rosalind Franklin et de Maurice Wilkins. La détermination de la structure a permis à James Watson et Francis Crick de proposer le modèle de la structure en double-hélice de l'ADN.
Finalement, les travaux de Seymour Benzer ont permis de montrer que les gènes correspondent à une portion linéaire d'ADN.
L'ADN (acide désoxyribonucléique) est le support héritable de l'information génétique pour les cellules eukaryotes et prokaryotes.
La molécule d'ADN est formée de deux brins antiparallèles enroulés l'un autour de l'autre, donnant une structure en double hélice[9]. Ces brins sont composés d'une succession de bases nucléiques, ou bases azotées — adénine (A), cytosine (C), guanine (G) ou thymine (T) — liées à un pentose (le désoxyribose), lui-même lié à un groupe phosphate. Les nucléotides sont unis les uns aux autres par des liaisons covalentes entre le désoxyribose d'un nucléotide et le groupe phosphate du nucléotide suivant, formant ainsi une chaîne où alternent oses et phosphates, avec les bases nucléiques liées chacune à un ose. L'ordre dans lequel se succèdent les nucléotides le long d'un brin d'ADN constitue la séquence de ce brin : c'est cette séquence qui porte l'information génétique.
Les brins d'ADN ont un sens, qui est lié à la composition chimique des pentoses. Une extrémité d'une molécule d'ADN présente un groupe phosphate exposé, il s'agit de l'extrémité dite « 5' » [cinq prime], et l'autre extrémité présente un groupe hydroxile exposé, il s'agit de l'extrémité dite « 3' » [trois prime].
Au sein d'une cellule, on trouve une ou plusieurs molécules d'ADN de taille variable : il s'agit des chromosomes. Chez les eukaryotes, les chromosomes sont linéaires et sont séquestrés dans le noyau cellulaire, où ils sont associés avec des protéines qui en régulent la compaction, les histones. Chez les prokaryotes, on trouve en général un seul chromosome circulaire (appelé nucléoïde[10]), sans histone, et libre dans le cytoplasme, les prokaryotes n'ayant pas de noyau cellulaire. Chaque chromosome porte un allèle de chaque gène qu'il contient. Dans les espèces diploïdes, dont les individus disposent chacun d'une paire de chaque chromosome (c'est par exemple le cas des mammifères), chaque individu dispose de deux allèles pour chaque gène.
Le long d'un chromosome, on trouve donc des loci géniques (les gènes), séparés entre eux par des régions dites « intergéniques » parfois très longues. Si ces régions ont longtemps été considérées comme inutiles, la communauté scientifique s'accorde maintenant à dire qu'elles ont pour la plupart un rôle[11], et notamment qu'elles contiennent des loci impliqués dans la régulation de l'expression des gènes[12].
La séquence de nucléotides de l'ADN qui forme le gène n'est pas directement fonctionnelle. Elle le devient à la suite de sa transcription par des ARN polymérases, qui produisent de l'ARN.
La molécule d'ARN (acide ribonucléique) est pour sa part une succession de bases nucléiques — les mêmes que l'ADN sauf la thymine (T), qui est remplacée par de l'uracile (U) — liée à un pentose (le ribose, qui donne une partie de son nom à la molécule), lui-même lié à un groupe phosphate. Contrairement à l'ADN, la molécule d'ARN se présente généralement en un seul brin (monocaténaire). Chez les eukaryotes et les prokaryotes, l'ARN n'est pas un support de l'information génétique, mais est soit une molécule directement fonctionnelle (micro-ARN ou ARN longs non codants par exemple) soit une molécule intermédiaire permettant la synthèse de protéines.
En revanche, chez les virus à ARN, la molécule constitue le génome viral, et peut se présenter sous une forme bicaténaire.
En génétique, « expression » est un terme polysémique pouvant se rapporter (i) aux processus permettant le passage de l’information contenue dans la séquence d’ADN en un produit fonctionnel ; (ii) à la résultante, pour un locus donné, de la quantité d'ARN produits depuis de ce locus moins la quantité d'ARN issus de ce locus et dégradés ; ou (iii) à l'activité de synthèse d'ARN depuis ce locus.
Quel que soit le type de gènes, leur expression implique une première étape de transcription, c'est-à-dire la copie de l'information génétique contenue dans l'ADN en ARN. Ensuite, dans le cas des ARN messagers, suit une étape appelée traduction, réalisée par les ribosomes, qui permet le passage d'une information sous forme de nucléotides en une séquence d'acides-aminés formant une protéine. De nombreux types d'ARN (ARNt, ARNr, micro-ARN) ne subissent pas la traduction.
La transcription consiste en la copie d'un locus donné d'ADN en ARN par une enzyme appelée ARN polymérase.
Chez les procaryotes, elle a lieu dans le cytoplasme bactérien dans lequel est localisé l'ADN (chromosome ou plasmide), les procaryotes n'ayant pas, par définition, de noyau cellulaire. Elle se déroule en 3 étapes : l'initiation, l'élongation et la terminaison.
Chez les eucaryotes, elle se déroule dans le noyau cellulaire. La chromatine doit au préalable avoir été décompactée (euchromatine) pour permettre à la machinerie protéique d'accéder à l'ADN. De plus, l'ARN produit devra subir plusieurs étapes de maturation post-transcriptionnelle avant sa traduction en protéine. En particulier, des segments de cet ARN, appelés exons, sont raboutés les uns aux autres dans une étape appelée épissage ; lorsque d'autres segments, situés entre deux exons et appelés introns sont éliminés par excision.
Certains types d'ARN, dont les ARN dits « messagers » (ARNm) sont également modifiés à leur extrémité 5', par l'ajout d'une une coiffe méthylguanosine. Elle empêche notamment l'action d'exoribonucléases sur l'ARN, et facilite son export vers le cytoplasme. L'ARN est ensuite modifié à son extrémité 3', où une queue poly-A (adénine) y est ajoutée, avec des rôles similaires. L'ARN est alors mature.
Les ARN messager sont le support d'une information génétique permettant la synthèse d'une protéine. L'information génétique s'exprime par triplets de nucléotides (appelés codons), à chaque codon correspond un acide aminé. Certains codons appelés « codons STOP » n'ont pas de correspondance en acide aminé et définissent l'arrêt de la traduction de l'ARN en polypeptide. Une protéine n'est néanmoins pas simplement un enchaînement d'acides aminés et sa composition finale dépend d'autres facteurs environnementaux, c'est pourquoi à un gène ne correspond pas nécessairement une seule protéine. De plus, le processus d'épissage des introns permet également de supprimer de façon conditionnelle certains exons de l'ARN, permettant ainsi à partir d'un unique gène de produire plusieurs protéines différentes. On parle alors d'épissage alternatif. Ce phénomène, initialement décrit pour un nombre restreint de gènes, semble concerner un nombre croissant de gènes. Aujourd'hui, on estime que l'épissage alternatif permet de produire en moyenne trois ARN différents par gène, ce qui permet chez l'humain de produire, à partir de ses 20 000 à 25 000 gènes, 100 000 protéines différentes.
La plupart des cellules d'un organisme possèdent la totalité des gènes. L'ensemble des gènes exprimés dans une cellule en particulier, et donc des protéines qui seront présentes dans cette cellule, dépend de chemins de régulation complexes mis en place au cours du développement de l'individu. Certains caractères simples sont déterminés par un seul gène (comme le groupe sanguin chez l'homme ou comme la couleur des yeux chez la drosophile). Cependant, dans la plupart des cas, un caractère observable dépend de plusieurs voire de nombreux gènes, et éventuellement de l'interaction avec l'environnement (forme du visage, poids du corps).
Si les gènes sont les principaux responsables des variations entre individus, ils ne sont pas le seul support d'information dans un organisme. Ainsi, on considère que, dans le cas d'un grand nombre d'organismes, une bonne partie de l'ADN n'est pas codante (seulement 3 % est codante chez l'humain), le reste (l'ADN non codant) ayant des fonctions encore mal connues. Cet ADN non codant, aussi appelé ADN inter-génique, est de plus en plus étudié, et semble être impliqué dans la structure de la chromatine. Plus particulièrement, les dernières recherches ont montré un rôle crucial de ces régions dans la régulation de l'expression des gènes par modification de l'état de la chromatine sur de grandes régions chromosomiques.
La structure d'un gène codant pour une protéine est constituée de nombreux éléments dont la séquence codante pour la protéine proprement dite ne représente souvent qu'une petite partie. Ces éléments comprennent les introns et les régions non traduites de l'ARNm mature. Les gènes non codants peuvent également contenir des introns qui sont supprimés au cours du traitement pour produire l'ARN fonctionnel mature.
Tous les gènes sont associés à des séquence régulatrice qui sont nécessaires à leur expression. Tout d'abord, les gènes ont besoin d'une séquence promotrice. Le promoteur est reconnu et lié par des facteurs de transcription qui recrutent et aident l'ARN polymérase à se lier à la région pour initier la transcription[13]. La reconnaissance se fait généralement sous la forme d'une séquence consensus comme la boîte TATA. Un gène peut avoir plus d'un promoteur, ce qui donne des ARN messagers (ARNm) qui diffèrent par la longueur de leur extrémité 5'[14]. Les gènes fortement transcrits ont des séquences promotrices "fortes" qui forment des associations solides avec les facteurs de transcription, initiant ainsi la transcription à un rythme élevé. D'autres gènes ont des promoteurs "faibles" qui forment des associations faibles avec les facteurs de transcription et initient la transcription moins fréquemment. Les régions promotrices des eucaryotes sont beaucoup plus complexes et difficiles à identifier que les promoteurs des procaryotes[13].
En outre, les gènes peuvent avoir des régions régulatrices de plusieurs kilobases en amont ou en aval du gène qui modifient l'expression. Ces régions agissent en se liant à des facteurs de transcription qui provoquent ensuite une boucle de l'ADN de sorte que la séquence régulatrice (et le facteur de transcription lié) se rapproche du site de liaison de l'ARN polymérase[14]. Par exemple, les exhausteurs augmentent la transcription en se liant à une protéine activatrice qui aide ensuite à recruter l'ARN polymérase au promoteur ; à l'inverse, les silencieux se lient à des protéines répressives et rendent l'ADN moins disponible pour l'ARN polymérase[15].
L'ARN messager mature produit à partir de gènes codants pour des protéines contient des régions non traduites aux deux extrémités, qui contiennent des sites de liaison pour les ribosomes, les protéines de liaison à l'ARN, les miARN, ainsi que des terminateurs et des codons de départ et de d’arrêt (codon 'stop')[16]. En outre, la plupart des cadres de lecture ouverts eucaryotes contiennent des introns non traduits, qui sont éliminés, et des exons, qui sont reliés entre eux dans un processus connu sous le nom d'épissage de l'ARN. Enfin, les extrémités des transcrits sont définies par des sites de clivage et de polyadénylation (CPA), où le pré-ARNm nouvellement produit est clivé et une chaîne de ~200 adénosines monophosphates est ajoutée à l'extrémité 3'. La queue poly(A) protège l'ARNm mature de la dégradation et a d'autres fonctions, affectant la traduction, la localisation et le transport de la transcription à partir du noyau. L'épissage, suivi du CPA, génère l'ARNm mature final, qui code pour la protéine[17]. Bien que les mécanismes généraux définissant les localisations des gènes humains soient connus, l'identification des facteurs exacts régulant ces processus cellulaires est un domaine de recherche active.
De nombreux gènes procaryotes sont organisés en opérons, avec plusieurs séquences codantes pour des protéines qui sont transcrites comme une unité[18],[14]. Les gènes d'un opéron sont transcrits sous la forme d'un ARN messager continu, appelé ARNm polycistronique. Dans ce contexte, le terme cistron est équivalent à gène. La transcription de l'ARNm d'un opéron est souvent contrôlée par un répresseur qui peut se trouver dans un état actif ou inactif selon la présence de métabolites spécifiques[19]. Lorsqu'il est actif, le répresseur se lie à une séquence d'ADN située au début de l'opéron, appelée région opérateur, et réprime la transcription de l'opéron ; lorsque le répresseur est inactif, la transcription de l'opéron peut avoir lieu (voir par exemple l'opéron Lac). Les produits des gènes de l'opéron ont généralement des fonctions apparentées et sont impliqués dans le même réseau de régulation.
L'ADN humain se compose de 1,5 % de séquences codant les gènes qui sont activés par des segments cis-régulateurs activateurs situés à proximité dans les 98,5 % d'ADN non codant[20]. 99 % de nos gènes sont communs avec la souris. 5 000 de nos segments cis-régulateurs sont communs avec les requins. Les génomes de 20 espèces très différentes (mouches, poissons, oiseaux, rongeurs, singes, humains) se composent en moyenne de 20 000 gènes et montrent de très grandes similitudes entre leurs gènes et entre leurs segments régulateurs. Les variations de caractères génétiques sont plus souvent dues aux mutations d'activateurs qu'aux mutations de gènes.
Dans les tissus, des protéines reconnaissent et se lient aux segments cis-régulateurs et activent les gènes[20]. Le complexe protéique qui se forme alors active l'enzyme polymérase et enclenche la transcription du gène. La plus longue distance observée est de 4 500 paires de bases entre un gène et un segment régulateur[20]. Certains gènes sont activés indépendamment dans plusieurs tissus par des segments différents. Ces gènes sont encore plus stables car soumis à des contraintes organiques plus nombreuses[20].
Pour étudier les segments cis-régulateurs, on en génère un et on le lie à un gène dont l'effet est facile à observer. Puis on l'introduit dans un embryon unicellulaire[20]. Si on observe l'effet, c'est que le segment est régulateur, et l'observation indique sa position dans l'organisme en développement.
Le génome procaryote est activé par défaut. Il s’agit ici d’empêcher la transcription, et non de l'activer, contrairement aux eucaryotes où les gènes ont tendance à être réprimés par défaut. Il existe cependant certains principes d’activation chez les bactéries (opéron lactose…).
La définition du gène doit prendre en compte le fait que l'on retrouve chez la bactéries des opérons, c'est-à-dire des gènes dits « polycistroniques ». Cette appellation est fautive au sens où le mot cistron est un synonyme strict du mot gène.
Un opéron est un gène procaryote qui code plusieurs protéines qui sont souvent impliquées dans un même processus biologique. Un seul ARNm est produit qui servira ensuite de matrice à la production des différentes protéines.
Il n'existe aucune documentation attestant de l'existence d'opérons chez les eucaryotes.
L'ARNm procaryote ne subit pas d'épissage, il n'y a pas d'épissage comme celui décrit chez les eucaryotes, et pas de notion d'exon ou d'intron par voie de conséquence.
Dans son ouvrage Le Gène égoïste, Richard Dawkins expose en 1976 une théorie donnant au gène le rôle d'unité sur laquelle agit la sélection naturelle. Les individus n'auraient d'autre intérêt que d'assurer la transmission des gènes qu'ils portent (une idée qui donne son titre au livre Les Avatars du gène de Pierre-Henri Gouyon, Jean-Pierre Henry et Jacques Arnould, 1997). Il peut exister des conflits entre le niveau du gène et celui de l'individu : les gènes portés par la fraction du génome transmise par la voie femelle ont intérêt à produire plus de descendants femelles et à manipuler l'individu qui les porte dans ce sens, pour lequel il est plus favorable dans la plupart des cas de produire autant de mâles que de femelles. La notion de gène égoïste se rapproche en fait du concept de sélection de parentèle en cela que le gène qui dicte un acte altruiste au bénéfice d'un autre individu apparenté favorise en fait sa propre transmission.
Dans cette approche, les gènes ont la particularité de ne pas être sujets au vieillissement. Un gène n'est pas plus à risque de disparaître après un million d'années que lors de son apparition. L'espérance de vie d'un gène est de l'ordre de milliers voire de millions d'années[21].
Le terme de gène est tellement large qu'il est parfois difficile d'en donner une définition. De nombreux dérivés, au sens beaucoup plus précis, et parfois technique, sont utilisés couramment dans le milieu scientifique.
Cette nomenclature est utilisée principalement chez l’humain, mais pas uniquement. Ainsi le gène ABO (responsable des groupes sanguins ABO) est en 9q34 chez l’humain et en 3p13 chez le surmulot.
Seamless Wikipedia browsing. On steroids.