RNA-Seq

Eine gesichtete Version dieser Seite, die am 24. Oktober 2012 freigegeben wurde, basiert auf dieser Version.

Als RNA-Seq, auch „Gesamt-Transkriptom-Shotgun-Sequenzierung“^[1] genannt, wird die Bestimmung der Nukleotidabfolge der RNA bezeichnet, die auf Hochdurchsatzmethoden (Next-Generation Sequencing) basiert. Hierfür wird die RNA in cDNA übersetzt, damit die Methode der DNA-Sequenzierung angewendet werden kann. RNA-Seq enthüllt Informationen zur Genexpression, wie zum Beispiel unterschiedliche Allele eines Gens exprimiert sind, das Erkennen von posttranskriptionalen Modifikationen oder Identifizierung von Fusions-Genen.^[2]

Einleitung

RNA-Seq ist eine moderne sequenzbasierte Methode und basiert auf Sequenzierung der nächsten Generation (engl. next-generation sequencing). RNA-Seq hat klare Vorteile gegenüber den anderen Methoden. RNA-Seq hilft dabei, komplexe Transkriptome zu erforschen und gibt Aufschluss, welche Exons in der messenger-RNA zusammenfinden. Geringes Hintergrundrauschen, höhere Auflösung und hohe Reproduktionsraten in technischen als auch biologischen Replikaten sind klare Vorteile von RNA-Seq^[2]. Jedoch sind „Next-Generation-Sequencing“-Techniken sehr teuer.

Biologischer Hintergrund

Die Zelle verwendet nur einen Teil ihrer Gene. Darunter fallen die Haushaltsgene und die Gene der spezialisierten Zelle. Zum Beispiel haben Muskelzellen mechanische Eigenschaften und Blutzellen können Sauerstoff transportieren. Alle Zellen haben identische Gene, unterscheiden sich aber in Ihrer Genexpression. Genexpression ist die Synthese von Proteinen aus der DNA. Die Genexpressionsanalyse oder auch Transkriptom-Analyse misst, welche Gene ein- oder ausgeschaltet sind. Wenn ein Gen angeschaltet ist, dann werden Teile des Gens in die mRNA übergeführt. Methoden der Genexpressionsanalyse, wie die des RNA-Seq, misst die Konzentration der mRNA in verschiedenen experimentellen Bedingungen (z.B. mit/ohne Medikamente). Die Genexpressionsanalyse folgt also der Frage, wie sich die mRNA-Konzentration durch Medikamente, in unterschiedlichen Entwicklungsstadien der Zelle, im gesunden oder erkrankten Zustand verhält.

Mit der RNA-Sequenz kann man den Mechanismus des alternativen Spleißens^[3] sowie Fusionsgene^[4] besser verstehen. Alternatives Spleißen ist der Prozess, bei dem die pre-RNA in verschiedene mRNAs und somit auch in verschiedene Proteine umgewandelt wird. Fusionsgene sind Hybridgene aus zwei vorher getrennten Genen, vereint in einem Gen. Fusionsgene entstehen durch Translokation, interstitielle Deletion oder durch chromosomale Inversion.

Arbeitsablauf

Probenaufbereitung

Meist interessiert man sich für die mRNA, die einen Entwurf für Proteine darstellt. Jedoch besteht die RNA einer Zelle zu 90 % aus rRNA. Um die mRNA von der rRNA zu trennen, gibt es standardisierte Methoden, sogenannte "Ribosomal Deletion Kits". Für die spätere Sequenzierung ist es notwendig, die mRNA zu fragmentieren, da die Sequenzierungstechniken nur eine bestimmte Leselänge haben. Die Fragmentierung kann sowohl vor (RNA-Fragmentierung) als auch nach der Konvertierung in die cDNA (cDNA-Fragmentierung) erfolgen. Die cDNA-Fragmentierung erzielt bessere Ergebnisse am 5'-Ende, jedoch zeigt sich eine schlechte Qualität in der Mitte des Transkripts, wo die RNA-Fragmentierung besser abschneidet.^[2]

In der Probenaufbereitung muss man abwägen, ob man die Leserichtung, also strangspezifische Informationen, berücksichtigt. Damit kann man Artefakte ausschließen, die von der aRNA stammen. Jedoch ist das ein sehr zeit- und arbeitsintensiver Schritt.^[5] Die aRNA inhibitiert durch Basenpaarung mit der komplementären mRNA deren Translation in der Zelle und beeinflusst die Genexpression einzelner Gene.

Sequenzierung

Es gibt mittlerweile sehr viele Hochdurchsatzmethoden, welche den Einbau eines einzellnen Nukleotids in die DNA in ein elektrisches Signal umwandeln. Viele dieser Methoden unterscheiden sich in der Durchführung. Hier nun ein Beispiel für die Sequenzierung auf dem Illumina Genome Analyzer II:^[6]

Fragmentierung der cDNA
Reinigung, Reparatur der Fragmentenden
Adapter werden an die Probe ligiert
Die Proben werden mit einem Agarose-Gel nach ihrer Größe aufgetrennt
PCR
Reinigung und Sequenzierung

Read Mapping

Die wohl größte Herausforderung in der Datenanalyse von RNA-Seq besteht darin, die gelesenen Fragmente (Reads) dem Referenzgenom zuzuordnen. Das mag für einen einzellnen Read trivial erscheinen, jedoch für Millionen von Reads brauchen etablierte Alignmentverfahren wie zB BLAST 43 Stunden um 10 Millionen Reads mit einer Länge von 32 bp dem Referenzgenom zuzuordnen^[6]. Deshalb war es notwendig neue Algorithmen für das Read Mapping zu entwerfen.

Beim Read Mapping gibt es Algorithmen die das Spleißen berücksichtigen, wie zB exon first oder seed and extend, sowie Algorithmen die das Spleißen nicht berücksichtigen wie zB seed methods oder Burrows-Wheeler Aligner^[7].

Literatur

Martin A. Perdacher: Next-Generation Sequencing and its Applications in RNA-Seq. Theorieteil der Bachelorarbeit, Hagenberg September 2011 (englisch, PDF-Datei).

Einzelnachweise

↑ Ryan D. Morin, Matthew Bainbridge, Anthony Fejes, Martin Hirst, Martin Krzywinski, Trevor J. Pugh, Helen McDonald, Richard Varhol, Steven J.M. Jones, and Marco A. Marra.: Profiling the HeLa S3 transcriptome using randomly primed cDNA and massively parallel short-read sequencing. In: BioTechniques. 45. Jahrgang, Nr. 1, 2008, S. 81–94, doi:10.2144/000112900, PMID 18611170.
↑ ^a ^b ^c Zhong Wang, Mark Gerstein, Michael Snyder: RNA-Seq: a revolutionary tool for transcriptomics. In: Nature Reviews Genetics. 10. Jahrgang, Nr. 1, Januar 2009, S. 57–63, doi:10.1038/nrg2484, PMID 19015660, PMC 2949280 (freier Volltext).
↑ Trapnell C, Pachter L, Salzberg SL: TopHat: discovering splice junctions with RNA-Seq. In: Bioinformatics. 25. Jahrgang, Nr. 9, 2009, S. 1105-11, doi:10.1093/bioinformatics/btp120, PMID 19289445, PMC 2672628 (freier Volltext) – (nih.gov).
↑ Teixeira MR: Recurrent fusion oncogenes in carcinomas. In: Crit Rev Oncog. 12. Jahrgang, Nr. 3-4, 2006, S. 257-71, PMID 17425505 (nih.gov).
↑ Cloonan N, Forrest AR, Kolle G, Gardiner BB, Faulkner GJ, Brown MK et al.: Stem cell transcriptome profiling via massive-scale mRNA sequencing. In: Nat Methods. 5. Jahrgang, Nr. 7, 2008, S. 613-9, doi:10.1038/nmeth.1223, PMID 18516046 (nih.gov).
↑ ^a ^b Wilhelm BT, Landry JR: RNA-Seq-quantitative measurement of expression through massively parallel RNA-sequencing. In: Methods. 48. Jahrgang, Nr. 3, 2009, S. 249-57, doi:10.1016/j.ymeth.2009.03.016, PMID 19336255 (nih.gov).
↑ Garber M, Grabherr MG, Guttman M, Trapnell C: Computational methods for transcriptome annotation and quantification using RNA-seq. In: Nat Methods. 8. Jahrgang, Nr. 6, 2011, S. 469-77, doi:10.1038/nmeth.1613, PMID 21623353 (nih.gov).

[morin2008-1] Ryan D. Morin, Matthew Bainbridge, Anthony Fejes, Martin Hirst, Martin Krzywinski, Trevor J. Pugh, Helen McDonald, Richard Varhol, Steven J.M. Jones, and Marco A. Marra.: Profiling the HeLa S3 transcriptome using randomly primed cDNA and massively parallel short-read sequencing. In: BioTechniques. 45. Jahrgang, Nr. 1, 2008, S. 81–94, doi:10.2144/000112900, PMID 18611170.

[wang2009-2] Zhong Wang, Mark Gerstein, Michael Snyder: RNA-Seq: a revolutionary tool for transcriptomics. In: Nature Reviews Genetics. 10. Jahrgang, Nr. 1, Januar 2009, S. 57–63, doi:10.1038/nrg2484, PMID 19015660, PMC 2949280 (freier Volltext).

[pmid19289445-3] Trapnell C, Pachter L, Salzberg SL: TopHat: discovering splice junctions with RNA-Seq. In: Bioinformatics. 25. Jahrgang, Nr. 9, 2009, S. 1105-11, doi:10.1093/bioinformatics/btp120, PMID 19289445, PMC 2672628 (freier Volltext) – (nih.gov).

[pmid17425505-4] Teixeira MR: Recurrent fusion oncogenes in carcinomas. In: Crit Rev Oncog. 12. Jahrgang, Nr. 3-4, 2006, S. 257-71, PMID 17425505 (nih.gov).

[pmid18516046-5] Cloonan N, Forrest AR, Kolle G, Gardiner BB, Faulkner GJ, Brown MK et al.: Stem cell transcriptome profiling via massive-scale mRNA sequencing. In: Nat Methods. 5. Jahrgang, Nr. 7, 2008, S. 613-9, doi:10.1038/nmeth.1223, PMID 18516046 (nih.gov).

[pmid19336255-6] Wilhelm BT, Landry JR: RNA-Seq-quantitative measurement of expression through massively parallel RNA-sequencing. In: Methods. 48. Jahrgang, Nr. 3, 2009, S. 249-57, doi:10.1016/j.ymeth.2009.03.016, PMID 19336255 (nih.gov).

[pmid21623353-7] Garber M, Grabherr MG, Guttman M, Trapnell C: Computational methods for transcriptome annotation and quantification using RNA-seq. In: Nat Methods. 8. Jahrgang, Nr. 6, 2011, S. 469-77, doi:10.1038/nmeth.1613, PMID 21623353 (nih.gov).

[1]

[2]

[3]

[4]

[5]

[6]

[7]