Als RNA-Seq, auch „Gesamt-Transkriptom-Shotgun-Sequenzierung“[1] genannt, wird die Bestimmung der Nukleotidabfolge der RNA bezeichnet, die auf Hochdurchsatzmethoden (Next-Generation Sequencing) basiert. Hierfür wird die RNA in cDNA übersetzt, damit die Methode der DNA-Sequenzierung angewendet werden kann. RNA-Seq enthüllt Informationen zur Genexpression, wie zum Beispiel unterschiedliche Allele eines Gens exprimiert sind, das Erkennen von posttranskriptionalen Modifikationen oder Identifizierung von Fusions-Genen.[2]
Einleitung
Grundsätzlich kann man die Technologien zur Erforschung der Genexpression in hybridisierungsbasierende Methoden und sequenzbasierte Methoden einteilen. Hybridisierungsbasierende Methoden, wie z. B. Microarrays sind relativ billig, jedoch haben diese Methoden einige Einschränkungen, wie zum Beispiel hohes Hintergrundrauschen und eine geringere Auflösung (engl. dynamic range)[3] [4]. Sequenzbasierte Methoden wie die Sanger-Sequenzierung sind sehr zeitaufwändig und teuer, wurden aber weiterentwickelt zu SAGE und RT-PCR.
RNA-Seq ist eine moderne sequenzbasierte Methode und basiert auf Sequenzierung der nächsten Generation (engl. next-generation sequencing). RNA-Seq hat klare Vorteile gegenüber den anderen Methoden. RNA-Seq hilft dabei, komplexe Transkriptome zu erforschen und gibt Aufschluss, welche Exons in der messenger-RNA zusammenfinden. Geringes Hintergrundrauschen, höhere Auflösung und hohe Reproduktionsraten in technischen als auch biologischen Replikaten sind klare Vorteile von RNA-Seq[2]. Jedoch sind „Next-Generation-Sequencing“-Techniken sehr teuer.
Biologischer Hintergrund
Die Zelle verwendet nur einen Teil ihrer Gene. Darunter fallen die Haushaltsgene und die Gene der spezialisierten Zelle. Zum Beispiel haben Muskelzellen mechanische Eigenschaften und Blutzellen können Sauerstoff transportieren. Alle Zellen haben identische Gene, unterscheiden sich aber in Ihrer Genexpression. Genexpression ist die Synthese von Proteinen aus der DNA. Die Genexpressionsanalyse oder auch Transkriptom-Analyse misst, welche Gene ein- oder ausgeschaltet sind. Wenn ein Gen angeschaltet ist, dann werden Teile des Gens in die mRNA übergeführt. Methoden der Genexpressionsanalyse, wie die des RNA-Seq, misst die Konzentration der mRNA in verschiedenen experimentellen Bedingungen (z.B. mit/ohne Medikamente). Die Genexpressionsanalyse folgt also der Frage, wie sich die mRNA-Konzentration durch Medikamente, in unterschiedlichen Entwicklungsstadien der Zelle, im gesunden oder erkrankten Zustand verhält.
Mit der RNA-Sequenz kann man den Mechanismus des alternativen Spleißens[5] sowie Fusionsgene[6] besser verstehen. Alternatives Spleißen ist der Prozess, bei dem die pre-RNA in verschiedene mRNAs und somit auch in verschiedene Proteine umgewandelt wird. Fusionsgene sind Hybridgene aus zwei vorher getrennten Genen, vereint in einem Gen. Fusionsgene entstehen durch Translokation, interstitielle Deletion oder durch chromosomale Inversion.
Arbeitsablauf
Probenaufbereitung
Meist interessiert man sich für die mRNA, die einen Entwurf für Proteine darstellt. Jedoch besteht die RNA einer Zelle zu 90 % aus rRNA. Um die mRNA von der rRNA zu trennen, gibt es standardisierte Methoden, sogenannte "Ribosomal Deletion Kits". Für die spätere Sequenzierung ist es notwendig, die mRNA zu fragmentieren, da die Sequenzierungstechniken nur eine bestimmte Leselänge haben. Die Fragmentierung kann sowohl vor (RNA-Fragmentierung) als auch nach der Konvertierung in die cDNA (cDNA-Fragmentierung) erfolgen. Die cDNA-Fragmentierung erzielt bessere Ergebnisse am 5'-Ende, jedoch zeigt sich eine schlechte Qualität in der Mitte des Transkripts, wo die RNA-Fragmentierung besser abschneidet[2].
In der Probenaufbereitung muss man abwägen, ob man die Leserichtung, also strangspezifische Informationen, berücksichtigt. Damit kann man Artefakte ausschließen, die von der aRNA stammen. Jedoch ist das ein sehr zeit- und arbeitsintensiver Schritt[7]. Die aRNA inhibitiert durch Basenpaarung mit der komplementären mRNA deren Translation in der Zelle und beeinflusst die Genexpression einzelner Gene.
Sequenzierung
Es gibt mittlerweile sehr viele Hochdurchsatzmethoden, welche den Einbau eines einzellnen Nukleotids in die DNA in ein elektrisches Signal umwandeln. Viele dieser Methoden unterscheiden sich in der Durchführung. Hier nun ein Beispiel für die Sequenzierung auf dem Illumina Genome Analyzer II [8]:
- Fragmentierung der cDNA
- Reinigung, Reparatur der Fragmentenden
- Adapter werden an die Probe ligiert
- Die Proben werden mit einem Agarose-Gel nach ihrer Größe aufgetrennt
- PCR
- Reinigung und Sequenzierung
Read Mapping
Die wohl größte Herausforderung in der Datenanalyse von RNA-Seq besteht darin, die gelesenen Fragmente (Reads) dem Referenzgenom zuzuordnen. Das mag für einen einzellnen Read trivial erscheinen, jedoch für Millionen von Reads brauchen etablierte Alignmentverfahren wie zB BLAST 43 Stunden um 10 Millionen Reads mit einer Länge von 32 bp dem Referenzgenom zuzuordnen[8].
Literatur
- Martin A. Perdacher: Next-Generation Sequencing and its Applications in RNA-Seq. Theorieteil der Bachelorarbeit, Hagenberg September 2011 (englisch, PDF-Datei).
Einzelnachweise
- ↑ Ryan D. Morin, Matthew Bainbridge, Anthony Fejes, Martin Hirst, Martin Krzywinski, Trevor J. Pugh, Helen McDonald, Richard Varhol, Steven J.M. Jones, and Marco A. Marra.: Profiling the HeLa S3 transcriptome using randomly primed cDNA and massively parallel short-read sequencing. In: BioTechniques. 45. Jahrgang, Nr. 1, 2008, S. 81–94, doi:10.2144/000112900, PMID 18611170.
- ↑ a b c Zhong Wang, Mark Gerstein, Michael Snyder: RNA-Seq: a revolutionary tool for transcriptomics. In: Nature Reviews Genetics. 10. Jahrgang, Nr. 1, Januar 2009, S. 57–63, doi:10.1038/nrg2484, PMID 19015660, PMC 2949280 (freier Volltext).
- ↑ Thomas E. Royce, Joel S. Rozowsky, Mark B. Gerstein: Toward a universal microarray: prediction of gene expression through nearest-neighbor probe sequence identification. In: Nucleic Acids Res. 35. Jahrgang, Nr. 15, 2007, S. e99, doi:10.1093/nar/gkm549, PMID 17686789, PMC 1976448 (freier Volltext).
- ↑ Michał J. Okoniewski, Crispin J. Miller: Hybridization interactions between probesets in short oligo microarrays lead to spurious correlations. In: BMC Bioinformatics. 7. Jahrgang, 2006, S. 276, doi:10.1186/1471-2105-7-276, PMID 16749918, PMC 1513401 (freier Volltext).
- ↑ Trapnell C, Pachter L, Salzberg SL: TopHat: discovering splice junctions with RNA-Seq. In: Bioinformatics. 25. Jahrgang, Nr. 9, 2009, S. 1105-11, doi:10.1093/bioinformatics/btp120, PMID 19289445, PMC 2672628 (freier Volltext) – (nih.gov).
- ↑ Teixeira MR: Recurrent fusion oncogenes in carcinomas. In: Crit Rev Oncog. 12. Jahrgang, Nr. 3-4, 2006, S. 257-71, PMID 17425505 (nih.gov).
- ↑ Cloonan N, Forrest AR, Kolle G, Gardiner BB, Faulkner GJ, Brown MK et al.: Stem cell transcriptome profiling via massive-scale mRNA sequencing. In: Nat Methods. 5. Jahrgang, Nr. 7, 2008, S. 613-9, doi:10.1038/nmeth.1223, PMID 18516046 (nih.gov).
- ↑ a b Wilhelm BT, Landry JR: RNA-Seq-quantitative measurement of expression through massively parallel RNA-sequencing. In: Methods. 48. Jahrgang, Nr. 3, 2009, S. 249-57, doi:10.1016/j.ymeth.2009.03.016, PMID 19336255 (nih.gov).