PLoS ONE: RNA-Seq avslører Spliceosome og Proteasome Gener som mest konsekvente transkripsjoner i Human Cancer Cells

Abstract

Nøyaktig kvantifisering av genuttrykk ved QRT-PCR er avhengig av normalisering mot en konsekvent uttrykt kontroll genet. Imidlertid kontroll gener i vanlig bruk, ofte varierer sterkt mellom prøver, spesielt i kreft. Ankomsten av Next Generation Sequencing teknologien gir mulighet for bedre å velge kontroll gener med minst celle til celle variasjon i steady state transkripsjonsnivåer. Her analyserer vi transcriptomes av 55 leukemi prøver å identifisere de mest konsekvente gener. Denne listen er beriket for komponentene i proteasome (ex.

PSMA1

) og spliceosome (ex.

SF3B2

), og omfatter også oversettelse initiering faktor

EIF4H

, og mange heterogene kjernefysiske ribonucleoprotein gener (ex.

HNRNPL

). Vi har validert konsistensen av våre nye kontroll gener i 1933 kreft og normalt vev ved hjelp av offentlig tilgjengelige RNA-seq data, og deres nytte i QRT-PCR-analyse er tydelig demonstrert

Citation. MacRae T, Sargeant T, Lemieux S, Hébert J, Deneault É, Sauvageau G (2013) RNA-Seq avslører Spliceosome og proteasome Gener som mest konsekvente transkripsjoner i humane kreftceller. PLoS ONE 8 (9): e72884. doi: 10,1371 /journal.pone.0072884

Editor: Robert W. Sobol, University of Pittsburgh, USA

mottatt: 03.04.2013; Godkjent: 22 juli 2013; Publisert: 17.09.2013

Copyright: © 2013 MacRae et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet med tilskudd fra Genome Québec (https://www.genomequebec.com/en) og Genome Canada (https://www.genomecanada.ca) til GS, JH, SL og Brian Wilhelm. TS arbeid ble gjort mulig gjennom viktorianske delstatsmyndighetene Operasjonell Infrastruktur Support og australske regjeringen NHMRC IRIISS. TS forskning ble støttet av en NHMRC Program Grant (1.016.647). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser. Dette arbeidet ble støttet av Genome Québec og Genome Canada. Finansiører har ingen økonomisk interesse i denne forskningen. Det er ingen produkter i utvikling eller markedsført produkter å erklære. Forfatterne har nylig levert en foreløpig patentsøknad med tittelen «Metoder og gener for normalisering av genuttrykk» (US Serial nr .: 61/774271, filing dato 07.03.2013). Dette endrer ikke forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer, som beskrevet på nettet i veiledningen for forfatterne.

Innledning

Normalisering av målte nivåene av et gen av interesse mot en gjennomgående uttrykt kontroll-genet er det viktigste handling som fører til nøyaktighet ved kvantitativ revers transkriptase-PCR (QRT-PCR) eksperimenter. Imidlertid, mens kontroll genet nivåer kan variere sterkt avhengig av anvendte prøver, de er vanligvis valgt basert utelukkende på konvensjon [1] – [6]. Ankomsten av RNA-sekvensering (RNA-seq) by Next Generation Sequencing (NGS) av tusenvis av transcriptomes av humane prøver gir nye muligheter for å identifisere og velge kontrollgener som viser den laveste variasjon i prøvesett for å beregne relativ genekspresjon bruker ddCt metode.

leukemi og andre kreftprøvene er utsatt for større variasjon av gen-ekspresjon sammenlignet med normale vev på grunn av klonal seleksjon og genetisk ustabilitet. Gitt den økte interessen for uttrykk profilering og identifisering av markørgener i kreft for personlig medisin, er det et klart behov for optimal normalisering av genuttrykk data ved å identifisere kontroll gener med minst mulig variasjon.

Tidligere studier har vært gjort i forsøk på å finne bedre endogene kontroll gener basert på offentlig tilgjengelige microarray data [7], [8]. I slike undersøkelser, ble mikroarray data fra flere vev og betingelser analysert for å bestemme de gener hvis ekspresjon varieres mildt, avslørende hovedsakelig ribosomalt protein-kodende gener. Next Generation Sequencing (NGS) teknologi har nå erstattet mikromatriser som gullstandarden i global genekspresjonsanalyse. Analysen av gen-ekspresjon ved hjelp av NGS har mange fordeler fremfor mikromatriser, inkludert et større dynamisk område og mindre følsomhet for teknisk variant [9] – [13]. Expression verdier som vanligvis brukes for RNA-seq er normalisert for genet lengde og det totale antall leser for hver prøve (Leser Per kilobase av karakterutskrift per Million kartlagt lyder: RPKM) [9], noe som åpner for enkel sammenligning mellom datasett. RNA-seq data mining gir derfor en ideell metode for å identifisere de mest konsekvente gener for bruk som endogene kontroller.

Her er vi utnytte RNA-seq data fra et panel av 55 Leukemi pasientprøver samt åtte offentlig tilgjengelig RNA -seq datasett fra Kreft Genome Atlas (TCGA), (https://cancergenome.nih.gov/) for å identifisere bedre endogene kontroll gener. Vi først demonstrere variabiliteten av standard kontrollgener samt kandidater foreslått av microarray dataanalyse. Vi identifiserer nye kontrollgener med lavere variasjon på tvers av flere kreft og normale typer vev, avslører først og fremst gener involvert i RNA-spleising og protein nedbrytingsprosesser. Vi viser effektiviteten av et utvalg av disse genene i QRT-PCR. Denne nye panel av svært konsistente kontrollgener vil være til stor nytte i fremtiden kreftforskning og sykdom overvåking.

Materialer og metoder

Pasientprøver

Leukemi prøvene brukes i Leucégène datasett ble samlet av Québec leukemi Cell Bank med en informert skriftlig samtykke og godkjenning av prosjektet ved forskningsetikk styret i Maisonneuve-Rosemont Hospital og Université de Montréal som beskrevet [14]. Menneskelig ledningen blodprøver ble samlet fra friske frivillige etter HEMA-Québec med en informert skriftlig samtykke og godkjenning av prosjektet ved Forskningsetisk styret i Ste. Justine Hospital og Université de Montréal.

RNA-seq

RNA-seq ble utført som beskrevet [14]. Dataene som er omtalt i denne publikasjonen er deponert i NCBI Gene Expression Omnibus [15] og er tilgjengelig gjennom GEO-serien sjonsnummer GSE48173 (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc = GSE48173).

QRT-PCR

Total RNA ble isolert fra leukemi og CD34 + ledningen blod celler ved hjelp Trizol løsning, i henhold til produsentens protokoll (Invitrogen /Life Technologies, Burlington, ON, Canada ). Menneske CD34 + ledningen blod celler ble isolert fra total ledningen blod ved hjelp av RosetteSep Cord Blood CD34 Pre-berikelse kit, etterfulgt av EasySep Menneskelig Cord Blood CD34 + Utvalg kit, i henhold til produsentens retningslinjer (STEMCELL Technologies, Vancouver, BC, Canada), noe som ga 70 -86% CD34 +. CD34 + ledningen blodprøver fra fem forskjellige personer ble umiddelbart brukt for revers transkripsjon. Videre ble CD34 + ledningen blodprøver fra tolv ytterligere personer sortert ved hjelp av FACS Aria celle sorter (Becton Dickinson, San Jose, CA, USA) for å beholde bare CD34_APC + /CD45RA_PE- celler (antistoffer: Becton-Dickinson, San Jose, CA, USA ) før du fortsetter med revers transkripsjon. Revers transkripsjon av total RNA ble utført ved hjelp MMLV revers transkriptase og tilfeldige heksamer henhold til produsentens retningslinjer (Invitrogen /Life Technologies, Burlington, ON, Canada). Expression analyser ble utført for å måle genuttrykk nivåer med 2 × Fast Master Mix (Applied Biosystems /Life Technologies, Burlington, ON, Canada), vanlige primere (Invitrogen /Life Technologies, Burlington, ON, Canada) og en spesifikk probe fra Universal probe Library (Roche Diagnostics, Laval, QC, Canada). QRT-PCR reaksjoner ble gjort på ABI 7900HT Fast Real-Time PCR System (Applied Biosystems /Life Technologies, Burlington, ON, Canada). For RQ (relativ mengde) beregninger, fra en gitt prøve, Ct (terskelsyklus) for hvert gen ble normalisert til kontrollgenet (dCt = Ct Target – Ct Control) og sammenlignet med den midlere DCT fra CD34 + ledningen blod prøve (kalibrator) ved hjelp av ddCt metoden (ddCT = DCT Sample – dCt kalibrator; RQ = 2∧-ddCt). QRT-PCR sykkelforholdene var som følger: 2 minutter ved 50 ° C og 10 minutter ved 95 ° C, etterfulgt av 40 sykluser på 15 sekunder ved 95 ° C og 1 minutt ved 59 ° C

Resultater

Variasjon over de mest brukte kontrollgener i RNA-seq data

for disse studiene, har vi gjort bruk av RNA-seq data innhentet i vår Leucégène prosjektet, som ble kjøpt fra et panel av 55 leukemi pasient prøver (43 AML, 12 ALL) fra Québec leukemi Cell Bank (BCLQ). Vi videre analysert RNA-seq data fra ulike kreftformer og tilhørende normalt vev, inkludert AML, bryst, lunge, tykktarm og nyre, all offentlig tilgjengelig fra Kreft Genome Atlas (TCGA). Den kombinerte TCGA datasett representerer data fra til sammen 1933 pasienter (207 normal vev og prøver 1726 kreft vev) (Tabell S1).

For å vurdere genekspresjon konsistens, vi undersøkt variasjonen i RPKM verdier mellom ulike pasient prøvene på tvers av et gitt RNA-seq datasett. Dette ble oppnådd ved beregning av variasjonskoeffisienten (CV) og den maksimale gangers endring (MFC) for hvert gen på tvers av flere prøver innen hvert datasett; hvor CV representerer standardavviket dividert med den midlere RPKM, og MFC representerer den maksimale RPKM dividert med den minste RPKM verdi.

først analysert ekspresjon konsistensen av 19 vanlig brukte kontrollgener i Leucégène og den kombinerte TCGA datasett. Standard kontrollgener ble rangert fra lavest til høyest CV (tabell 1). Ved bruk av denne tilnærmingen, har vi funnet at den mest konsekvente brukte kontroll-genet, i begge datasettene, var TATA Binding Protein (

TBP

), hvilket ga en CV lik 22,8 eller 44,9%, og et MFC lik 2,5 eller 12,2, i Leucégène eller kombinerte TCGA datasett, respektivt. Ableson (

ABL1

), en styre gen som vanligvis anvendes for leukemi prøver, ga en noe lavere CV i det kombinerte TCGA datasett (39,8%), men hadde en høy MFC (26.9). De fleste vanlig brukte kontrollgener oppviste variasjon, med CV-verdier i området 27,2 til 69,1% i Leucégène (median CV = 42.6%), og 47,0 til 116,2% i de kombinerte data TCGA (median CV = 61.4%). Ikke uventet, bemerket vi at variasjonen av genene var høyere i den kombinerte TCGA data, noe som representerer en mer variert samling av prøver fra fem ulike krefttyper og tre forskjellige typer normale vev. Denne høyere grad av variasjon i den kombinerte TCGA data var mer tydelig i MFC-verdier, som er mer i stor grad påvirket av ekstreme forskjeller i uttrykk i enkeltprøver. MFC-verdiene varierte 2,5 til 31,7 ganger i Leucégène (median = 8,3), og 12,2 til 639,5 ganger i de kombinerte TCGA data (median = 84,0).

Vi har undersøkt uttrykk konsistensen av 12 kandidat videre kontroll gener identifisert av de Jonge

et al.

[7] som den mest konsekvent uttrykte gener i en samling av microarray eksperimenter. Dette genet Listen består av 10 ribosomale proteinkodende gener, samt

SRP14 Hotell og

OAZ1 plakater (tabell 2). Ved hjelp av ovennevnte metode, fant vi at de kandidatene som er identifisert fra mikroarray data viste variasjon lik de av de vanlige husholdningsgener, med en median CV lik 48,5 eller 51,6% og en midlere MFC lik 8,3 eller 44,5, i Leucégène eller kombinert TCGA datasett, henholdsvis. Den mest konsekvente genet fra denne listen var Signal Recognition Particle 14 kDa (

SRP14

). Av notatet, mens disse genene presenteres lignende variasjon i Leucégène datasett i forhold til de mest brukte kontrollgener, gjorde de viser seg å være litt mindre variabel i det kombinerte TCGA datasettet. Men det var fortsatt betydelig variasjon innenfor TCGA data, som viste% CV-verdier opp til 82,0 for

RPS16

og MFC-verdier opp til 1208,3 for

RPL9

.

Valg av forbedrede kontrollgener fra Leucégène RNA-seq data

for å identifisere bedre kontroll gener med den mest konsekvente uttrykket, vi etablert avskjær for% CV og MFC som var lavere enn verdiene oppnådd for de fleste av brukte kontrollgener. Innenfor Leucégène datasett, analyserte vi hele transkriptomet av 21,892 gener og valgt slike som hadde en% CV mindre enn 25 og et MFC mindre enn 5, for to forskjellige områder av uttrykket: betyr RPKM større enn eller mindre enn 100 (men større enn 25). Disse genene ble deretter rangert fra lavest til høyest% CV (tabell 3). Ved hjelp av disse kriteriene, identifiserte vi 20 kandidat kontrollgener med gjennomsnittlige RPKM nivåer høyere enn 100, og 99 kandidatkontrollgener med gjennomsnittlige RPKM nivåer mindre enn 100 (Tabell 3 inneholder de 20 beste genene, den fullstendig liste er tilgjengelig i tabell S2). Den fullstendige listen over 119 gener med sine beskrivelser er tilgjengelig i tabell S4. Av disse valgte vi 15 gener for validering basert på deres høye rangering i Leucégène data, samt å ha relativt konsekvent uttrykk i de forskjellige TCGA datasett (Tabell S3). De nylig identifiserte kandidat kontrollgener er:

HNRNPK, PCBP2, SLC25A3, GNB1, HNRNPL, SRP14 plakater (RPKM 100); og

PSMD6, PSMA1, PSMF1, VPS4A, SF3B2, EIF4H, ZNF207, UBE2I plakater (RPKM 100). EIF4H hadde litt høyere uttrykk i de ulike TCGA datasett, og ble derfor tatt med i panelet av gener med høyere uttrykk for senere analyser.

Funksjonell clustering av kandidatkontrollgener

vurdert den funksjonelle klassifisering av hele vår liste over 119 gener identifisert fra Leucégène datasettet med DAVID algoritme [16], [17] (tabell S5). Interessant, en betydelig del av disse svært konsistente genene falt i to funksjonelle hovedkategorier: (. Ex

SF3B2

) RNA spleising /behandling, med en berikelse score på 5,92; og proteasome /ubiquitin ligase aktivitet, med en berikelse score på 5,76 (ex.

PSMA1

).

Validering av nye kontroll gener i andre RNA-seq kreft datasett

uttrykket konsistens av 15 kandidatkontrollgener ble ytterligere undersøkt i 8 forskjellige datasett fra TCGA, som representerer 6 forskjellige krefttyper og prøvene normalt vev, så vel som i normale navlestrengsblod data oppnådd ved Leucégène (tabell S1). De 15 kandidatkontrollgener viste seg å være meget konsistent uttrykt i alle 4 datasett med normale vev, hver hvilket ga en CV mindre enn eller lik 25%, og et MFC mindre enn eller lik 10 (tabell S3). Av notatet kandidatgener viste høyest konsistens i 17 CD34 + ledningen blodprøver (anriket normal stilk og stamceller), som hver ga CV mindre enn eller lik 15%, og MFCer mindre enn 2. I de tumor datasett, vi observert mer variasjon, med den høyeste CV å være 42% for

SLC25A3

i nyrekreft, og den høyeste MFC være 24 for

SF3B2

i brystkreft. Men de fleste av kandidatgener oppviste lavere variabilitet i alle datasett i forhold til de vanlige husholdningsgener. Vi bestemte en poengsum for hver kandidat gen basert på antall datasett analysert (10 totalt) hvor CV og MFC-verdiene overholdt våre innledende utvelgelseskriterier (CV 25%, MFC 5). Genene ble deretter rangert i henhold til dette poengsystem. Vi har også beregnet uttrykket variasjonen i kandidatkontrollgener ved hjelp av det kombinerte TCGA datasettet (figur 1 og tabell 4). Som med standard kontrollgener, vi observerer mer variasjon i forhold til de enkelte datasett, som gjenspeiler mangfoldet i vevstyper inkludert. Ikke desto mindre, alt 15 av kandidatgener vist konsistens som var større enn de fleste av de vanlig brukte kontrollgener. De CV verdiene var alt lavere enn for

TBP

, men

UBE2I Hotell og

SF3B2

ga CV litt høyere verdier enn

ABL1

. Bare

SF3B2

ga en MFC høyere enn for

ABL1 plakater (tabell 4). Flertallet av kandidatgener hadde CV-verdiene i den laveste 5

th quantile og resten falt under 25

th quantile, i motsetning til de vanlige styre gener, hvorav HPRT1 og GAPDH faktisk var mer variable enn halvparten genene tilstede på lignende uttrykk nivåer (figur 1).

Mean uttrykk representerer gjennomsnittet av alle RPKM verdier for et gitt gen over det kombinerte TCGA datasettet (1933 prøver). Variasjonskoeffisienten er lik standardavviket dividert med den midlere RPKM. Hver prikk representerer en enkelt gen: små grå prikker representerer hele transkriptom; mørke og lys grønn boksene representerer nye kontroll gener med uttrykk som er større enn eller mindre enn 100 RPKM, henholdsvis; røde boksene representerer de angitte standard kontrollgener. Buet blå linjene representerer 5

th

th 25, 50

th og 75

th quantiles av variasjonskoeffisient for et gitt uttrykk nivå (fra mørkest til lysest) beregnet i løpet av vinduer i 2000 rangert gener sentrert om en gitt middel RPKM verdi.

Totalt 15 nylig valgte kontrollgener vise en større grad av konsistens i genuttrykk i forhold til de mest brukte kontrollgener, som bestemmes av RNA -seq. Den høyest rangerte gener, som bestemmes ved å ha lav variasjonskoeffisient (CV) og maksimal ganger endring (MFC) verdier i de fleste datasettene som ble analysert er: HNRNPL og ZNF207, med høy og middels uttrykk klasser, henholdsvis

QPCR validering av nye kontrollgener

for å vurdere effektiviteten av de nylig identifiserte kontrollgener for kvantitativ RT-PCR (QRT-PCR) analyse, utviklet vi analyser for kandidatene ved hjelp av Universal Probe Library (Roche ) (tabell S6). Nye forsøk ble utformet for å strekke seg over introngrenser, og testet for optimal effektivitet av standardkurve analyse.

SRP14

ble ekskludert på grunn av manglende evne til å utforme et intron spenner analyse. QRT-PCR ble utført for hver av de 14 nye gener, så vel som for 5 standardkontrollgener (

GAPDH, ACTB, TBP, HPRT1, ABL1

), på cDNA fra et panel av 14 leukemi-prøver (10 AML, 4 ALL) pluss en CD34 + ledningen blodprøven (med like mengder RNA). Den gjennomsnittlige Uttrykket konsistens (M) av hvert gen ble beregnet ved hjelp av GeNorm algoritmen [18] (figur 2). Ved QRT-PCR, alle 14 av de nylig identifiserte kontrollgener hadde lavere M verdier enn de vanlige kontrollgener, bekrefter at de ble mer konsekvent uttrykt i leukemiprøver, i samråd med RNA-seq data, med

EIF4H

og

PSMA1

å være den mest stabile i denne eksperimentelle tilstand.

Gjennomsnittlig uttrykk konsistens (M) ble beregnet med den GeNorm algoritmen [18] basert på QRT-PCR for det angitte styre gen på et panel av 14 leukemi prøver og en ledning blodprøve. Lavere M verdier knyttet til gener som viste seg å ha mer konsekvent uttrykk nivåer på tvers av de prøvene som brukes.

Selv om det er allment antatt at RNA-seq data korrelerer godt med QRT-PCR data, er det lite bevis tilgjengelig for å løse dette emnet. Vi vurderte derfor uttrykk for

CD33 Hotell og

FLT3 plakater (data ikke vist) i de samme 15 leukemi og ledningen blodprøver for å påvise sammenheng mellom RPKM og delta Ct (DCT) verdier for dette genet. Disse to gener ble valgt på grunn av deres kjente variabilitet av ekspresjon i leukemi. De delta Ct-verdier for hver prøve ble beregnet ved hjelp av enten en standard kontroll gen (

GAPDH

), eller en nylig identifisert kontroll genet (

HNRNPL, EIF4H, PSMA1, eller SF3B2

). Spearman korrelasjonsanalyse av

CD33

ekspresjonsdata vist høy korrelasjon mellom RPKM og dCt (ρ = -0,9714 til -0,9893 for

EIF4H

), unntatt når

GAPDH

ble brukt som styre genet (ρ = -0,775) (figur 3). Analyse med

FLT3

viste lignende korrelasjon. Den lavere grad av korrelasjon mellom RPKM og dCt ved bruk av

GAPDH

som en kontroll genet demonstrerer viktigheten av skikkelig kontroll genet utvalg i QRT-PCR eksperimenter.

dCt representerer forskjellen mellom Ct verdi av

CD33

og som av den angitte styre genet, for en gitt leukemi prøve, målt ved QRT-PCR. RPKM er plottet på en log-2 skala og representerer Leser Per kilobase av karakterutskrift per Million kartlagt leser oppnådd for hver leukemi prøve av RNA-seq. ρ representerer Spearman korrelasjonskoeffisient mellom RPKM og DCT oppnådd med den angitte kontroll genet.

For ytterligere å adressere viktigheten av skikkelig kontroll genet utvalg i QRT-PCR-analyse, beregnet vi den relative kvantifisering ( RQ) verdier for en konsekvent uttrykt gen (

EIF4H

), enten ved hjelp av

GAPDH

eller

HNRNPL

for normalisering (figur 4). Som forventet, RQ av

EIF4H

varierte meget lite mellom leukemi prøver når

HNRNPL

ble anvendt som kontroll-genet (CV = 14%; MFC = 1,6). Imidlertid RQ verdier av de samme prøvene beregnes ved hjelp av

GAPDH

varierte så mye som 10,7 ganger, med RQ-verdier i området 0,22 til 2,29 (CV = 88%). Normalisering med

GAPDH

resulterte i opp til 5,3 ganger forskjell i

EIF4H

uttrykk innenfor enkelte prøver, sammenlignet med

HNRNPL

normalisering. Disse funnene markere betydningen av å bruke mer konsekvent kontroll gener som er identifisert i denne studien i QRT-PCR-analyse, og ytterligere validere våre nylig identifiserte kontrollgener.

RQ representerer relativ kvantifisering av

EIF4H

bestemmes ved QRT-PCR, beregnet ved hjelp av metoden med ddCt enten

GAPDH

eller

HNRNPL

som kontroll-genet, i forhold til CD34 + ledningen blod (CB) prøve. X-aksen viser leukemic prøven ID. CV (uttrykt i prosent) indikerer variasjonskoeffisienten og er lik standardavviket dividert med den midlere RQ av CD33 beregnet ved hjelp av den antydede styre genet. MFC (gjennomsnittlig ganger endring) representerer den maksimale delt på minimum RQ verdi.

Diskusjoner

Evaluering av genuttrykk ved kvantitativ RT-PCR (QRT-PCR) er avhengig av normalisering med en endogene kontroll-genet, som resulterer i relativ kvantifisering av genet av interesse. De fleste forskere bruker kun ett enkelt gen, er valget av som ofte basert utelukkende på konvensjonen [3], [6]. Kontroll genene mest vanlig anvendte opprinnelig ble valgt på grunn av deres høye ekspresjonsnivåer i alle vev i stedet for sin lave variabilitet blant vev [6]. Imidlertid har tallrike undersøkelser vist at disse genene kan variere betydelig [1] – [5], således støping tvil på nøyaktigheten av relative verdier kvantifisering

Mens mange studier har blitt gjort i forsøk på å bestemme bedre metoder for. normalisering av genekspresjon [6], [18] – [20], de fleste forskere fortsatt velger å bruke ddCt metoden med en eller to kontrollgener, uten skikkelig validering av disse kontrollene. Det har vært forholdsvis få studier som tok sikte på å identifisere nye kontroll gener hvis ekspresjon nivåer er mer konsistent enn de som er i vanlig bruk, slik som er presentert her. Et par studier som har blitt gjort med dette felles målet stolt på microarray data meta-analyse [7], [8], mens vår studie bruker neste generasjon sekvensering av data. Begge disse studiene identifiserte hovedsakelig ribosomalt protein (

RP

) gener, mens vår analyse ikke avsløre noen gener fra denne familien. Faktisk viser vi her at de spesifikke genene RP skissert ved de Jonge

et al.

[7] er lik den som er av standard kontroll gener med hensyn til deres variasjon i genekspresjon, som bestemmes av RNA- seq.

RP

gener representerer den mest uttrykt gruppe av gener (ca. 50% av de 100 mest uttrykte gener i RNA-seq data analysert, data ikke vist). Derfor er en mulig forklaring på avviket mellom analyser utført på microarray vs. RNA-seq data kan være at metning av fluorescens signal i mikromatriser har ført til et falskt inntrykk av konsistens. Mens RPKM beregning av korte gener (for eksempel

RP

gener) kan være utsatt for høyere teknisk variabilitet enn lange gener ved høye ekspresjonsnivåer denne effekten er liten, og CV-er dominert av biologisk variasjon. Faktisk, CV-verdiene for

RP

gener i den kombinerte TCGA datasettet viste en god spredning i alle ekspresjonsnivåer (data ikke vist), noe som tyder på at det ikke er noen skjevhet for RP-gener i RNA-seq data.

RNA-seq analyse har mange fordeler fremfor mikromatriser for analyse av global genekspresjon. Mest spesielt fordi RNA-seq leser er digitale snarere enn analog, er det meget lav bakgrunnssignalet, og praktisk talt ingen øvre grense for deteksjon, noe som resulterer i et mye større dynamisk område [9] – [13], [21]. Studier har vist en høyere grad av teknisk reproduserbarhet med RNA-seq løpet av mikromatriser [9], [10], og at RNA-seq uttrykk nivåer korrelerer med bedre QRT-PCR-data, uavhengig av sekvenseringsplattform som benyttes [21]. Microarray data er utsatt for feil som følge av hybridiserings gjenstander, metning av fluorescerende signal, og krever komplisert normalisering [10] – [12]. RNA-seq omgår disse spørsmålene; men andre potensielle kilder for feil, finnes, for eksempel genet lengde bias, skjevhet i sekvensering av GC rike regioner, tekniske problemer i biblioteket forberedelse, eller feil i lesekartlegging [10], [12]. RNA-seq er heller ikke begrenset av tidligere kjennskap til transkriptomet som studeres, noe som åpner for identifisering av nye utskrifter og SNPs.

Her identifiserer vi totalt 119 gener hvis uttrykk er mer konsekvent enn brukte kontroll gener på tvers av et panel av 55 leukemi prøver, som bestemmes av RNA-seq. Funksjonell klassifisering av disse ved DAVID avdekket to hoved berikelse klynger: (. Ex

PSMA1, PSMF1, UBE2I

) gener involvert i proteasome /ubiquitin nedbrytningsmekanismer, og gener som er involvert i RNA-spleising og behandling (ex

SF3B2

,

SRSF9

). I tillegg til disse funksjonelle klynger, fant vi 12 gener som er involvert i transkripsjon og 7 som er involvert i oversettelses (ex.

EIF4H

). En fremtredende gruppe av gener identifisert (n = 8) er de heterogene kjernefysiske ribonucleoproteins (ex.

HNRNPL, HNRNPK

), hvorav noen er også involvert i ovennevnte cellulære prosesser. Av notatet, studiet av Popovici

et al.

[8] også identifisert to

hnRNP

gener, en proteasome subenhetgen,

Ubiquitin B Hotell og

C

og

EIF4H

som å ha svært konsistent uttrykk over ti brystkreft microarray datasett. I samsvar med studier fra de Jonge og Popovici, vi også identifisert

SRP14

som en god kontroll genet. Selv

SRP14

var en sterk kandidat, var vi ikke i stand til å utforme et intron spennende QRT-PCR-analyse for det, og det ble derfor ikke inkludert i våre valideringsforsøk.

Av de 119 genene valgt fra leukemi RNA-seq data, 14 ble valgt ut basert på deres konsistens i andre RNA-seq datasett (TCGA) for validering av QRT-PCR. Dette var nødvendig for å ta hensyn til eventuelle skjevheter iboende i RNA-seq prosedyre, slik som valg av poly-A + RNA, cDNA-bibliotek fragmentering og bearbeiding, samt eventuelle skjevheter innført bioinformatically [12]. Likevel fikk vi bekreftet at alle 14 gener testet viste seg å være mer konsekvent ved QRT-PCR i et utvalg av 14 leukemiprøver enn de vanlige kontrollgener. Videre har vi vist at RPKM verdier oppnådd ved RNA-seq korrelere godt med DCT-verdier oppnådd ved QRT-PCR, og at denne korrelasjonen er avhengig av kontroll-genet anvendt for dCt beregning. Vi har også klart å demonstrere effekten av skikkelig kontroll genet utvalg i QRT-PCR eksperimenter, siden beregning av relativ kvantifisering verdier (RQ) av

EIF4H plakater (en svært konsekvent gen av RNA-seq) varierte betydelig når

GAPDH

ble anvendt i motsetning til våre nye kontroll,

HNRNPL

.

Kvantitativ RT-PCR er i økende grad anvendes til diagnostiske og sykdomsovervåkingsformål, så som evaluering av minimal restsykdom (MRD) i leukemi. Gitt den svært sensitive natur disse analysene, er det av største betydning å bruke best mulig kontroll genet for normalisering. Ableson (

ABL1

) har tidligere vist seg å være den mest konsekvente styre gen testet for påvisning MRD [22]. Men kontroll gener identifisert her hele viste seg å være mer konsekvent enn

ABL1

både av RNA-seq og QRT-PCR av leukemi prøver, noe som gjør dem ideelle kandidater for bruk i MRD.

Selv om kontrollgener som presenteres her ble opprinnelig valgt på grunn av deres konsistens i leukemiprøver, har vi valgt de som også var relativt konsekvent i andre krefttyper, samt tilhørende normale prøver, og dermed potensielt forlenge sin nytte som generelle kontroll gener for de fleste menneskelige vev. Basert på våre valideringsstudier, forventer vi at våre nye kontrollene vil utkonkurrere de vanlige kontroll gener i en rekke prøvetyper. Men for andre krefttyper, kan bedre kontroll-gener eksisterer, noe som kan bestemmes ved å bruke den samme fremgangsmåten som brukes her. Det vil være viktig for forskere å validere disse nye kontrollene før deres bruk med flere ulike vevstyper.

Det ville være interessant å vurdere konsistensen av våre nye kontroll gener i mus eller andre modellorganismer videre. Til dags dato er det mindre offentlig tilgjengelige RNA-seq data tilgjengelig for ikke-menneskelige celletyper. Selv om grupper som Encyclopedia of DNA Elementer (ENCODE) Consortium gir enkel tilgang til et mangfold av NGS data med mange musecelletyper representert [23], de fleste RNA-seq eksperimenter har bare 2-3 replikater, i motsetning til det store antall av humane prøver som brukes i kreft Genome Atlas (TCGA) datasett. Som NGS teknologien blir mer allment tilgjengelig, kan det snart være mulig å vurdere konsistensen av disse kontroll gener i andre organismer.

I konklusjonen, har vi gjort bruk av RNA-seq data for å identifisere 14 nye kontroll gener med konsekvent uttrykk i ulike krefttyper. Disse genene, inkludert

HNRNPL

,

EIF4H Hotell og

PSMA1

, ble validert ved QRT-PCR for bruk som kontrollgener i leukemi.

Støtte Informasjon

Tabell S1.

RNA-seq datasett analysert i denne studien. Leucégène, RNA-seq data generert i samarbeid mellom Leukemi Cell Bank of Quebec og The Genomisk Kjerne Facility ved institutt for forskning i immunologi og kreft (IRIC); . TCGA, The Cancer Genome Atlas Portal (https://cancergenome.nih.gov/)

doi: 10,1371 /journal.pone.0072884.s001 plakater (XLSX)

Tabell S2.

Kandidat kontroll gener identifisert i Leucégène datasett.

Legg att eit svar