PLoS ONE: Tyde Genomisk Endringer i tykktarmskreft gjennom Transkripsjonell Undergruppe-basert nettverk Analysis

Abstract

Både transkripsjonen subtype og signalnettverksanalyser har vist seg nyttig i kreftgenomforskning. Imidlertid er disse to fremgangsmåter anvendes vanligvis isolert i eksisterende studier. Vi grunn at tyde genomisk endringer basert på krefttranskripsjons subtyper kan bidra til å avsløre subtype spesifikk driver nettverk og gi innsikt for utvikling av tilpassede terapeutiske strategier. I denne studien har vi definert transkripsjons subtyper for tykk- og endetarmskreft (CRC) og identifiserte driver nettverk /trasé for hver subtype. Bruk av konsensus clustering til en pasient kohort med 1173 prøver identifisert tre transkripsjons undergrupper, som ble validert i en uavhengig kohort med 485 prøver. De tre undertyper var preget av ulike transkripsjons programmer knyttet til normal voksen tykktarm, tidlig kolon embryoutvikling, og epitelial mesenchymale overgang, henholdsvis. De viste også statistisk ulike kliniske utfall. For hver subtype, kartla vi somatiske mutasjoner og kopi nummer variasjons data på en integrert signalnettverk og identifiserte subtype spesifikk driver nettverk ved hjelp av en random walk-basert strategi. Vi fant ut at genomisk endringer i Wnt signalveien var vanlig blant alle tre undertyper; imidlertid unike kombinasjoner av hovedbane endringer inkludert Wnt, VEGF og Notch kjørte forskjellige molekylære og kliniske fenotyper i ulike CRC subtyper. Våre resultater gir en helhetlig og integrert bilde av menneskelig CRC som linker genomisk endringer i molekylære og kliniske konsekvenser, og som gir innsikt for utvikling av tilpassede terapeutiske strategier for ulike CRC subtyper

Citation. Zhu J, Wang J Shi Z, Franklin JL, Deane NG, Coffey RJ, et al. (2013) tyde Genomisk Endringer i tykktarmskreft gjennom Transkripsjonell Undergruppe-basert nettverk analyse. PLoS ONE 8 (11): e79282. doi: 10,1371 /journal.pone.0079282

Redaktør: Amanda Ewart Toland, Ohio State University Medical Center, USA

mottatt: 19 august 2013; Godkjent: 20 september 2013; Publisert: 15.11.2013

Copyright: © 2013 Zhu et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Finansiering fra USA Public Health service gir GM088822, CA126479, CA159988, CA095103, CA069457, DK052334, og CA068485. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

tykktarms~~POS=TRUNC kreft~~POS=HEADCOMP (CRC) er en viktig årsak til global kreft sykelighet [1]. I løpet av de siste tre tiårene har molekylærgenetiske studier avdekket noen kritiske mutasjoner underliggende patogenesen av CRC [2]. Nylig, med utviklingen av high-throughput sekvensering teknologier, tusenvis av genetiske endringer har blitt identifisert i CRC. I tillegg til et begrenset antall kjente ofte muterte onkogener eller tumor-suppressor gener som APC, KRAS, PIK3CA og TP53, er et mye større antall gener mutert til en lav frekvens [3]. Det har blitt foreslått at somatiske mutasjoner er funnet i kreftformer er enten «drivere» eller «passasjerer» [3]. Hvordan skille drivere fra passasjerer blant tusenvis av lavfrekvente mutasjoner har blitt en stor utfordring i kreftforskning.

Fordi signalveier og nettverk framfor enkeltgener styrer løpet av tumordannelse og progresjon [4], flere studier har brukt utvalgt av eksperter veier til å tolke høy gjennomstrømning genomiske forandringer [3], [5], [6]. Selv nyttig, er disse metodene begrenset av dekning og fullstendighet av kuratert trasé [7]. Derfor nettverksbaserte tilnærminger som HotNet [8] og NetWalker [9] har blitt utviklet, med vellykket bruk til identifisering av subnett som er beriket med genomisk variasjoner [6], [10].

Nettverk -baserte metoder har begynt å tilveiebringe et system nivå forståelse av komplekse genomiske variasjoner. Men fordi eksisterende studier vanligvis vurdere alle tumorprøver sammen i motsetning til vanlige kontroller, har de en tendens til å identifisere signale nettverk som er felles for alle tumorprøver og kan mislykkes i å løse heterogenitet blant kreft genomer.

Transkripsjonell subtype analyse har gitt stor innsikt i sykdommen biologi, prognose og personlig terapi for ulike krefttyper [11], [12]. Interessant, selv om begge transkripsjons subtype og signalenettverksanalyser har vist seg nyttig i kreftgenomforskning, disse to tilnærmingene er vanligvis brukes i isolasjon i eksisterende studier. Vi grunn at tyde genomisk endringer basert på kreft transkripsjons subtyper kan bidra til å avsløre subtype spesifikk driver nettverk og gi innsikt for utvikling av tilpassede terapeutiske strategier.

For CRC, den TCGA (The Cancer Genome Atlas) nettverk nylig rapportert en klassifisering av tre transkripsjonelle undertyper, som ble navngitt som «MSI /CIMP», «invasiv», og «CIN», henholdsvis [13]. Imidlertid, er analysen begrenset av flere faktorer. Først ble subtypene identifisert fra en relativt liten pasient kohort med bare 220 prøver, og ingen uavhengig validering ble utført, slik at det generelle i det subtype klassifisering uprøvd. Ved siden av, på grunn av mangel på overlevelsesdata med nok oppfølging tid for TCGA kullet, forblir kliniske relevansen av undertypene som skal etableres. Det er ikke klart av hvilke kriterier de «invasive» subtype ble merket og om det er støttet av biologiske og kliniske data. Videre, selv om det er veldig interessant å knytte globale genomiske funksjoner som mikro Ustabilitet (MSI), CpG island metylering fenotype (CIMP), og kromosom ustabilitet (CIN) med transkripsjons undergrupper, er det fortsatt en stor utfordring å oversette disse assosiasjonene til målrettede therapeutics for ulike CRC subtyper.

i denne studien, hypoteser vi at svært heterogene genomisk endringer observert i CRC kan konvergere mot et begrenset antall distinkte mekanismer som driver unike genuttrykksmønster i ulike transkripsjons subtyper. Først, utvidet vi TCGA funnene ved å utføre subtype funn basert på genuttrykk data fra 1173 CRC tumorprøver akkumulert løpet av det siste tiåret, validerte identifisert undergrupper i en uavhengig kohort med 485 prøver, og tilknyttet hver subtype med unik biologi og klinisk utfall. Deretter kartla vi somatisk mutasjon og kopi nummer variasjon (CNV) data på en integrert signalnettverk og identifisert en driver nettverk for hver subtype. Antatt nettverk og tilhørende veier korrelert perfekt med nedstrøms transkripsjonsprogrammer karakteristiske for hver subtype, og gir sterke indisier for effektiviteten i vår tilnærming, og gyldigheten av vår slutning. Basert på den unike kombinasjonen av sti endringer og kliniske utfall, har vi foreslått konkrete terapeutiske strategier for ulike CRC subtyper.

Materialer og Metoder

datainnsamling og prosessering

Som vist i tabell S1 i File S1, ble genuttrykk data for 1173 mennesker CRC prøver ned fra databasen Gene Expression Omnibus (GEO) for å bygge et funn kohort. Genuttrykk data for ytterligere 485 mennesker CRC prøver ble lastet ned fra GEO database, ArrayExpress Arkiv og Kreft Genome Atlas (TCGA) for å lage en validerings kohort. For hver Affymetrix genekspresjon datasett ble Robust multichip Analysis (RMA) algoritme [14] brukes for databehandling, inkludert quantile normalisering og log2-transformasjon. For å gjøre det ekspresjonsnivået sammenlignbar mellom datasettene, vi ytterligere normalisert ekspresjonsnivået av hver sonde ligger i hver prøve i forhold til den gjennomsnittlige ekspresjon i alle prøvene i det samme datasettet, ved å trekke dens gjennomsnittlige ved at datasettet fra hver av dets ekspresjon målinger [ ,,,0],15]. Som vist i fig S1 i File S2, er uttrykket nivå tvers over datasettene kan sammenlignes etter denne normalisering. Deretter ble probe sett identifikatorer tilordnet genet symboler basert på kartlegging filen fra tilsvarende databaser. Probe sett kartlagt til flere gener ble eliminert. Når flere probe-sett ble kartlagt til den samme genet, ble median brukes til å representere genekspresjon nivå. For TCGA genuttrykk data basert på Agilent 244 K Gene Expression Microarray, Level 3 genuttrykk data (log2 lowess normalisert (Cy5 /Cy3) kollapset av genet symbol) ble lastet ned og de uttrykk for hvert gen ble også bety sentrert. 10481 genet symboler vanlig i alle datasett ble valgt for senere analyser.

For å undersøke genekspresjon endringer i CRC prøvene i forhold til normal slimhinne prøver, genuttrykk data for disse 182 prøvene ble normalisert sammen med RMA-algoritmen [14 ]. Deretter normalisert vi uttrykket nivået av genet g i hver prøve i forhold til gjennomsnittlig uttrykk i de fem normal slimhinne prøver, ved å trekke sin gjennomsnittet i de normale prøver fra hver av sine uttrykk målinger.

For å karakterisere den embryonale utvikling av tykktarms, gjennomførte vi en gang kurs microarray undersøkelse ved hjelp av innavlet C57BL /6 (Jackson Laboratories, Bar Harbor, ME) mus (Gene Expression Omnibus, GSE38831). Denne studien ble utført i henhold til dyr omsorg og retningslinjer for bruk og godkjenning av Vanderbilt Institutional Animal Care og bruk Committee (IACUC). Musene ble overvåket gjennom hele forsøket for tegn på stress i løpet av sin normale livssyklus, selv om ingen eksperimentelle manipulasjoner av disse musene ble utført i tillegg til avl. Hvis tegn på stress ble sett i løpet ukentlig overvåking, ble musene avlivet ved CO2 kvelning fulgt ved halshugging for å redusere dyrs lidelser. Syv prøvene tilsvarer musen colonic utvikling fra E13.5 til E18.5 og voksen (åtte ukers barsel) ble samlet. Embryonic tykktarm innsamling og forberedelse RNA ble utført som tidligere beskrevet [16]. RNA prøver ble sendt til Vanderbilt Funksjonell genom Shared Resource (FSGR, https://array.mc.vanderbilt.edu), der RNA ble renset med bruk av RNeasy kit (Qiagen, alencia, CA) og hybridisert til Affymetrix mus Genome 430 2.0 Genechip Expression Arrays (Santa Clara, California) i henhold til produsentens instruksjoner. RMA-algoritmen ble brukt for data normalisering. Muse genet symboler ble kartlagt til menneskelige gen-symbolene ved Menneskelig og Mouse Orthology liste tilgjengelig fra Mouse Genome informatikk (https://www.informatics.jax.org/).

CNV data og somatiske mutasjon data for TCGA prøver med matchet genuttrykk data ble lastet ned fra TCGA nettsiden.

signalveier kuratert av NCI-Nature, Cancer Cell kart, og REACTOME ble lastet ned fra Pathway Commons-databasen (siste versjon i juni 2011). BioCarta signalveier ble lastet ned fra NCI Pathway Interaksjon Database (jun 2011). Integrering trasé fra alle de ovennevnte kilder resulterte i et signaleringsnett inneholdende 3152 gener og 47,833 kanter. Dens største komponenten inneholdt 3078 gener og 47,772 kanter, som ble brukt til den slutning av oppstrøms driver delnettverk.

Co-uttrykk Nettverk og Modul Analyse

Basert på genuttrykket matrise med 10,481 gener og 1173 prøver for oppdagelsen årsklasse, beregnet vi Pearsons korrelasjonskoeffisienter for alle 54,920,440 genet parene. Byggingen av en co-uttrykk nettverket krever et passende utvalg av en terskel for de parvise korrelasjonskoeffisienter. For å sikre den biologiske betydning av den konstruerte nettverk, anvendte vi en kunnskapsstyrt metode for terskelvelge [17]. Spesielt evaluert vi funksjonelle likheten mellom hvert par av gener basert på Gene ontologi (GO) biologisk prosess merknad bruker Resnik semantiske likheten [18]. De gjennomsnittlige funksjonelle likheter med genpar på forskjellige korrelasjons områder ble beregnet og plottet (figur S2 i File S2). Basert på tomten, var den absolutte Pearsons korrelasjonskoeffisient på 0,45 valgt for thresholding fordi en kraftig økning i funksjonell likheten oppstår over denne terskelen for både positive og negative sammenhenger. Basert på terskelen ovenfor, ble et gen co-uttrykk nettverk med 8546 gener og 508,071 kanter konstruert. Vi brukte vår tidligere utgitt iterativ Clique Enumeration (ICE) algoritme [17] for å identifisere relativt uavhengige co-uttrykk moduler fra genet co-uttrykk nettverk (figur 1A og tabell S2 i File S1). Å fokusere på store transkripsjonsprogrammer, kreves vi hver modul for å ha minst 20 unike gener.

(A) Study design. En detaljert beskrivelse av metoder og data som brukes i studien kan finnes i tabell S2 i File S1; (B) Oversikt over hvilken metode som brukes for å utlede oppstrøms driver subnett for enkelte undergrupper.

Transkripsjonell Undergruppe Identifikasjon

For subtype oppdagelse, utførte vi konsensus gjennomsnittlig sammenhengen hierarkisk clustering [19] , basert på gener i de ovenfor angitte moduler og alle funn prøver (Figur 1A og tabell S2 i File S1). Den clustering ble utført med GenePattern [20], med de samme parametrene som [12]. For de identifiserte undergrupper av CRC, ble SigClust utført for å vurdere betydningen av alle parvise kombinasjoner [21] (figur 1A og tabell S2 i File S1). Å identifisere prøver som ikke kan representere sin undergruppe godt, evaluert vi hvor godt hver prøve ligger innenfor sin undergruppe. Spesielt for prøve

i

, vi beregnet

en (i)

som den gjennomsnittlige avstanden mellom

i

og alle andre prøver fra undergruppen der

i

tilhører. Deretter ble den gjennomsnittlige avstanden mellom

i

og alle prøver fra hver av de andre undergruppene beregnet henholdsvis, og den minste gjennomsnittlig avstand,

b (i), ble

identifisert. Deretter beregnet vi silhuetten bredde

s (i)

som definert av:

s product: (

i

) = (

b product: (

i

) –

en product: (

i

)) /max (

en product: (

i

),

b

(

i

)) [22]. Prøver med en positiv silhuett verdi ble beholdt som «kjerne» prøver for den tilsvarende undertype (figur 1A og tabell S2 i File S1). Denne analysen ble utført med silhuetten pakken i R.

Bygging av Undergruppe Klassifiserings og tildele Signatur Gener for hver Undergruppe

Vi brukte en nærmest krympet Tyngdepunktet klassifisering metode, Prediction Analyse av mikromatriser (PAM) [23] for å bygge classifiers for ovenfor definerte undergrupper. Vi kjørte 10-fold kryssvalidering 100 ganger for å evaluere resultatene av klassifikasjonsapparater med forskjellige antall gener. For den valgte klassifikator, brukte vi følgende regel å tildele hvert gen i sorter til en undertype. Først gener betydelig opp regulert (én hale t-test,

p

0,05) i en undertype i forhold til alle andre undergrupper ble definert som opp-regulerte gener for dette undertype. Deretter ble de resterende gener som ble betydelig ned regulert i en undertype i forhold til alle andre undergrupper definert som nedregulert gener for dette undertype. For hver subtype, ble både oppregulert gener og nedregulert gener anses som signatur gener.

Driver Subnett- Identifikasjon

Vi ansatt Netwalker algoritmen [9] for fører subnettet identifikasjon ( Figur 1A og tabell S2 i File S1). Gitt den integrerte signalnettverk og begynne sannsynligheter for hver node tildelt basert på genomisk variasjon status, algoritmen brukt random walk med restart teknikk [24] for å beregne en endelig prioritering poengsum for hver node basert på steady state sannsynligheter. Vi setter opp start sannsynlighetene for alle 3078 gener basert på deres somatisk mutasjon og CNV informasjon for hver subtype separat. Som vist i figur 1B, beregnet vi to binære matriser basert på somatisk mutasjon data (1 for ikke-stille mutasjon, 0 for andre) og CNV data (1 for gener innenfor gevinster og tap regioner med forholdet ≥1.2 eller ≤0.8, 0 for andre) for hver subtype separat.

for å tildele høyere vekt til genomisk endringer observert i prøver med færre antall endringer og endringer observert i flere prøver, vi utførte kolonnevis normalisering fulgt av rad-messig samandrag for hver binær matrise, og således transformert hver matrise inn i en vektor. For en subtype, la oss betegne

n

som det totale antall gener og

m

som det totale antall prøver. Den somatisk mutasjon status av genet

I

er definert som:

, hvor er verdien for genet

i

i prøven

j

i somatisk mutasjon matrise. Tilsvarende CNV status av genet

I

er definert som: hvor er verdien for genet

i

i prøven

j

i CNV matrisen. Neste, og for hvert gen ble kombinert sammen med lik vekt. Begynn sannsynlighet for genet

i

() blir dermed definert som:

For NetWalker algoritmen, omstart sannsynlighet ble satt til 0,5 og konvergens ble bestemt av hvor stor er sannsynligheten for genet

jeg

t

th iterasjon.

for å vurdere den statistiske betydningen av resultatet for hvert gen, bygget vi 1000 sett med tilfeldig permuted start sannsynligheter og genererte 1000 sett av tilfeldige skårer. For hvert gen i nettverket, ble en lokal

p

verdi estimert ved å sammenligne den virkelige stillingen til tilfeldige poengsummer fra det samme gen, og en global

p

verdi ble beregnet ved å sammenligne den virkelige stillingen tilfeldige score fra alle genene [9]. En betydelig global

p

verdien angir den generelle betydningen av knutepunktet med hensyn til inngangs starte sannsynligheter, mens en betydelig lokal

p

verdi sørger for at sammenhengen er ikke bare på grunn av nettverkstopologi. For hver subtype, dannet den største tilkoblede komponenten av de betydelige gener (lokal

p

0,05 og global

p

0,05). Ble rapportert som driver subnettet

Survival Analysis

Standard Kaplan-Meier overlevelseskurver ble generert for CRC undergrupper, og overlevelse forskjell mellom gruppene ble statistisk evaluert ved bruk av log-rank test. De univariate og multivariate Cox proporsjonal fare regresjonsanalyser ble brukt for å vurdere potensielle uavhengige prognostiske faktorer assosiert med overlevelse. Alle disse analysene ble utført ved hjelp av overlevelsespakke i R.

GO og KEGG Pathways berikelse Analyse

GO og KEGG pathway berikelse analysene ble utført ved hjelp av WebGestalt, der den hypergeometriske test ble brukt for anriking analyse og Benjamini-Hochberg prosedyren ble brukt til å kontrollere False Discovery Rate (FDR) [25].

Nettverk Visualisering

Networks ble visualisert ved hjelp Cytoscape [26].

Resultater

Identifikasjon av tre transkripsjon~~POS=TRUNC subtyper i CRC

Vi brukte en veletablert metode, Consensus Clustering [19], for sikker identifikasjon av transkripsjons subtyper [12], [27]. Vanligvis er gener med høy uttrykk varians over en prøve kohort valgt å klynge prøvene [28]. Dette genet valgmetoden er ikke i stand til å skille biologisk avvik fra teknisk varians. Fordi feilregulering av en nøkkel signalveien fører vanligvis til koordinerte uttrykk endringer for nedstrømsgener, grupper av gener co-uttrykt over en prøve kohort (dvs. co-uttrykk moduler) kan bedre reflektere underliggende biologiske avvik. Derfor må vi først bygget et gen co-uttrykk nettverk og identifisert 33 co-uttrykk moduler med totalt 1472 unike gener fra et funn kohort med 1173 CRC prøver (Tabell S1 i File S1). Deretter utførte vi konsensus clustering bruker gener fra disse modulene, evaluert klyngen betydning og identifiserte kjerneprøver for hver klynge som tidligere beskrevet [12].

Ifølge konsensus matriser og empiriske kumulative fordelingsfunksjon (CDF) tomter i figurene S3A og S3b i File S2 økte clustering stabilitet betraktelig fra 2 klynger til 3 klynger mens ingen åpenbar økning ble funnet for mer enn 3 klynger, noe som tyder på at 1173 CRC prøvene kunne robust delt inn i tre grupper. Vi evaluerte ytterligere klynge betydning hjelp SigClust [21] og bekreftet statistisk signifikans for alle tre klynger (Figur S3C i File S2). Etter Verhaak et al. [12], definert vi «kjerneprøver» for hver subtype som de med høyere likhet med sin egen klasse enn for andre klasser og identifisert 985 kjerneprøver basert på deres positive silhuetten bredde [22] (figur S3D i File S2).

Deretter brukte vi PAM å bygge en klassifikator for de ovenfor definerte undergrupper. Krympingen i PAM utfører automatisk gen utvalg og kan potensielt gjøre klassifikator mer nøyaktig ved å redusere effekten av støyende gener. Den minste gjennomsnittlige kryssvalideringsfeil på 0,5% ble oppnådd ved å bruke alle de 1472 genene basert på 100 ganger av 10-ganger kryssvalidering, noe som tyder på at støyende gener kanskje allerede har blitt fjernet i vår koekspresjon modulbasert genet utvelgelsesprosedyre. Med avslappet feilrate krav, PAM var i stand til ytterligere å redusere antall gener i sortereren. For eksempel når feilraten økt til 9%, ble en klassifikator med 853 gener rapportert. Classifiers med redusert genet tall er vanligvis foretrukket i klassifiseringsoppgaver; men fordi et viktig mål i denne studien var å forstå biologien som ligger under ulike undergrupper, vi valgte 1472-genet klassifikator å forenkle nedstrøms GO berikelse analyse.

Ved hjelp av metoden beskrevet i materialer og metoder, fant vi 449 signatur gener for subtype 1 (rød linje i figur 2, med 402 gener oppregulert og 47 gener nedregulert), 505 signatur gener for subtype 2 (grønn strek i figur 2, med 500 gener oppregulert og 5 gener ned- regulerte) og 512 signatur gener for subtype 3 (blå linjen i figur 2, med 480 gener oppregulert og 32 genene nedregulert, Tabell S3 i File S3). I tillegg ble seks gener som ikke kan defineres som signatur gener basert på våre kriterier merket med svart strek i figur 2 (øverst på kartet varmen).

(A) Bruke 1472 utvalgte gener, 985 kjerneprøver i oppdagelsen kohorten ble gruppert i tre undergrupper. For hver subtype, ble prøver og signatur gener merket med samme farge (rød for subtype 1, grønn bar for subtype 2 og blå bar for subtype 3). Biologiske prosesser beriket med signatur gener for hver subtype vises ved siden av fargefeltene; (B) Bruke samme bestilling av signatur gener og CRC subtyper (A), ble genuttrykk mønster for 485 CRC prøvene fra valideringen kohorten vist.

For ytterligere å teste den biologiske relevansen av signaturen gener, beregnet vi parvis funksjonell likhet for alle genene i en signatur basert på GO biologisk prosess merknad bruker Resnik semantiske likheten [18]. For hver signatur, den gjennomsnittlige parvis funksjonelle likhet av alle signatur genene var betydelig høyere enn for det samme antall gener tilfeldig valgte fra de 1472 gener (p 0,001 til undertype 1, p = 0,018 for subtype 2, og p = 0,001 til subtype 3, permutasjon test).

liten kryssvalidering feil i PAM analyse, karakteristiske uttrykk mønstre for hver undertype som er vist i figur 2, og betydelig funksjonell sammenheng av signaturen gener for hver undertype indikerer at vår CRC subtype klassifiseringen er både nøyaktig og godt støttet av ulike uttrykk mønstre av funksjonelt relaterte signatur gener.

å sammenligne våre co-uttrykk modulbasert tilnærming for genet utvalg med enkelt gen-basert metode, vi gjentok den ovenfor angitte gruppering analyse basert på den samme antall gener (1472) med den største median-absoluttavvik på tvers av 1173 sampler. Sammenlignet med vår metode, single-genet basert metode generert større gjennomsnittlig kryssvalideringsfeil i PAM analyse (2% vs 0,5%). Videre har de fleste av de undertypespesifikke signaturer fremstilt ved enkelt-gen basert metode viste ingen signifikant funksjonell sammenheng sammenlignet med tilfeldige genet lister av samme størrelse.

Validering av de tre CRC Subtypes i en uavhengig kohort

For å validere CRC subtyper oppdaget ovenfor, vi satt sammen en uavhengig genekspresjon datasett med 485 CRC prøver fra seks ekstra ressurser (Tabell S1 i File S1). De subtype etikettene valideringsprøvene ble beregnet med de ovennevnte konstruert PAM klassifikator med sannsynlighetene for enkeltprøver gitt i Tabell S4 i File S3. Ved å bruke den samme ordning av gener og CRC-undertyper som er benyttet i figur 2A, ble genekspresjon for de 485 prøver fra valideringssettet anskueliggjort i figur 2B. En visuell sammenligning mellom 2A og 2B tyder på at de tre undertyper av CRC identifisert i oppdagelsen sett kan robust gjenoppdaget i valideringen datasett.

Retning Gene Expression Endrer

For subtype identifikasjon, fokuserte vi på de relative genuttrykk endringer på tvers av alle kreftprøver. For ytterligere å klargjøre den absolutte retning av genekspresjon forandringer, sammenlignet vi uttrykket av gener signatur i hvert CRC subtype til deres ekspresjon i normale tykktarm slimhinneprøver. Som vist i figur 3A og tabell S5 i File S1, generelt, signatur gener for subtype 1 ble oppregulert i subtype 1 men nedregulert i subtype 2 og 3 i forhold til det normale. Signatur gener for subtype 2 var tydelig nedregulert i subtyper 1 og 3 i forhold til det normale, men den nedregulering var svakere i subtype 2. signatur gener for undertype 3 var oppregulert i alle de CRC-prøvene sammenlignet med normalt, med den sterkest oppregulering observert for subtype 3, og bare moderat oppregulering observert for subtype 2. lignende trend ble observert når man sammenligner TCGA prøver fra valideringen kohort med 22 normale prøver fra TCGA.

(A) uttrykk for signatur gener i tre CRC undertyper i forhold til uttrykk i normale prøver. Varmen kartet ble basert på 1472 utvalgte gener og genuttrykk datasett GSE17536 med 177 menneskelige CRC prøver og fem normale slimhinneprøver. (B) Korrelasjonen mellom genuttrykksmønstrene av tre undertyper CRC og uttrykket mønster av ulike stadier av mus tykktarm utvikling basert på tidsrelaterte gener. Tidsseriene er indikert på den horisontale aksen, mens Pearson korrelasjonskoeffisientene er angitt på den vertikale aksen (Points representerer Pearson korrelasjonskoeffisienter, barer representerer 95% konfidensintervall). (C) Uttrykket av EMT signatur gener i tre CRC undergrupper.

Unik Cancer Biology for annen CRC Subtyper

Det har vært antydet at CRC tumorigenesis og progresjon rekapitulerer embryoutvikling og epitel mesenchymale overgang (EMT) programmer [29], [30]. For å få innsikt i den biologiske betydningen av de tre CRC subtyper undersøkte vi genekspresjon av de tre undergrupper innenfor sammenhenger av normal tykktarm utvikling og EMT.

Først vi generert en genuttrykk datasett (se Materialer og Metoder ) av normal mus kolon utvikling (E13.5-E18.5 og voksen) og definerte utviklingsrelaterte gener som top1000 gener med den største median absolutte avvik på tvers av ulike tidspunkter blant de med høy korrelasjon til utviklings tidspunkter (absolutt Spearman korrelasjonskoeffisient 0,9). Basert på utviklingsrelaterte gener, vurderte vi sammenhengen mellom uttrykk mønstre av forskjellige CRC subtyper og ulike utviklings tidspunkter. Nærmere bestemt, for hvert par av CRC subtype og utviklingsmessige tidspunkt, beregnet vi Pearsons korrelasjonskoeffisient mellom undertype centroids av utviklingsrelaterte gener og uttrykket nivåer av de samme genene ved tidspunkt. Som vist i figur 3B, genuttrykksmønster av undertype 3 (blå linje) var mer lik den i den tidlige fasen av mus tykktarm utvikling, mens genuttrykksmønstrene av subtype 2 (grønn linje) var mer lik den til den voksne tykktarmen. Gående, GO anrikning analyse viste at subtype 3 signaturen ble betydelig anriket med gener i spredningsrelaterte prosesser som cellesyklusen (FDR = 9,95 x 10

-24), DNA-metabolisme (FDR = 9,18 x 10

-12) og mRNA metabolske prosessen (FDR = 2,63 × 10

-7) (figur 2). Det er vel kjent at tidlige embryoutvikling er karakterisert ved rask celleformering. På den annen side ble undertype 2 signaturen betraktelig beriket med gener som er involvert i differensiert funksjoner som kreves for en mer moden utviklingsstadium, som for eksempel glatt muskelkontraksjon (FDR = 7,00 x 10

-4) og nevrologiske system prosess (FDR = 1,56 × 10

-14). Disse genene er undertrykt i udifferensierte embryonale celler [31], som var i overensstemmelse med deres kraftig redusert uttrykk i tre, men ikke subtype 2 (figur 3A). Samlet utgjør disse resultatene tyder på at subtype 3 svulster reaktivert tidlig kolon utviklings genuttrykk programmer, mens subtype 2 svulster bedre vedlikeholdt genuttrykk programmer i normal voksen kolon.

Deretter undersøkte vi uttrykket mønster av en tidligere publisert EMT signatur [30] i disse tre undertyper. Signaturen ble avledet fra en mikroarray datasett [30] som sammenligner cellelinjer som oppviser en mesenchymale lignende genuttrykksmønstrene (høye nivåer av VIM og lave nivåer av CDH1) sammenlignet med cellelinjer med en epitelial-lignende genuttrykksmønstrene (lave nivåer av VIM og høye nivåer av CDH1). 149 gener oppregulert i mesenchymale-lignende cellelinjer med en

p

-verdi 0,01 i

t

-test ble brukt i vår analyse. Disse genene hadde et mye høyere nivå av ekspresjon i subtype 1 tumorer sammenlignet med de to andre undertyper (figur 3C). GO anrikning analyse viste at subtypen en signatur ble anriket med gener i cellemigrering (FDR = 2,0 x 10

-4) og blodkar morfogenese (FDR = 7,49 x 10

-5), biologiske prosesser er nært knyttet til EMT [32], [33]. Dermed er det EMT program karakteristisk for subtype 1. En komplett liste over GO vilkår beriket for subtype signaturer kan finnes i tabell S6 i File S3.

Tydelig Kliniske resultater for ulike CRC Subtyper