PLoS ONE: Gene-Expression Signatur Spår Postoperativ Regelmessighet i fase I ikke-småcellet lungekreft Pasienter

Abstract

Om lag 30% stadium I ikke-småcellet lungekreft (NSCLC) pasienter som gjennomgår reseksjon vil gjenta seg. Robuste prognostiske markører er nødvendig for å bedre håndtere behandlingsmuligheter. Hensikten med denne studien er å utvikle og validere en ny gen-uttrykk signatur som kan forutsi svulst gjentakelse av stadium I NSCLC pasienter. Cox regresjonsanalyse ble utført for å identifisere tilbakefall relaterte gener og delvis Cox regresjonsmodell ble brukt til å generere et gen signatur av tilbakefall i trening datasett -142 scene jeg lunge adenokarsinomer uten tilleggsbehandling fra direktørens Challenge Consortium. Fire uavhengige validerings datasett, inkludert GSE5843, GSE8894, og to andre datasett som tilbys av Mayo Clinic og Washington University, ble brukt for å vurdere prediksjonsnøyaktigheten ved å beregne sammenhengen mellom risiko skår estimert fra genekspresjon og real tilbakefall overlevelse tid og AUC for tidsavhengig ROC analyse. Pathway-baserte overlevelses analyser ble også utført. 104 probesets korrelert med tilbakefall i treningsdatasettet. De er anriket på celleadhesjon, apoptose og regulering av celleproliferasjon. En 51-genekspresjon signatur ble identifisert til å skille pasienter som sannsynligvis til å utvikle svulst tilbakefall (Dxy = -0,83, P 1e-16), og denne signaturen ble validert i fire uavhengige datasett med AUC 85%. Flere veier inkludert leukocytter transendothelial migrasjon og celle adhesjon ble høyt korrelert med tilbakefall overlevelse. Genet signatur er svært forutsigbar for tilbakefall hos stadium I NSCLC pasienter, som har viktige prognostiske og terapeutiske implikasjoner for fremtidig forvaltning av disse pasientene

Citation. Lu Y, Wang L, Liu P, Yang P, Du M (2012) Gene-Expression Signatur Spår Postoperativ Regelmessighet i fase i ikke-småcellet lungekreft pasienter. PLoS ONE 7 (1): e30880. doi: 10,1371 /journal.pone.0030880

Editor: William C. S. Cho, Queen Elizabeth Hospital, Hong Kong

mottatt: 03.12.2011; Godkjent: 28 desember 2011; Publisert: 23 januar 2012

Copyright: © 2012 Lu et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet av National Institutes of Health gi 1R01CA129533-01A1 (MY), fond fra en sunnere Wisconsin (YL) og et fond fra Institutt for laboratoriemedisin og patologi, Mayo Clinic (LW). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Lungekreft er fortsatt den ledende årsak til kreft dødsfall for både menn og kvinner i USA, men terapeutisk utfall har gradvis forbedret. I 2010 ble det estimert 222,520 nye tilfeller av lungekreft diagnostisert og bare 15% av dem vil være i live etter 5 år [1]. Ikke-småcellet lungekreft (NSCLC) utgjør om lag 85% av alle lungekrefttilfellene, med småcellet karsinom som utgjør de resterende 15%. Omtrent 25% til 30% av pasienter med NSCLC ha stadium I sykdom og motta kirurgisk inngrep alene. Til tross gjennomgår kurativ kirurgi, vil mer enn 25% av pasienter med stadium I NSCLC dør av tilbakevendende sykdom i løpet av fem år [2], [3]. Adjuvant cisplatin kjemoterapi i stadium I-III NSCLC forbedrer overlevelse beskjedent etter kirurgisk reseksjon [4], [5], [6]. Kreft og leukemi Gruppe B (CALGB) 9633, en fase III-studie som sammenlignet adjuvant behandling med carboplatin /paclitaxel versus kirurgi alene for helt resected stadium IB NSCLC, viste en betydelig overlevelse fordeler på adjuvant behandling etter 2,8 års median oppfølging [7 ] men ikke etter 4,5 års oppfølging [8]. Pålitelige kliniske eller molekylære prognostiske faktorer, samt retningslinjer for behandling av tilbakevendende stadium I NSCLC har ikke blitt godt belyst. På grunn av heterogeniteten i tilbakefall hos kreftpasienter med den samme scene, er det avgjørende å isolere en pålitelig molekyl signatur i tumorer som kan brukes til å identifisere de som sannsynligvis vil utvikle tilbakevendende sykdom og vil derfor dra nytte av adjuvant terapi. Videre identifisering av gener og molekylære stier kritiske for utvikling av metastaser kan føre til fremskritt i terapi.

Advances in menneskelige genomikk og proteomikk har generert lister over kandidat biomarkører med potensielle kliniske verdier. Genekspresjon profilering har blitt brukt for å karakterisere prognose i lungekreft, for det meste ved hjelp av total overlevelse (OS) i stedet for tumorresidiv som et endepunkt [9], [10], [11], [12], [13], [14 ]. Men de identifiserte overlevelses-relaterte gener som manglet overensstemmelse mellom disse studiene, sannsynligvis på grunn av begrensede pasientprøver, sykdom heterogeniteten, og /eller tekniske faktorer slik som forskjeller i microarray plattformer og prøvebehandling. Integrering microarray data fra flere studier for å øke utvalgsstørrelsen holder løftet for utvikling av mer robuste prognostiske tester. Vi derfor gjennomført en meta-analyse av syv datasett for å søke etter differensielt uttrykte gener relatert til total overlevelse tid [15] og identifisert en 64-genekspresjon signatur som er svært intelligent av OS av stadium I NSCLC pasienter. Våre resultater indikerer at genekspresjonssignaturer er nyttige i å forutsi overlevelse av stadium I lungekreft, og meta-analyse av microarray datasett øker statistisk styrke til å påvise overlevelsesrelaterte differensielt uttrykte gener.

I undersøkelser av effekten av adjuvant terapi, er OS regnes som gullstandarden endepunktet. Imidlertid er ulempen med operativsystemet at den krever en lengre oppfølging. Nylig flere studier utforsket sykdomsfri overlevelse (DFS) som et mulig alternativ endepunkt av OS. Noen bevis hadde blitt tilbudt for bruk av DFS som et surrogat for OS i kolorektal cancer, brystcancer og magekreft [16]. I disse studiene var Pearsons korrelasjon mellom 5-års OS og 3-års DFS var 0,97 og Spearmans rank korrelasjon var 0,92; Pearsons korrelasjon mellom hazard ratio for OS og DFS var 0,85 og Spearmans rank korrelasjon var 0,87.

I denne studien har vi gjennomført en meta-analyse av microarray datasett fra ulike institusjoner for å utvikle og validere en ny gen-uttrykk signatur som kan forutsi nøyaktig svulst gjentakelse av stadium i NSCLC pasienter. Det identifiserte signatur har potensial til å avgrense den kliniske praksis i leder pasienter med resected NSCLC.

Metoder

Datainnsamling

direktørens Challenge Consortium for Molecular Klassifisering av Lung Adencarcinoma ( «Director utfordring Consortium») samlet inn mer enn 300 lunge adenocacinoma prøver fra fire institusjoner (HLM, mich, DFCI, og MSKCC) sammen med relevante kliniske data [17]. I vår studie brukte vi totalt 142 pasientprøver med stadium I lunge adencarcinoma, som ikke ble gitt tilleggs cellegift eller strålebehandling, som opplæring prøver å identifisere et gen-uttrykk signatur for tilbakefall overlevelse. Dataene ble lastet ned fra https://array.nci.nih.gov/caarray/project/details.action?project.experiment.publicIdentifier=jacob-00182.

Other fire uavhengige datasett (datasett 2-5) ble brukt som testprøver for validering av identifisert signaturen. Datasett 2 inkludert 46 trinns jeg lunge adenokarsinomer. Datasett tre inkluderte både adenokarsinomer og plateepitelkarsinom med 64% av 138 prøver å være stadium I svulster. Det er viktig å vite om vår utviklet signatur er aktuelt for andre kreft subtype som plateepitelkarsinom eller ikke. Datasett 2 og 3 ble lastet ned fra GEO database (GSE5843 og GSE8894). Datasett 4 ble generert ved Mayo Clinic og inkludert 54 stadium I NSCLC hos ikke-røykere, og de fleste av dem var adenokarsinomer. Datasett 5 ble generert ved vår egen gruppe ved Washington University, som ble brukt til å identifisere vår 64-genet signatur for total overlevelse (dataene ble avsatt i GEO database som GSE6253) [15]. Alle pasientene i disse validerings settene ble ikke gitt adjuvant kjemoterapi eller strålebehandling.

PRISMA 2009 flytdiagram om datasettet utvalget er vist i figur S1. Detaljer om klinisk informasjon for fagene i hvert datasett er beskrevet i tabell 1. Den endepunktet var tid til tilbakefall definert som tiden fra kirurgisk reseksjon til første bevis for tumor tilbakefall (lokalt, regionalt eller fjernt). Pasientene ble sensurert fra gjentakelse analyse på det tidligste av følgende tidspunkter: død, utvikling av andre primære NSCLC, eller siste medisinsk kontakt. De involverte microarray plattformer inkludert Affymetrix Hu133A (datasett 1), Hu133plus2 (datasett 3), HG_U95Av2 array (datasett 5), 22 K Operon Human Genome Oligo Set v2.1 (https://www.operon.com) (datasett 2) og Illumina DASL assay (datasett 4).

data Processing

Selv om trening datasettet er fra en studie ble prøvene samlet og profilert i fire ulike institusjoner. Systematiske forskjeller i genuttrykk fra disse institusjonene kan være bemerkelsesverdig, noe som ville kompromittere integriteten til data fra ulike laboratorier. Avstanden veide diskriminering (DWD) metode (https://genome.unc.edu/pubsup/dwd/index.html) ble brukt til å identifisere og justere systematiske skjevheter som var til stede i denne microarray datasettet. DWD metoden korrigerer for systematiske skjevheter over microarray batcher ved å finne en skillehyperplan mellom de to partier og justering av data ved å projisere forskjellige grupper på DWD flyet, finne batch mener, og deretter trekke ut DWD fly multipliseres med dette at [ ,,,0],18].

Statistisk analyse

Identifisere forskjellig uttrykt gener relatert til gjentakelse.

multivariat Cox regresjonsanalyser (justert for alder, kjønn og kreft stadium) med 10 000 bootstrap resampling ble utført for hvert gen ved hjelp av alle de 142 prøvene i Dataset 1. proporsjonal farer forutsetning for disse variablene ble undersøkt ved å undersøke skalert Schoenfeld restene. Den kategoriske variabler kjønn og kreft stadium vises betydelige avvik fra den proporsjonale farer antakelsen og ble dermed tatt som lag i regresjonsmodeller. Genene ble deretter rangeres i henhold til de bootstrap frekvenser av P 0,01 for deres genuttrykk i regresjonsmodeller. Vi deretter utført GO sikt berikelse analyse på disse differensielt uttrykte gener ved hjelp av Database for kommentering, visualisering og integrert Discovery (DAVID) bioinformatikk ressurs (https://david.abcc.ncifcrf.gov/home.jsp). Lignende statistiske analyser ble beskrevet i en tidligere studie [15].

Definer et gen-uttrykk signatur for tilbakefall.

Følgende overlevelse analyser ble også basert på alle de 142 prøvene i Datasett 1 . Delvis Cox regresjon metoden ble utført for å konstruere prediktive komponenter [19]. Disse komponentene ble deretter benyttet i Cox-modellen for å bygge prediktive modeller for tilbakefall overlevelse av kreftpasienter. Prinsippet komponenter ble valgt i modellen for å maksimere Somers «Dxy rang korrelasjon. Risiko score ble beregnet ved, hvor representerer antall gener; representerer den beregnede koeffisient av th-genet; representerer genuttrykk nivåer av th-genet i alle prøvene, der er prøvestørrelsen og er genet ekspresjonsnivået av genet fra prøven. Alle prøvene ble klassifisert i høy og lav risikogrupper i henhold til risiko score. Pasienter med risiko score mindre enn null potensielt ha langsiktige tilbakefall-fri overlevelse og de større enn null har kortsiktig tilbakefall overlevelse etter kirurgisk reseksjon. For å velge en passende undergruppe av gener for signatur, gjennomførte vi en framtids utvalg prosedyre for å optimalisere et gen-uttrykk signatur: 1) øke ett gen hver gang basert på graden av gener som ble identifisert i ovennevnte bootstrap analyser; 2) utføre partiell Cox regresjonsanalyse og oppnå prediksjonen nøyaktighet ved hjelp av den valgte undergruppe av gener; og 3) gjenta trinn 1 og 2 til prediksjonsnøyaktigheten er maksimert. Prediksjonsnøyaktigheten (diskriminering evne) ble vurdert ved Somers «Dxy rang korrelasjon av estimerte risikoscore og real overlevelse. Somers «Dxy er relatert til C-indeksen med Dxy = 2 (C-0.5). C er den tilsvarende mottaker som opererer karakteristikk (ROC) kurve området, som er en grafisk gjengivelse av parene av resultatene falske positive test (spesifisitet) og sanne positive testresultater (sensitivitet) for de erkjennelser av en kvantitativ test.

for å identifisere et gen signatur robust forutsi tid til tilbakefall, leave-one-out kryssvalidering (LOOCV) ble brukt. Kort sagt ble 142 iterasjoner av den ovenfor fremover utvelgelsesprosessen utføres slik at hver prøve ble tatt ut en gang med et sett av gener i forhold til tid for gjentakelse beregnes ved hver iterasjon. Frekvensen av genene som forekommer i signaturene ble rangert for å identifisere gener som konsekvent, og robust, korrelerte med utfall. Genene som passerte settet kriteriet (frekvens 50%). Ble valgt ut til å bestå den endelige signaturen

For å evaluere prediktive ytelsen til den foreslåtte genet signatur, ansatt vi tidsavhengig ROC analyse for sensurerte data og Arealet under kurven (AUC) som våre kriterier for å vurdere tilbakefall spådommer. De tidsavhengige sensitivitet og spesifisitet funksjoner er definert som: og. Den tilsvarende ROC (t) kurve for enhver tid t er definert som en plotting av {følsomhet (c, t)} i forhold {1 – spesifisitet (c, t)}, med cutoff punkt c varierende. X er kovariat og D (t) er det tilfelle indikatoren (her, gjentakelse) ved tiden t. Arealet under kurven, AUC (t), er definert som arealet under ROC (t) kurve. En nærmeste nabo estimator for den bivariate fordelingen funksjonen brukes for å beregne disse betingede sannsynligheter står for mulig sensurere [20]. AUC kan brukes som en nøyaktighet mål på den diagnostiske markør; jo større AUC, jo bedre prediksjon modell. AUC = 0,5 indikerer ingen prediktiv kraft, mens AUC = 1 representerer perfekt prediktiv ytelse. Kaplan-Meier-overlevelsesanalyser ble gjennomført etter at prøvene ble inndelt i to risikogrupper. Forskjeller av tilbakevendende risiko mellom de to risikogruppene ble vurdert ved hjelp av Mantel-Haenszel log rank test. Jo større området mellom de to risikogrupper og dens tilhørende mindre p-verdi fra Mantel-Haenszel log rank test implisere en bedre klassifiseringsmodell. Somers «Dxy rang korrelasjon av estimerte risikoscore og reell overlevelsestiden ble også beregnet.

Valider signatur i fire uavhengige microarray datasett.

Etter at signaturen ble definert, vi evaluert den i fire uavhengige datasett (dvs. datasett 2-5). Uttrykket data av gener i signaturen ble brukt til å beregne risiko score for hver prøvene i de uavhengige datasett. Vær oppmerksom på at genet tall som brukes til å beregne risikoscore var annerledes på grunn av de ulike microarray plattformer som brukes i trening datasett og testing datasett. Den delvis Cox regresjon ble gjort om til hvert datasett for å få den beregnede koeffisient for hvert gen for å beregne risiko poengsum for hver prøve. Somers «Dxy rang korrelasjon av estimerte risikoscore og real overlevelse ble beregnet og ble utført tidsavhengig ROC analyse for hvert testing datasett.

Identifisere vesentlige trasé relatert til gjentakelse.

Delvis Cox regresjon Fremgangsmåten ble også utført for hvert KEGG pathway. Risiko score ble beregnet ved hjelp av genene bestemmer i hver vei. Alle prøvene ble klassifisert i høy og lav risikogrupper i henhold til risiko score. Forskjeller i tilbakevendende risiko mellom de to risikogruppene ble vurdert ved hjelp av Mantel-Haenszel log rank test. P-verdier mindre enn 10

-4 skulle bruke til å definere vesentlige veier.

Alle de dataanalyser ble gjennomført ved hjelp av R statistikkpakke.

Resultater

Forskjellig uttrykte gener assosiert med tilbakefall

for å identifisere et gen uttrykk signatur av svulst tilbakefall, analyserte vi en trening sett av 142 scene jeg lunge adencarcinomas fra direktørens Challenge Consortium, inkludert 70 med stadium IA (T1N0M0) sykdom og 72 med stadium IB (T2N0M0). Ingen av the142 pasienter i analysen fikk adjuvant kjemoterapi eller strålebehandling. Multivariat Cox regresjonsanalyser med bootstrap resampling tilnærminger ble utført for hvert gen for å fastslå om det var signifikant assosiert med kreft tilbakefall. Vi identifiserte 104 probesets fra 98 kjente gener med bootstrap frekvenser høyere enn 80% for deres genuttrykk i regresjonsmodeller (tabell S1). Atten probesets var assosiert med godt resultat (hazard ratio 1,0), det vil si pasienter med høyere uttrykk av disse genene har en tendens til å ha lengre tilbakefall overlevelse. I motsetning til dette, ble de øvrige 86 probesets forbundet med dårlig resultat (fareforhold 1,0), det vil si økt ekspresjon av disse genene resulterer i kortere gjentakelse overlevelse av trinn I pasienter. GO sikt berikelse analyse på disse differensielt uttrykte gener indikerte en tredjedel av genene vi identifisert potensielt involvert i kjente kreftrelaterte veier. Blant dem,

B4GALT1, CELSR1, CLDN4, CLDN9, COL2A1, Alcam, ICAM4, MUC5AC og THBS1

er relatert til celle adhesjon;

NLRP2

,

CN, LUC7L3, ELMO2, EIF2AK2, IFI6, MUC5AC, NFKBIL1, PPT1, PACS2, RHOT1, THBS1

er knyttet til apoptose; og

CLEC11A, B4GALT1, BNIP2, EIF2AK2, FABP3, FGFR2, ING1, kløe, MUC5AC, NFKBIL1, THBS1, TCF3

er knyttet til regulering av celleproliferasjon.

Identifisering av et gen signatur for gjentakelse i treningssettet

Deretter vi forsøkt å identifisere en håndterlig og robust sett av gener hvis ekspresjon kan bli brukt til å forutsi primære tumorer som sannsynligvis vil gjenta seg. Vi benyttet en delvis Cox regresjonsanalyse med leave-one-out kryssvalidering i opplæringen datasettet av 142 stadium I pasienter. I hvert kryssvalidering, identifiserte vi et gen signatur som gir høyest prediksjonsnøyaktigheten og registrert gener innført i identifisert signaturen. Deretter telles hyppigheten av gener som er tilstede i alle de kryssvalideringssett. Gener med en frekvens 50% ble valgt for å omfatte den endelige signatur (tabell 2). Til slutt ble risiko score beregnet for hver av 142 prøver i treningsdatasettet ved hjelp av uttrykket data til disse 51 gener. Basert på risiko score, klassifisert vi disse pasientene i høy og lav risikogruppene og utført Kaplan-Meier overlevelsesanalyser på følgende stratifiserte utvalg. Som vist på fig. 1, gjentakelse overlevelse var signifikant forskjellig mellom de høye og lave risikogrupper som er definert av risiko score ved hjelp av uttrykket data (P 1e-16). Kaplan-Meier overlevelseskurver kan ikke skille dårligere overlevelse blant stadium IB fra scenen IA NSCLC (P = 0,38). For å evaluere sin prediktiv ytelse, vi videre beregnet tidsavhengige området under ROC-kurver basert på enten scenen informasjon eller de estimerte risiko score av pasientene (Fig. 1C). Uttrykket baserte lagdelt tilnærming utfører mye bedre enn den patologiske staging metoden. Vår tilnærming oppnår AUC nær 90%, mens Cox modellen med scene informasjons resultater i svært lave AUC. 60%

(A) Kaplan-Meier overlevelseskurver for to grupper av pasienter med stadium IA eller IB. (B) Kaplan-Meier overlevelseskurver for de to gruppene av pasienter som er definert ved å ha positive (høy risiko) eller negative (lav risiko) risiko score til gjentakelse overlevelse. Risiko score ble beregnet med 15 prinsipielle komponenter basert på modellen med 51 tilbakefall overlevelse relaterte gener. (C) Arealet under kurven (AUC) for tidsavhengig ROC analyse for overlevelsesmodeller basert på scenen informasjon eller 51-genekspresjon data respektivt. Tiden er angitt i måneder på x-aksen, er kumulativ overlevelse angitt på y-aksen. Markeringer, fikk pasienter med data ble sensurert ved siste oppfølging.

Validering av tilbakefall signatur i uavhengige testsett

For å finne ut om 51-genet signatur kunne forutsi pasienter sannsynlig å utvikle svulst tilbakefall i uavhengige utvalg, vi har brukt den til fire uavhengige datasett (tabell 1). Spesielt var en risiko score for hver pasient beregnet basert på uttrykket nivåer av 51-genet signatur; dårlig resultat ble definert som risikoscore 0 og godt resultat ble definert som risikoscore 0. Cox modellering ble brukt til å klassifisere pasienter i hver av testdatasettene. Den prediktive nøyaktigheten av tilbakefall signaturen ble bestemt av AUC for tidsavhengig ROC analyse og Somers «Dxy rang korrelasjon mellom estimerte risikoscore og ekte overlevelsestiden.

Mayo Clinic datasett inkludert 54 som aldri har røykt med stadium I NSCLC, og de fleste som var adenokarsinomer. Risiko score anslått av uttrykket av 46 gener som presenteres på Illumina DASL analysen har høy korrelasjon med den virkelige overlevelsestiden (Dxy = -0,853). AUC fra tidsavhengig ROC analyse er om lag 88% ved hjelp av risiko score og 57% ved bruk av scenen informasjon. Forut dårlig utfallet pasienter hadde signifikant dårligere gjentakelse overlevelse (log-rank

P

= 4.37e-6) (Fig. 2A). I testdatasettet GSE5843 med 46 trinn I adenokarsinom, har genet signatur en total nøyaktighet på 86% og de forutsagte høy risiko score er signifikant assosiert med kortere observerte tids til gjentakelse (log-rank-P = 7e-9, Fig. 2B) . I kontrast, nøyaktighet forutsi tilbakefall bruker scenen informasjon alene er 66%.

ble utført Kaplan-Meier overlevelsesanalyse i lave (

hel rød linje

) og høy (

stiplede blå linjen

) risikerer pasientgrupper som er definert av 51-genet klassifikator. AUC for levetidsmodeller basert på scenen (

stiplet rød linje

) eller 51-genet klassifikator (

komplett svart linje

) ble også sammenlignet. Testingen datasettet GSE8894 ikke har tilgjengelig scenen informasjon og alle pasienter i WUSTL datasettet er scenen IB. Så tidsavhengige ROC hjelp scenen informasjonen i disse to datasettene kan ikke beregnes; alle satt til 0,5 i stedet. Markeringer, pasienter hvis data ble sensurert ved siste oppfølging.

Bare 32 av 51 gener i tilbakefall signatur er tilgjengelig på tidlig generasjon Affymetrix U95A microarray brukes i WUSTL testing datasett. Til tross for ufullstendig representasjon, signaturen identifiserte vi fortsatt har en god ytelse med AUC rundt 85% i å forutsi tilbakefall. Kaplan-Meier analyse bekreftet at den antatte høyrisikogruppen har en vesentlig kortere tid til tilbakefall enn lav-risikogruppe (P = 7.36e-5) (Fig. 2C).

GSE8894 er den største testing datasett, inkludert 62 adenokarsinomer og 76 plateepitelkarsinom. Vi evaluerte resultatene av våre underskrifter i å forutsi tilbakefall overlevelse i adenokarsinomer og plateepitelkarsinom separat. Cox modell med risiko score anslått av ekspresjonsdata gi en god prediktiv ytelse (Dxy = -0,706) med AUCene til mer enn 85% for adenokarsinom (fig. 2D). I plateepitelkarsinom, fikk vi litt mindre forutsigbar AUC, men den antatte høyrisikogruppen fortsatt hadde en betydelig kortere tid til tilbakefall (Dxy = -0,678 og P = 3.48e-7, fig. S2).

vesentlige trasé relatert til gjentakelse

Pathway-baserte overlevelsesanalyser identifisert 97 viktige prognostiske KEGG trasé knyttet til tilbakefall (p 10

-5, Tabell S2). Tabell 3 listet opp de 30 beste viktige veier, inkludert flere viktige kreftrelaterte trasé som celleadhesjonsmolekyler, den Jak-STAT signalveien, p53 signalveien, MAPK signalveien, Wnt signalveien, mTOR signalveien og ErbB signalveien. De differensielt uttrykte gener assosiert med tilbakefall identifisert av vår overlevelsesanalyse ble også beriket i biologisk prosess med celle adhesjon.

Diskusjoner

En viktig begrensning av gjeldende kliniske prognostiske indikatorer er deres manglende evne til å forutsi hvilke pasienter med tidlig stadium sykdommen vil utvikle sykdommen tilbakefall. Vi har tidligere beskrevet en 64-gen signatur av total overlevelse i stadium I NSCLC i stand til å forutsi utfallet i uavhengige utvalg [15]. I denne studien, søkte vi å finne ut om en tilsvar signatur eksisterte i stadium I adenokarsinomer å forutsi tilbakefall overlevelse i lungekreft. Ved hjelp av microarray datasett av stadium I lungekreft fra direktørens Challenge Consortium, vi videreutviklet et nytt gen-uttrykk signatur prediktiv for tilbakefall av stadium I NSCLC pasienter. Vi brukte prøver fra fire institusjoner i direktørens Challenge Consortium som trening datasettet for å identifisere et gen-uttrykk signatur for lungekreft gjentakelse. For å redusere sykdom heterogenitet og konfunderende effekter fra behandlinger, vi brukte totalt 142 scenen jeg lunge adencarcinomas pasienter uten tilleggs kjemo- eller strålingsterapi som trenings prøvene (tabell 1). Å integrere genuttrykk data fra de fire institusjonene, søkte vi DWD metode for å fjerne systematiske forskjeller som var til stede i dette datasettet. Deretter identifiserte vi 104 gener hvis uttrykk var korrelert med tilbakefall overlevelse. Som forventet, genet ontologi sammensetningen av disse genene har biologisk relevans for tilbakefall av sykdommen, for eksempel celle adhesjon, apoptose, og celleproliferasjon.

Ved hjelp av et delvis Cox regresjonsmodell basert fremover utvelgelsesprosedyren, identifiserte vi en 51 -Gene signatur fra 104 differensielt uttrykte gener. Den identifisert signaturen er svært forutsigbare for svulst tilbakefall hos pasienter med stadium I lunge adenokarsinomer. En av de potensielle problemene i å utvikle en prediktiv signatur er modellen overtilpassing til treningsdatasettet. Dette kan føre til en signatur som reflekterer egenskapene til opplæring prøver og kan ikke nøyaktig forutsi utfallet i uavhengige utvalg. For å unngå modellen overtilpassing, vi videre brukt leave-one-out kryssvalidering prosedyre for å generere gensignaturen av tilbakefall i treningsdatasettet. Følgelig er det også viktig å validere signaturen prediksjon i uavhengige datasett. Vi søkte derfor vår signatur i fire uavhengige datasett for å evaluere sin prediksjon ytelse. Generelt er vår signatur svært forutsigbare for hvilke pasienter med stadium I lunge adenokarsinomer vil utvikle tilbakefall sykdom og det oppnår mer enn 85% i AUC på tvers av ulike uavhengige datasett. Testen satt GSE8894 omfattet både adenokarsinomer og plateepitelkarsinom; 36% av prøvene ble avansert stadium pasienter. En fersk studie viste at lungekreft tilbakefall avhenger histologisk subtype i stadium IA ikke-småcellet lungekreft, med høyere priser som forekommer hos pasienter med ikke-plateepitel karsinom [21]. Interessant, 51-genet signatur var også svært forutsigbare for tilbakefall overlevelse av plateepitelkarsinom i datasettet GSE8894 selv om det var i utgangspunktet hentet fra scenen jeg adenokarsinom.

De identifiserte differensielt uttrykte gener i denne studien kan gi ny innsikt i terapeutiske mål og behandling av tilbakefall sykdom i stadium i lungesvulster. Blant dem, mål FBXW7 mTOR for nedbrytning og samarbeider med PTEN i tumor undertrykkelse [22]. Den lave FBXW7 uttrykk gruppen viste en signifikant dårligere prognose enn i den høye uttrykket gruppen hos pasienter med kolorektal kreft [23]. Sin lavere uttrykk ble også assosiert med redusert tilbakefall overlevelse i fase I lunge adenokarsinomer (Tabell S1). En annen interessant kandidat er FGFR2, som er en av transmembran tyrosinkinase-reseptorer som er involvert i signalering via interaksjon med den fibroblast vekstfaktor (FGF) -familien. Fibroblast vekstfaktor (FGF) -familien, som omfatter viktige regulerende faktorer av cellevekst og differensiering, har blitt funnet å være involvert i embryoutvikling, angiogenese og tumorigenesis. Det har blitt foreslått at FGFR2 spiller en viktig rolle i den tumorigenesis av magekreft. Vi fant økt uttrykk i FGFR2 er assosiert med dårlig resultat av stadium I lungekreftpasienter. En nyutviklet små-molekyl-inhibitor som virker FGFR, Ki23057 kan konkurrere med ATP for bindingssetet i kinase [24]. Det vil være interessant å se om en slik inhibitor kan forbedre utfallet av pasienter som er anslått til å være på en høy risiko for tilbakefall med genet utfoldelse signatur. I tillegg har vi også identifisert tre skjøting faktorer SFRS2IP, SFRS14 og SFRS18 assosiert med sykdom utfall. Alle tre spleise faktorer er medlemmer av arginin /serin-rik familie og verdig videre studier.

Vår sti-baserte overlevelsesanalyser fant at leukocytter transendothelial migrasjon, protein behandling i endoplasmatisk retikulum og celleadhesjonsmolekyler (CAM) er de tre beste KEGG veier høyt korrelert med tilbakefall overlevelse (fig. S3). Det er ikke en overraskelse at disse tre banene er alle signifikant relatert til gjentakelse. Leukocytter krysse endotelet fôr blodkar initiert av chemokine- og adhesjonsmolekyl-indusert intracellulær signalering som styrer vedheft, spre og bevegelighet. På samme tid, adherente leukocytter utløse endotelet, manipulere barriere for å fremme deres transmigrasjon inn i de underliggende vev [25]. CAM er portvakter for leukocytter transendothelial migrasjon. Endotelceller inter CAM uttrykket er negativt korrelert med metastatisk potensial i lungekreft [26]. L1 celleadhesjonsmolekyl (L1CAM) har potensial prognostisk verdi i lunge nevroendokrine svulster. Pasienter med høy L1 uttrykk har en høyere risiko for tilbakefall sammenlignet med de med lav L1 uttrykk [27]. Det endoplasmatiske retikulum (ER) er en viktig organell involvert i mange cellulære funksjoner inkludert proteinfolding og sekresjon. ER spiller en viktig rolle i cellulære protein kvalitetskontroll ved å trekke ut og nedverdigende proteiner som ikke er riktig foldet eller satt sammen til innfødte komplekser, altså ER-forbundet nedbrytning (erad) for å sikre at bare brettet skikkelig og montert proteiner blir transportert til sine endelige destinasjoner . ER er også en stor organ for oksygen og nærings sensing som celler tilpasse seg deres mikromiljø. Utbrettet protein respons (UPR) er et cellulært stress respons relatert til ER.

Legg att eit svar