PLoS ONE: En komparativ analyse av Gene-Expression Data over flere krefttyper

Abstract

En sammenlignende studie av offentlig gene expression-data for syv typer kreft (bryst, tykktarm, nyre, lunge, bukspyttkjertel, prostata og magekreft) ble utført med sikte på å utlede markørgener, sammen med tilhørende veier, som enten er felles for flere typer kreft eller spesifikke for de enkelte kreftformer. Analyseresultatene viser at (a) hver av de syv krefttyper kan skilles fra den tilsvarende kontroll vev basert på ekspresjons mønstre av et lite antall gener, for eksempel 2, 3 eller 4; (B) uttrykk mønstre av noen gener kan skille flere krefttyper fra de tilhørende kontroll vev, potensielt tjene som generelle markører for alle eller noen grupper av kreft; (C) proteinene som kodes av noen av disse genene er anslått til å være blod sekretoriske, og dermed gi potensielle kreftmarkører i blod; (D) antall differensielt uttrykte gener på tvers av forskjellige krefttyper i sammenligning med sine kontroll vev korrelerer godt med fem års overlevelse i forbindelse med de enkelte kreftformer; og (e) noen metabolske og signalveier er unormalt aktiveres eller deaktiveres på tvers av alle krefttyper, mens andre banene er mer spesifikke for visse kreftformer eller grupper av kreft. De nye funnene i denne studien gir betydelig innsikt i disse syv krefttyper og har potensial til å gi spennende nye retninger for diagnostisk og terapeutisk utvikling

Citation. Xu K, Cui J, Olman V, Yang Q, Puett D, Xu Y (2010) En komparativ analyse av Gene-Expression data flere krefttyper. PLoS ONE 5 (10): e13696. doi: 10,1371 /journal.pone.0013696

Redaktør: Vladimir Brusic, Dana-Farber Cancer Institute, USA

mottatt: 22 juli 2010; Godkjent: 04.10.2010; Publisert: 27 oktober 2010

Copyright: © 2010 Xu et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne studien ble støttet delvis av National Science Foundation (DBI-0354771, ITR-IIS-0407204, CCF-0621700, DBI-0542119), National Institutes of Health (1R01GM075331), en «Distinguished Scholar» stipend fra Georgia Cancer Coalition, og seed finansiering fra University of Georgia. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Kreft er en viktig trussel mot folks helse og liv, sto for ~13% av alle sykdomsfremkallende dødsfall i verden [1]. I 2007, 7,6 millioner mennesker døde av kreft på verdensbasis. I US-, ble over 1,4 millioner nye krefttilfeller rapportert hvert år de siste årene, og kreft blir den nest største dødsårsaken etter hjertesykdom. Statistikk fra seeren rapporter tyder på at dødeligheten på tvers av alle krefttyper i USA gikk fra 195,4 per 100.000 saker i 1950, fortsatte en oppadgående trend til 1978 nådde 204,4, og deretter jevnt redusert til 184,0 i 2005 [2]. Denne nedadgående trend har vært mest på grunn av de forbedrede diagnostiske teknikker for å påvise tidlig stadium av kreft. Generell overlevelse statistikk for kreft tyder på at tidlig oppdagelse og behandling er nøkkelen til lengre overlevelse på tvers av alle krefttyper.

Utfordringer i oppdagelse tidlig kreft oppstår hovedsakelig fra det faktum at de fleste pasienter er asymptomatiske i de tidlige stadier av kreft, og bare noen få effektive kreft-screening tester er klinisk tilgjengelig. Mens noen tester har vist seg å være effektiv i å oppdage kreft på et tidlig stadium, er de ofte for invasiv, slik som kolonoskopi, for å bli rutinemessig brukes under vanlige physicals og er for tiden begrenset til bare et lite antall av krefttyper. Ofte en kreft er allerede i et avansert stadium når diagnosen; klart, er mer effektive teknikker for å detektere tidlig kreft nødvendig.

Et antall genetiske markører er blitt foreslått av forskjellige kreftformer, slik som BRCA1 og BRCA2 for brystkreft og CDH1 for magekreft. I tillegg har en rekke lovende serum markører for kreft blitt brukt klinisk. Blant dem er PSA (prostataspesifikt antigen) den mest kjente og har vært mye brukt for å diagnostisere prostatakreft gjennom blodprøver [3]. Men det er langt fra tilstrekkelig, ansett som å ha en falsk positiv rate som er for høy til å være en pålitelig kreft-indikator effektiviteten av deteksjon [4]. Lignende observasjoner er gjort om andre blodprøver som CA125 for eggstokkreft [5].

Heri presenterer vi en beregningsstudie på prediksjon av både genetiske og serummarkører for sju krefttyper, basert på offentlig microarray gen- ekspresjonsdata og et dataprogram for forutsigelse av blod-sekretoriske proteiner [6]. Sammenlignet med tidligere studier på markør kreft identifikasjon, inkludert metaanalyser på multi-typer kreft [7] har den foreliggende undersøkelsen følgende unike egenskaper: (i) et fokus på identifisering av fler genmarkører gjennom uttømmende analyse av alle mulige kombinasjoner av gener, tar full nytte av det tilgjengelige høyt nivå datakraft, istedenfor å bruke heuristiske metoder som kanskje ikke nødvendigvis finne de optimale markører; (Ii) et forsøk på å finne markører for grupper av kreft i tillegg til de individuelle kreft; (Iii) et forsøk på å koble informasjon fra transcriptomic data vev til markør prediksjon i serum ved hjelp av romanen prediksjon program [6]; og (iv) identifikasjon av veier som er unormalt regulert, enten felles på tvers av flere krefttyper eller spesifikke for enkelte krefttyper. Vi mener at disse nye dataene vil være svært verdifull i å belyse de genetiske endringer i ulike kreftformer, samt å tilby potensielle retninger for nye tilnærminger i diagnostikk og terapi.

Materialer og metoder

1. Microarray genuttrykk data for kreft hos mennesker

Microarray genuttrykk data ble lastet ned for sju krefttyper, nemlig, bryst, tykktarm, nyre, lunge, bukspyttkjertel, prostata og magekreft fra GEO database med NCBI [8]. For å sikre at våre prediksjonsresultater kan generaliseres til ulike datasett, ble to uavhengige testsett brukes for å vurdere robustheten den anslåtte genmarkører hentet fra treningssettet. Detaljert informasjon om dataene i Tabell S1. I denne studien har vi valgt de største tilgjengelige microarray datasett fra hver av de syv krefttyper, hvor hvert datasett omfatter (normalisert) genuttrykk nivåer av hvert gen i både kreft og kontroll vev av hver pasient, sammen med scenen informasjon for de fleste kreftprøver (noen data ikke har denne informasjonen). Merk at alle de microarray datasettene som brukes er normalisert ved hjelp av RMA, som har blitt rapportert å være mer nøyaktig gjenspeiler biologiske endringer i forhold til andre metoder som MAS5 (Affymetrix). Fordelingene av fold-endringer (FC) av enkelte gener på tvers av alle gener mellom kreft og de tilhørende kontroll vev for de sju typer kreft ble sjekket og funnet å være svært lik. Figur S1 viser en slik sammenligning av FC fordelinger mellom brystkreft og lungekreft; derfor tror vi at sammenligninger av fold-endringer på tvers av ulike kreft datasett i vår studie er meningsfulle.

2. Identifisering av forskjellig uttrykte gener

For datasett med uparede kreft og kontrollprøver fra de samme pasientene, Mann-Whitney test ble brukt for å identifisere gener som er forskjellig uttrykt i kreft

versus

kontrollprøver. For de datasett med sammenkoblet informasjon testen er som følger: Gitt den hypotese at et bestemt gen ikke blir uttrykt forskjellig i kreft

versus

kontrollgruppen, avvisning av denne hypotese betyr at genet blir uttrykt forskjellig i cancer . La og være genets uttrykk nivåer i kontroll- og kreft vev av

i

-te pasient,

i = 1 … m

, og

m

være antall pasienter . Det er åpenbart at hvis hypotesen er sann, så sannsynligheten = = 0,5, forutsatt at genets ekspresjon er en kontinuerlig tilfeldig variabel. La

K

være antall pasienter med, så tilfeldig variabel

K /m

omtrent normalfordelt (i henhold til sentralgrensesetningen eller de Moivre-Laplace Theorem) med sin middel = 0,5 og en standard variasjon =, eller følger en normalfordeling

N product: (0,1). Dermed

p

-verdi kan anslås som

P product: (

X

), hvor ligger antall pasienter tilfredsstillende. Samlet sett anser vi et gen blir uttrykt forskjellig hvis statistikken betydning,

p

-verdi, er mindre enn 0,05 og sin fold-endring er minst 2.

3. Prediksjon av blod utskilte proteiner

Alle gener som anslås å være uttrykt forskjellig mellom kreft og de tilsvarende kontrollprøver ble analysert for å forutsi om deres proteiner er blod-sekretorisk, ved hjelp av et program som vår gruppe nylig utviklede [6]. Den grunnleggende ideen av algoritmen er å trene en støttevektormaskin (SVM) -basert sorteringsapparat for å skille mellom de blod sekretoriske proteiner og proteiner som ikke skilles ut, ved hjelp av ulike sekvensbaserte funksjoner som signalpeptider, transmembrane domener, glykosyleringsseter og polaritet tiltak. På en stor uavhengig testsett som inneholder 105 sekretoriske proteiner og 7,258 ikke-sekretoriske proteiner av mennesker, oppnådde klassifikator ~94% prediksjon sensitivitet og ~98% prediksjon spesifisitet.

4. Prediksjon av markørgener for hver krefttype

For hver

k

-Gene kombinasjon av de differensielt uttrykte gener som er definert i avsnittet over, ble en SVM-basert klassifikator trent til å oppnå høyest mulig klassifisering nøyaktighet defineres aswhere

TP Hotell og

NP

er tallet på sanne positive og negative, henholdsvis, og

N

er det totale antall prøver. En lineær funksjon kjerne ble anvendt for opplæring gjennom LIBSVM [9]. For hver krefttype, ble alle markører rangert etter den 5-fold kryssvalidering ytelse på treningsdatasettet. For å finne markører som er generalisert godt til andre datasett, vi testet den anslåtte genmarkører på to uavhengige test datasett.

5. Prediksjon av markører for flere krefttyper

For å identifisere

k

-Gene discriminators for flere krefttyper, alle gener som konsekvent utviser differensial uttrykk i minst to krefttyper ble vurdert. For hver

k

-Gene kombinasjon mellom disse genene, var dens klassifisering nøyaktighet mellom hver krefttype og tilsvarende kontroll vev beregnet. Deretter

k

-Gene kombinasjoner stiller kresne makt på tvers av flere krefttyper ble bestemt. Den øverste discriminators for multi-krefttyper ble valgt ved hjelp av en fast cut-off på klassifisering nøyaktighet. Gjennom resten av denne artikkelen,

k

-Gene grupper refererer til kombinasjoner av

k

-genes for k = 1, 2, 3, 4 med mindre annet er oppgitt.

6. Pathway berikelse analyse av forskjellig uttrykt gener

Funksjonell analyse og sti berikelse analyse ble utført ved bruk av DAVID [10], hvor veien informasjonen er basert på merknaden fra KEGG, BBID og BIOCARTA. En

p

-verdi 0,05 ble brukt til å garantere signifikansnivå på en beriket sti

Resultater

Denne studien fokuserer på syv av de mest utbredte krefttypene i. verden, noe som også har store sett med microarray gen-uttrykk data tilgjengelig i den offentlige sfæren, samlet på et genom skala fra vev av hver krefttype, samt fra deres tilsvarende noncancerous kontroll vev. Ved å jobbe på flere krefttyper samtidig, kan vi utlede potensielle markører enten spesifikke for enkelte krefttyper eller generelle for alle eller grupper av kreft, samt å identifisere unormalt aktiveres eller deaktiveres trasé.

1. Forutmarkørgener for individuelle krefttyper

Vi har søkt etter individuelle gener og genkombinasjoner hvis uttrykk mønstre kan best skille mellom kreft og tilhørende kontroll vev for hver krefttyper. Nærmere bestemt, ble alle 1-, 2-, 3- og 4-genet kombinasjoner som er kodet i det humane genom rangeres i form av deres kresne kraft til å skille kreftprøvene fra de tilsvarende kontrollprøver for hver krefttype. I tillegg har vi også rangert

k

-Gene kombinasjoner, basert på deres kresne makt mellom tidlige kreftprøver og kontrollprøver dersom de relevante data er tilgjengelig og tilstrekkelig stor.

A. Brystkreft.

Analysen ble gjort på et gen-uttrykk datasett bestående av 43 parvise brystkreft og kreft-tilstøtende kontroll vev fra de samme pasientene [11]. Av de 43 prøvene, 32 var tidlig stadium kreft (trinn I og II). 294 gener ble funnet å være konsistent og unormalt uttrykte med minst en to-gangers forandring i sin ekspresjon på tvers av kreft og styre vev, 81 som ble opp-regulert og 213 ble nedregulert i kreftvevet. Blant de forskjellig uttrykte gener, 69 av deres kodede proteiner er spådd til å bli blod sekretorisk av vår prediksjon program [6], og kunne dermed tjene som potensielle serum biomarkører (Supplementary Information File S1).

Klassifisering analyse var da gjennomført (se Materialer og metoder), med mål om å identifisere

k

-Gene kombinasjoner som uttrykk mønstre nøyaktig kan skille mellom kreft og kontrollprøvene. Figur 1 (A) og (D) viser klassifiserings nøyaktighet på det beste 100

k

-Gene kombinasjoner på hele treningssettet og på treningssettet inneholder bare tidlig stadium prøver, henholdsvis. To uavhengige evaluerings sett brukes til å vurdere det generelle innholdet i de identifiserte genet markører, som består av 31 og 68 brystkreft, og 27 og 61 kontrollprøver [12], henholdsvis. Figur 1 (B) og (C) viser klassifiseringen forestilling av trente classifiers på de to evalueringssett. Den detaljerte oversikt over disse 100

k

-Gene kombinasjoner er gitt i Suppplementary Informasjon S1

For hvert panel, er x-aksen listen over 100

k

. – genmarkører bestilt av deres klassifisering prestasjoner på treningsdatasettene, og y-aksen representerer klassifisering nøyaktighet. (A) klassifisering nøyaktighet av de 100

k

-Gene kombinasjoner mellom brystkreft og referanseprøver i treningssettet, og (B) og (C) på de to testsett; (D) klassifiseringsnøyaktig av topp 100

k

-Gene kombinasjoner mellom tidlig brystkreft og tilsvarende referanseprøver i treningssettet og (E) på testsettet.

Som vist i figur 1, de fleste av de beste

k

-Gene kombinasjoner, spesielt for

k

1, gode resultater på både trening og uavhengige testsett med samlet nøyaktighet bedre enn 85% selv om deres vurdering bestillinger på de to datasettene kan ikke være godt bevart. Svingningene i deres klassifisering nøyaktigheter antas å være på grunn av den lille størrelsen av treningsdata. Lignende observasjoner ble gjort på alle de antatte topp markørene på tvers av de syv krefttypene.

De beste tre enkelt gen discriminators er PCOLCE2, ANGPTL4 og LEP, har 88,4%, 88,4% og 87,2% klassifisering nøyaktighet på treningssett og 94,8% og 84,1%, 84,5% og 79. 5% og 96,6% og 96,1% i de to test settene, respektivt. De øverste tre 2-, 3- og 4-genkombinasjoner er {TACSTD2 + CHRDL1, TACSTD2 + CAV1, PPARG + TMEM97} {RRM2 + COL1A1 + PPARG, RRM2 + COL1A1 + PCOLCE2, RRM2 + GPR109B + SPINT2}, og { RRM2 + COL1A1 + GPR109B + SPINT2, RRM2 + GPR109B + INHBA + SPINT2, TACSTD2 + IGFBP6 + IGF1 + TF}, henholdsvis. Tilsvarende for tidlig brystkreft, de tre beste

k

-Gene discriminators er {GPR109B, PCOLCE2, PCSK5} {PCSK5 + COL10A1, FERMT2 + SPINT2, maoa + IGJ} {COL1A1 + PCSK5 + TF, GPX3 + COL1A1 + SPINT2, GPX3 + FAP + TMEM97}, og {RRM2 + COL1A1 + GPR109B + IGJ, RRM2 + COL1A1 + GPR109B + IGJ, RRM2 + COL1A1 + GPR109B + SPINT2} hhv.

Selv om beste tre discriminators representerer nye funn, la vi merke til noen lavere rangerte gener har blitt vurdert som mulige brystkreft markører av tidligere studier. For eksempel er ADIPOQ (adiponectin) funnet å være nært forbundet med et bryst-kreftrisiko [13]. Den SPINT2, en inhibitor av HGF aktivator, ble rapportert å ha høyere uttrykk nivåer i tidlig brystkreft og assosiert med en dårlig prognose [14], i overensstemmelse med våre funn. Noen andre er involvert i aktivitetene til kreftceller generelt. For eksempel, CAV1, nedregulert i kreftprøvene, ble funnet å hemme brystkreft vekst og metastase [15]; nedregulering av PPARG er forbundet med lokale tilbakefall og metastase i brystkreft [16]; ANGPTL4 og kan virke som en regulator av angiogenese [17]. Så langt vi kjenner til, alle 2-, 3- og 4-genet discriminators representerer nye funn.

Lignende analyser er utført på seks andre krefttyper. De viktigste funnene på hver av disse seks krefttyper er uthevet nedenfor, med sammendraget blir gitt i tabell S2 og genet navn oppført i Supplementary Information File S1. I tillegg Supplementary Information File S2 viser klassifiseringsnøyaktighets av de beste 100

k

-Gene discriminators på både trening og testing sett for hver krefttype, henholdsvis.

B. Tykktarmskreft.

Analysen ble utført på en microarray datasett som består av 53 kreft i tykktarmen og 28 kreftfrem tilstøtende styre vev fra samme pasient (noen av kreftprøvene har ingen referanseprøver) [18]. 247 gener ble funnet å være konsekvent og unormalt uttrykte med minst 2 ganger endring i sitt uttrykk på tvers av kreft og kontroll vev i våre treningsdata, 56 av disse er oppregulert og 191 er nedregulert i tykktarm kreft vev . To uavhengige testsett, som består av 24 og 22 tykktarmskreft og 24 og 20 kreftfrem ved kontrollprøver fra de samme pasientene [19], henholdsvis, ble brukt til å vurdere det generelle innholdet i den anslåtte markører.

Vi har funnet de tre beste single-genet discriminators for tykktarmskreft er MMP7, DPT og MMP1 ha 97,5%, 96,3% og 95,1% klassifisering nøyaktighet på treningssettet, og 97,9% og 90,9%, 97,9% og 74,6%, og 91,7% og 84,1 % på de to prøvesett, henholdsvis. De tre beste 2-genet discriminators er SLIT3 + MMP7, MATN2 + MMP7, og MMP7 + PTGS1. Noen av våre mest populære discriminators har tidligere studert i sammenheng med tykktarmskreft. For eksempel, er MMP1 en invasjon fremmende faktor, og det er opp-regulering, som observert i våre data, er forbundet med invasivitet av kreft [20]. MMP7 er kjent for å spille en viktig rolle i kreftutvikling, og det er opp-regulering kan være en viktig mekanisme for kreftcellenes unnslippe fra immunovervåkning [21].

C. Nyrekreft.

Analysen ble gjennomført på en microarray gen-uttrykk datasett som består av 49 nyrekreft og 23 prøver fra de samme pasientene [22] kreftfrem tilstøtende kontroll vev. 231 gener ble funnet å være konsistent og unormalt uttrykte med minst en to-gangers forandring i sin ekspresjon på tvers av kreft og kontroll vev i vår treningsdata, 129 som er oppregulert og 102 er nedregulert i kreft. To uavhengige evalueringssett, som består av 35 og 36 nyrekreftprøver og 12 og 9 kreft ved kontrollprøver fra de samme pasientene, henholdsvis, ble brukt til å vurdere det generelle innholdet i de forut markører [23], [24]. De beste tre enkelt gen discriminators er funnet å være UMOD, ACPP og CCL18 for nyrekreft, som har samme klassifisering nøyaktighet, 98,6% på treningssett og 100% og 94,4%, 95,7% og 86,11% og 89,4% og 68,1% på de to test settene, respektivt. De tre beste 2-genet kombinasjoner er EGF + ALB, ACPP + UMOD, og ​​UMOD + ALB. Blant de beste discriminators har UMOD blitt rapportert å være relatert til nyresykdom [25]. SERPINA5, nedregulert i kreft, regulerer invasiv potensial for nyrekreft vekst og invasjon. Andre topp discriminators representerer nye funn. For eksempel har AFM ikke blitt rapportert å være relatert til kreft, og C6orf155 ikke har en preget funksjon.

D. Lungekreft.

Analysen ble gjort på en microarray datasett bestående av 58 lungekreft vev og 49 prøver fra de samme pasientene [26] kreftfrem tilstøtende kontroll vev. 683 gener ble funnet å være konsistent og unormalt uttrykte med minst en to-gangers forandring i sin ekspresjon på tvers av kreft og kontroll vev i vår treningsdata, 255 som er oppregulert og 428 er nedregulert i lungekreft vev. To uavhengige sett, bestående av 27 og 20 lungekreft og 27 og 19 kreftfrem ved kontrollprøver fra de samme pasientene [27], ble brukt til å vurdere det generelle innholdet i den anslåtte markører.

Den beste tre enkelt gen diskriminatorer er CAV1, SFTPC og VWF for lungekreft, har den samme klassifisering nøyaktighet, 99,1% på treningssettet og 98,2% og 100%, 96,3% og 82,5%, og 88,9% og 100% i de to test settene, respektivt. De tre beste 2-genet kombinasjoner er FERMT2 + GREM1, TEK + NFASC, CAV1 + MMP1. Blant de øverste diskriminatorer har CAV1 blitt funnet å bli nedregulert ved brystkreft [28], og er rapportert å være assosiert med metastase i lungekreft [29]. SFTPC har blitt rapportert å være assosiert med interstitiell lungesykdom [30]. FAM107A, som undertrykker cellevekst, kan spille en rolle i utviklingen av kreft [31]. Andre topp discriminators representerer nye observasjoner. For eksempler, TNXB, SPP1 og EMCN har ikke tidligere blitt rapportert som kreft-relaterte.

E. Kreft i bukspyttkjertelen.

Analysen ble gjort på en microarray datasett bestående av 39 paret kreft i bukspyttkjertelen og prøver kontroll vev kreft-tilknytning fra de samme pasientene [32]. 885 gener ble funnet å være konsekvent og unormalt uttrykte med minst 2 ganger endring i sitt uttrykk på tvers av kreft og kontroll vev i treningsdata, 616 av disse er oppregulert og 269 er nedregulert i bukspyttkjertelkreft. To uavhengige sett, bestående av 36 og 29 bukspyttkjertelkreft prøver og 16 og 5 kreft ved kontrollprøver fra de samme pasientene [33], ble brukt til å vurdere det generelle innholdet i den anslåtte markører.

Den beste tre enkelt -Gene diskriminatorer er KRT17, COL10A1 og CTHRC1 for kreft i bukspyttkjertelen, har den samme klassifisering nøyaktighet, 93,6% på treningssettet og 88,5% og 80,4%, 84,6% og 73,2%, og 84,6% og 85,7% i de to testsett, henholdsvis. De tre 2- og 3-genet topp discriminators er {MMP7 + AZGP1; MMP7 + FGL1; MMP7 + PLA2G1B} og {CTHRC1 + SGPP2 + CCL18; TNFRSF21 + EGFL6 + CTHRC1; COL10A1 + S100A6 + RSAD2}, henholdsvis. Blant de øverste diskriminatorene, blir KRT17 kjent for å være involvert i vev reparasjon [34]. AZGP1 har vært rapportert å forårsake omfattende tap av fett, ofte forbundet med avansert kreft [35]. Andre topp discriminators representerer nye funn. For eksempler, RSAD2, involvert i antivirale forsvar, ikke har blitt rapportert som relatert til kreft, samt SGPP2, kjent for å være involvert i pro-inflammatoriske signal [36], og CST4.

F. Prostatakreft.

Analysen ble gjort på en microarray datasett bestående av 65 prostatakreft og 63 prøver fra de samme pasientene [37] kreftfrem tilstøtende kontroll vev. 118 gener ble funnet å være konsistent og unormalt uttrykte med minst en to-gangers forandring i sin ekspresjon på tvers av kreft og kontroll vev i vår treningsdata, hvorav 23 er oppregulert og 95 er nedregulert i lungekreft vev. To uavhengige sett, bestående av 62 og 53 prostatakreft prøver og 47 og 14 kreftfrem ved kontrollprøver fra de samme pasientene [38], ble brukt til å vurdere det generelle innholdet i den anslåtte markører.

Den beste tre enkelt genet diskriminatorer er Mylk, PALLD og CAV1 for prostatakreft, med 73,4%, 71,9% og 71,1% klassifisering nøyaktighet på treningssettet og 83,5% og 62,3%, 69,6% og 72,6%, og 94,2% og 75,5% på de to test setter hhv. De tre 2- og 3-genet topp discriminators er {LTF + IGF1; LTF + SPARCL1; SMTN + CCK} {SMTN + CCK + CCL2; SMTN + CCK + COMP; SMTN + CCK + PLA2G7}, henholdsvis. Blant de øverste diskriminatorene, blir LTF kjent for å hemme veksten av tumorer [39]. IGF1, en vekstfaktor, spiller en rolle i utviklingen av prostatakreft [40], og er rapportert som en indikator for prostatakreft [41]. Andre topp discriminators representerer nye funn. For eksempel kan CHRDL1 spille en rolle i å regulere angiogenese [42] men har ikke blitt rapportert å være relatert til kreft. Det samme er med SMTN.

G. Magekreft.

Analysen ble gjort på en microarray datasett bestående av 89 magekreft og 23 kreftfrem ved kontroll vev fra de samme pasientene [43]. Ut av de 89 kreft vevsprøver, 31 er tidlig stadium kreft. 311 gener ble funnet å være konsistent og unormalt uttrykte med minst en to-gangers forandring i sin ekspresjon på tvers av kreft og kontroll vev i vår treningsdata, 166 som er oppregulert og 145 er nedregulert i lungekreft vev. To uavhengige sett, bestående av 38 og 16 mage kreftprøver og 31 og 13 kreftfrem ved kontrollprøver fra de samme pasientene [44], [45] ble brukt til å vurdere det generelle innholdet i de forut markører, hvorav 12 er tidlig stadium prøver delvis sammen med 10 kontrollprøver.

de tre beste single-genet discriminators er SERPINH1, BGN og COL12A1 for magekreft, har 99,1%, 98,2% og 98,2% klassifisering nøyaktighet på treningssettet og 94,2% og 96,7 %, 88,4% og 93,3%, og 84,1% og 75,8% i de to test settene, respektivt. De tre beste 2-genet kombinasjoner er CHGA + SERPINH1, TGFBI + CHGA og PGC + SERPINH1 hhv. For tidlig magekreft, de tre beste

1

-Gene discriminators er også SERPINH1, BGN og COL12A1 hhv. Blant de øverste diskriminatorene, blir BGN kjent for å ha en rolle i å kontrollere cellevekst i kreft [46]. Den unormale ekspresjon av CTHRC1, en regulator av matrise avsetning, har vært mye funnet på tvers av forskjellige faste kreftformer, og er ansett for å være assosiert med kreft invasjon og metastase [34]. Av spesiell interesse er at PGC er blitt foreslått som en indikator på magekreft [47], og serumnivået av PGC ble anvendt som en biomarkør for forstadier til kreft i magesekken [48]. Andre topp discriminators representerer nye funn. For eksempel ABCA5, ADAMTS12 og CLEC3B har ikke blitt rapportert å være kreftrelatert.

Interessant, har antall differensielt uttrykte gener på tvers av forskjellige krefttyper en bred spredning, fra 118 (prostata), 231 (nyre ), 247 (colon), 294 (bryst), 311 (mage) til 683 (lunge) og 885 (bukspyttkjertelen). En mulig forklaring er at disse tallene kan gjenspeile aggressivitet av de tilsvarende kreft. Vi la merke til at det er sterk sammenheng mellom antall differensielt uttrykte gener i en gitt krefttype og fem-års overlevelse for pasienter med at kreft [49] (figur 2). De detaljerte statistikken er gitt i tabell S3. En annen interessant observasjon er at mens de fleste av de differensielt uttrykte gener med minst en to-gangers forandring i fem typer kreft (bryst, tarm, lunge, prostata, mage) er nedregulert i nyre og bukspyttkjertel kreft, fleste av slike gener er oppregulert, muligens tyder unike egenskapene til disse to kreftformene.

2. Markører for flere krefttyper

Vi har også søkt å identifisere gener som kan brukes som indikatorer for kreft generelt eller for en gruppe av kreft. Det er mulig å finne en felles gen «markører» på tvers av forskjellige krefttyper på grunn av den observasjon at flertallet av kreft, om ikke alle, undergår en felles sett av endringer [50] i løpet av onkogenese, slik som selvforsyning i vekstsignaler, ufølsomhet overfor antivekst signaler, unndragelse av apoptose, og vev invasjon og metastasering. Noen av disse biologiske prosesser kan utføres ved de samme grupper i proteiner under dannelsen og utviklingen av forskjellige krefttyper, og dermed muligens gir opphav til felles markører for forskjellige krefttyper.

A. Identifisering av gener uttrykt forskjellig på tvers av flere krefttyper.

Vi har undersøkt differensielt uttrykte gener med minst to-fold endringer mellom kreft og tilhørende kontroll vev på tvers av alle sju krefttyper og forsøkte å finne disse genene felles for flere kreft typer. De viktigste resultater er oppsummert i tabell 1.

85 gener er funnet å bli uttrykt forskjellig på tvers av minst tre typer kreft (Tabell S4), blant disse 19 gener er over i det minste fire krefttyper, og fem gener (ABCA8, DPT, FHL, CDC2 og TOP2A) på fem krefttyper. Forskjellene i genekspresjon på tvers av forskjellige krefttyper kan indikere enten en generell eller spesifikk relevans av genet til de tilsvarende kreftformer, som er blitt delvis bekreftet av den funksjonelle analyse og en omfattende litteratur søk. Den detaljerte molekylære funksjon av disse genene er oppsummert i tabell S4. 63 av de 85 gener er blitt rapportert å være assosiert med kreft tidligere studier. For eksempel, CDC2, oppregulert i fem av de syv kreftformer som er undersøkt, har blitt rapportert å være relatert til kolon, prostata og magekreft, noe som ikke er overraskende i lys av sin rolle i regulering av cellesyklusen, f.eks oppføring fra G

1 til S; TOP2A, igjen oppregulert i fem av de syv kreftformer, har blitt rapportert å være assosiert med gastrisk [51], bryst [52] og eggstokk-kreft [53], i overensstemmelse med sin funksjon i DNA-kjede regulering; Begge disse to gener er blitt betraktet som multi-type kreftmarkører ved en tidligere meta-analyse av kreft mikroarray data [7]. RRM2, oppregulert i fire av de syv kreftformer, har blitt foreslått å være relatert til spiserøret og mage kreft og prostata cancer, i samsvar med den kritiske rolle i DNA-syntese som må opprettholdes i hurtig delende celler. I tillegg har 49 gener blitt rapportert å være relevante for immune sykdommer, såsom CXCL12, COL1A1, MMP9, og CD36 [54], [55], [56], [57], som sannsynligvis gjenspeiler en inflammatorisk-type respons ofte forbundet med kreft. Blant dem, MMP9, viktig i ekstracellulær matriks nedbrytning, er oppregulert i tre av de syv kreftformer, og CD36, noe som kan fungere i celleadhesjon, er nedregulert i tre av de syv kreft;

Legg att eit svar