PLoS ONE: ICAN: En integrert Co-Endring Network for å identifisere eggstokkreft-relaterte gener

Abstract

Bakgrunn

I løpet av det siste tiåret, har et økende antall integrerende studier på kreftrelaterte gener blitt publisert. Integrative analyser tar sikte på å overvinne begrensninger av en enkelt datatype, og gi en mer fullstendig oversikt over kreftutvikling. De aller fleste av disse studiene brukte sample-matchet data av genekspresjon og kopiantall for å undersøke effekten av kopiantall endring på genekspresjon, og å forutse og prioritere kandidat onkogener og tumorsuppressorgener. Men sammenhenger mellom gener ble neglisjert i disse studiene. Vårt arbeid forsøkte å evaluere co-endring av kopiantall, metylering og uttrykk, slik at vi kan identifisere kreftrelaterte gener og essensielle funksjonelle moduler i kreft.

Resultater

Vi bygde Integrated Co -alteration nettverk (ICAN) basert på multi-omics data, og analysert nettverket for å avdekke kreft-relaterte gener. Etter sammenligning med tilfeldige nettverk, identifiserte vi 155 eggstokkreft relaterte gener, inkludert velkjente (

TP53

,

BRCA1

,

RB1 ​​Hotell og

PTEN

) og også nye kreftrelaterte gener, for eksempel

PDPN Hotell og

EphA2

. Vi sammenlignet resultatene med en konvensjonell metode: CNAmet, og fått en betydelig bedre arealet under kurven verdi (ICAN: 0,8179, CNAmet: 0,5183)

Konklusjon

I denne artikkelen beskriver vi. et rammeverk for å finne kreftrelaterte gener basert på en integrert Co-endring nettverk. Våre resultater viste at ICAN kunne presist identifisere kandidatkreftgener, og gir økt mekanistisk forståelse av kreftutvikling. Dette arbeidet foreslått en ny forskningsrapport retning for biologisk nettverksanalyser som involverer multi-omics data

Citation. Zhou Y, Liu Y, Li K, Zhang R, Qiu F, Zhao N et al. (2015) ICAN: En integrert Co-Endring Network for å identifisere eggstokkreft-relaterte gener. PLoS ONE 10 (3): e0116095. doi: 10,1371 /journal.pone.0116095

Academic Redaktør: Lars Kaderali, Technische Universität Dresden, Medisinsk fakultet, TYSKLAND

mottatt: 14 juli 2014; Godkjent: 04.12.2014; Publisert: 24 mars 2015

Copyright: © 2015 Zhou et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Data Tilgjengelighet: All eggstokkreft datasett ble innhentet fra Kreft Genome Access, og er offentlig tilgjengelig fra TCGA nettsted (https://tcga-data.nci.nih.gov/tcga/)

Finansiering:. Dette arbeidet ble støttet delvis av Natural Science Foundation National of China (Grant nr 81372492), og delvis av Scientific Research Fund of Heilongjiang Provincial Education Department (No.12541278) og Foundation Natural Science of Heilongjiang-provinsen (Grant No. D201116). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

med den raske utviklingen av high-throughput teknologier, databaser som The Cancer Genome Atlas-prosjektet (TCGA) [1] og Kreftcellelinje Encyclopedia (CCLE) [2] har gitt mange høyoppløselige molekylære profiler av de samme kreftprøver, som involverer genuttrykk, kopiere nummer, metylering og miRNA uttrykk data. Disse datasettene aktivert integrerende analyser med fokus på identifisering av kreftrelaterte gener. Human tumorgenese og progresjon drives av den avvikende funksjon av gener som regulerer sider av celle proliferasjon, apoptose, genomstabilitet, angiogenese, invasjon og metastase [3]. En stor utfordring er å identifisere de kreft-relaterte gener, spesielt de som spiller en viktig rolle i initiering og utvikling av kreft. Identifisere slike gener vil bidra til videreutvikling av personlig medisin [4].

I løpet av det siste tiåret, flere metoder har blitt foreslått for integrering av genekspresjon og kopiere talldata. Disse metodene kan grovt deles inn i to kategorier: trinnvis integrasjon og felles metoder [3]. . For eksempel, Akavia et al [5] utviklet «genomiske fotavtrykk» teori, hvor de ekstraheres driver gener ved en metode basert på et Bayesian nettverk; men neglisjert de sammenhengen mellom gener, som samtidig endret på flere nivåer. Bicciato et al. [6] utviklet en trinnvis metode som kalles The signifikant overlapp av forskjellig uttrykt og Genomisk ubalanserte Regions (SODEGIR) for å identifisere diskrete genomiske regioner med koordinerte kopi nummer endringer og endringer på transkripsjonsnivå. Salari et al. [7] utviklet en R pakke kalt DRI å identifisere mRNA med konkordant kopiantall til uttrykk forholdet. Det har også vært integrerende tilnærminger basert på kanonisk korrelasjonsanalyse som tok sikte på å kvantifisere sammenhengen mellom antall kopier og uttrykk [8, 9]. I det hele tatt, slike metoder utgjør et bioinformatikk fremgangsmåte for den integrerende, gen-posisjon basert analyse av CN og GE data som muliggjør identifisering av diskrete kromosomale regioner eller gener av koordinerte kopitall forandringer og endringer i transkripsjonelle nivå. I tillegg til disse fremgangsmåter, Louhimo et al. [10] utførte en integrerende analyse av kopiantall, DNA-metylering og genuttrykk data, ved hjelp av CNAmet, for å identifisere gener som er koordinert forsterket, hypomethylated og oppregulert, eller koordinert slettet, hypermethylated og downregulated . Selv om deres arbeid integrert flere datatyper, fant vi at de var bare fokusert på regioner eller gener med samtidig CN /GE endring. og ikke undersøke den direkte eller indirekte sammenheng mellom endrede gener.

imidlertid cellefunksjoner blir sjelden bestemmes ved en enkelt gen, men snarere av mange gener kombinert i form av nett eller klynger. Mer enn ett gen er endret i utviklingen av kreft, fulgte de forskjellige mønstre av avbrudd, og samarbeidet for å bidra til tumor fenotype [11]. For eksempel, en fersk studie viste at RSF1 regulerer gener som er involvert i unndragelse av apoptose (

CFLAR

,

XIAP

,

BCL2 Hotell og

BCL2L1

) og regulerer en inflammatorisk genet (

PTGS2

) [12]. Også undersøkelser observert at endringer i kreft har en tendens til å oppstå i nært beslektede moduler og grupper [13]. Derfor bør korrelasjoner på flere nivåer tas i betraktning alvor. Studiene nevnt ovenfor ikke legge vekt på gen-gen sammenhenger. Noen andre studier har vurdert disse sammenhengene på ulike nivåer; imidlertid, ble tumor aktivering /undertrykkingsmekanismer de åpenbarte begrenset til et enkelt nivå. De tok ikke hensyn omfattende bidrag til kreftutvikling av genomisk og epigenomic funksjoner. De bare undersøkt en pådriver av et gen på et enkelt nivå for kreft progresjon. For eksempel, er koekspresjon den vanligste typen av korrelasjon. I 2005, Sean et al. [14] oppdaget forholdet mellom det høye nivået koekspresjon av

JAG1 Hotell og

NOTCH1

og dårlig prognose for brystkreft. Videre er innflytelsen av co-mutasjoner mellom gener ble også undersøkt i relasjon til sykdom. . I 2010 yunyan et al [15] undersøkte den funksjonelle sammenhengen mellom co-muterte gener; sine resultater gitt ny innsikt i de kompliserte koordineringsmekanismer av molekylære prosesser. Nylig, for å øke nøyaktigheten av kandidat genet screening, noen forskere også inkludert data av mRNA uttrykk og protein interaksjoner. Bashashati et al. [16] utviklet DriverNet algoritme, som er basert på interaksjonen gen, og identifisert sjeldne kandidat driver mutasjoner som kan forstyrre transkripsjonelle nettverk. Til tross for dette, er det fortsatt rom for forbedring. Integrering multi-omics data vil hjelpe oss til å utvikle seg i silikoaluminofosfater modeller som er nærmere virkeligheten, forbedre nøyaktigheten av kreft-relaterte genet identifikasjon, og gir en mer helhetlig forståelse av det molekylære patologi av kreft.

I denne studie, foreslo vi et rammeverk for å bygge en integrert Co-endring nettverk (ICAN). Vi integrert protein-protein interaksjon informasjon og sammenkoblede data fra kopiantall, DNA metylering og genuttrykk i 574 eggstokkene prøver. Canonical korrelasjonsanalyse (CCA) ble brukt til å analysere sammenhenger på tvers av genomiske, transcriptomic og epigenetiske nivåer, som er grunnlaget for vårt nettverk. Spesielt, kan vår tilnærming ikke bare identifisere genet parene som er co-endret på et enkelt nivå, men også genet parene med multi-level co-endring. Vi fant ut at

CHEK1

,

IGF1R

,

ISG15

,

MSH3 Hotell og

PODXL

ble co-endret på kopiantall , uttrykk og metylering nivåer samtidig. En co-endring nettverk av gener som effektivt kan vurdere styrken av en assosiasjon mellom gener på flere nivåer. Navet gener i dette nettverket foreslå intracellulære interaksjoner og komplekse funksjoner. Vi deretter utført funksjonsanalyse og overlevelse analyse for å validere kandidatkreftrelaterte gener identifisert ved tilfeldig turgåing. Etter flere test sammenhenger, vi endelig fått 17 gen endringer med prognostisk verdi.

kanonisk korrelasjonsanalyse metoden er vanligvis brukt til å analysere graden av korrelasjon mellom to grupper av variabler. I motsetning til Pearson korrelasjonskoeffisient, kan CCA effektivt avsløre den lineære avhengigheten mellom to grupper av variabler, slik at vi kunne måle gener «sammenheng med flere funksjoner. Vi sammenlignet co-endring nettverk med enkeltfaktoren korrelasjon nettverk (co-uttrykk nettverk, co-CNA nettverk, co-metylering nettverk) fra perspektivet av moduler, og fant moduler fra integrerende metoden var mer kompakt og mer betydnings (p-verdi = 2.2E-16). Funksjonell berikelse analyse av gener i modulene viste at de var beriket for visse funksjoner, inkludert celle apoptose, cellesyklus og kreft trasé.

Ved å forske på kreftrelaterte gener og deres sammenhenger, vil vårt arbeid gi en verdifull systemnivå teoretiske grunnlaget for diagnostikk, behandling og drug design innen bioinformatikk. Vårt arbeid fremhever viktigheten av systematisk integrering, og gir klinikken forskere med en ny innsikt i de molekylære mekanismene for tumordannelse og progresjon.

Materialer og metoder

Data

The Level 3 datasett av genekspresjon, kopiantall og DNA metylering for det samme settet med eggstokkreft prøver (Tabell 1) ble hentet fra offentlig tilgjengelig TCGA nettsted (https://tcga-data.nci.nih.gov/tcga/). Gistic2.0 ble brukt til å analysere kopitallet datasettet (nivå 3) for identifisering av tilbakevendende regioner av kopiantallet endring og kopiantallet av gener. Beta-verdier av DNA-metylering er kontinuerlige, varierer fra 0 (unmethylated) til 1 (fullstendig denaturert). Sonde IDer ble kartlagt til Gene symboler med merknaden bordet for Illumina Human-Methylation27 plattformen, som oppdaget metylering nivået på 27 578 CpG loci ligger innenfor de proksimale promoter regioner av transkripsjonsstartsider av 14,495 gener. Hvis det var flere sonder som svarer til det samme gen, har vi tatt i gjennomsnittsintensiteten av disse probene som betaverdien av genet og fjernes probene uten verdi eller tilsvarende genet. Vi valgte en K-nærmeste nabo-basert metode som tilregner manglende verdier i genuttrykk profiler, som ble iverksatt av en R-pakke (impute). I tillegg har vi lagt til en liste over de prøvene inn supplerende materiale (se S1 tabell).

For å integrere HPRD [17], Reactome [18], MSKCC Cancer Cell kart, og NCI /natur Pathway Interaksjon Database [19], Pathway interaksjonsdata og protein-protein interaksjonsdata ble brukt til å etablere det første nettverket. Pathway datasett for Reactome, ble NCI /Nature Pathway Interaksjon Database, og MSKCC Cancer Cell kart lastet ned i Simple Interaksjon Format (SIF) format fra Pathway Commons, protein-protein interaksjonsdata ble lastet ned fra HPRD. The Human Bakgrunn Network (HBN) var enhetlig sett av fire datasett. Samtidig ble overflødige kanter og selv koblet kant fjernet (tabell 2).

HBN vi bygget består av gener og interaksjoner i form av noder og kanter. Samspillet reflektere de funksjonelle sammenhenger mellom to gener, for eksempel en fysisk interaksjon, eller en indirekte interaksjon via felles vei.

Vi kjøpte 973 frø gener (S2 Table) fra fire veletablerte kreft og sykdoms- relaterte genet databaser: Cosmic [20], GAD [21], OMIM [22] og phenopedia [23]. Eggstokkreft frø gener ble definert som kjente onkogener eller tumorsuppressorgener assosiert med kreft i kjente databaser. Arbeidsflyten i vår tilnærming er avbildet i fig. 1 og ytterligere detaljer er gitt i neste avsnitt.

Forskjellen analyse av gener i et enkelt nivå

Gistic2.0 [24] ble brukt til å analysere kopi antall datasettet for å identifisere tilbakevendende regioner av kopiantallet endring og kopiantallet av gener. Vi identifiserte en rekke tilbakevendende brennvidde somatisk kopiantall endring (SCNA) hendelser, inkludert 55 betydelige presiseringer og 48 sletting topper. SAM [25] algoritme ble brukt til to sett med eggstokkreft prøver (tumor /normal) for å identifisere differensielt uttrykte gener: vi identifisert 549 høyt uttrykte gener og 805 lavt uttrykte gener som ble forskjellig uttrykt i kreft (endring = 2 og falske funnrate (FDR) 0,05). For DNA metylering data identifiserte vi svært signifikant (FDR 0,005) differentially denaturert gener i tumorprøver sammenlignet med normale prøver ved hjelp av Mann-Whitney-Wilcoxon test, inkludert 1445 hypermethylated gener og 1219 hypomethylated gener

Byggingen. av den integrerte co-endring nettverk og ytelse sammenligning

for å samtidig bruke flere funksjoner i gener og etablere sammenhengen mellom gener i genomet, epigenome og transkriptom nivå, vi utformet et rammeverk basert på CCA, brukt en statistisk metode for å analysere graden av samsvar mellom to sett av tilfeldige variable. CCA kan slå den ordinære korrelasjon mellom to variabler i den kanoniske korrelasjonen mellom to sett av variabler. Formålet med CCA er å søke maksimering av sammenhengen mellom to lineære kombinasjoner av variablene [26, 27]

I dette arbeidet funksjonene i genene ble sett på som tilfeldige variabler.; . Mulighet for to gener blir samtidig forandret på alle nivåer ble deretter målt ved følgende prosedyre

definert to gener: g

1, g

2. Anta at

G

1 = [g

1

(1), g

1

(2) …, g

1

(p)]

T

,

g

2 = [g

2

(1), g

2

(2) …, g

2

(p)]

T

, og de to vektorer består av

p

typer informasjon fra g

1 og g

2. I denne studien har vi satt

p = 3

.Benytt

G

en

for eksempel:

g

(1)

betegnet uttrykket verdiene av g1 i prøvene,

g

en

(2)

betegnet kopitallverdier av g1 i prøver, og

g

en

(3)

betegnet metylering verdier av g1 i prøvene. På samme måte kan vi definere

G

2

.

La oss, etter

Så kovariansmatrisen er definert som :, der hvert element beregnes ved formel (1). product: (1)

Vi bruker korrelasjonen av lineær kombinasjon av vektorer (nemlig en

TG

1, b

TG

2) for å måle det lineære forholdet mellom G

1 og G

2.

byggingen av ICAN ble gjennomført ved å søke maksimal korrelasjonskoeffisient mellom

U = en

T

G

1 Hotell og

V = b

T

G

to product: (2)

Løsninger på optimalisering problem (2) oppfylt betingelsene:

Var (a

TG

1) = 1, Var (b

TG

2) = 1

.

Vårt formål var å søke de mest egnede

en

og

b

slik at

korr product: (U, V) var den største. Det første paret av lineære kombinasjoner ble kalt det første par kanoniske variabler; deres største korrelasjon

ρ plakater (U

1, V

1) ble kalt den første kanoniske korrelasjon. Neste, hvis det finnes

en

k Hotell og

b

k

slik at følgende vilkår ble oppfylt:

var korrelert med opprinnelig K-1 par kanoniske variabler;.

korrelasjonskoeffisienten mellom og er den største

ble kalt den første K par kanoniske variable og

ρ (U

k, V

k)

ble kalt den første K kanonisk korrelasjon. I denne studien har vi satt K = 3. Rayleigh kvotient matrise :.

Den første korrelasjonskoeffisient er lik kvadratroten av den største egenverdien

λ

1

av matrisen R. på lignende måte er lik kvadratroten av den største egenverdien den første korrelasjonskoeffisienten K

λ

k

av matrisen

R

. Etter at den lineære korrelasjonskoeffisienten (

ρ

1,

ρ

2

ρ

3) ble beregnet mellom hver gen par i datasettet

Canonical sammenheng er en utvidelse av ordinær sammenheng.; den kan måle korrelasjonen mellom to sett av variabler [28]. Sammenlignet med anvendelse av en enkelt datatype, viste det mer nøyaktighet ved kvantifisering av det lineære forholdet mellom gener ved hjelp av deres ulike funksjoner [29]. Neste, i likhet med tidligere arbeider [29], brukte vi chi-squared test for å måle om den kanoniske korrelasjonskoeffisient (

ρ

1,

ρ

2

ρ

3) [30] var betydelig

nullhypotesen er H

0:.

λ

k

= … =

λ

p

= 0

La P

k være

p

-verdi av K-th testobservator

T

k

, med :, og

T

k product: ~ [29], der

n

er antall prøver. Til slutt ble det benyttet en kombinasjon av vekter (3) for å tildele en vekt til kantene som forbinder to gener, (3) Når

sluttvekt,

ω

, representerer korrelasjonen mellom gener mer presist.

ω

måler mulighet for to gener som blir ko-endret på nivået av kopitallet, DNA-metylering og genekspresjon. Vi deretter tilordnet vekten til HBN og konstruert integrert ko-endring nettverk betegnet som Ican. Fremgangsmåten kan måle styrken av forbindelsen mellom gener på flere nivåer. I dette arbeidet har vi implementert CCA-metoden og chi-kvadrat-basert statistisk signifikans test av biblioteket «CCA» og «Chi-kvadrat test» i R statistisk programvare.

I mellomtiden har vi beregnet Pearsons korrelasjonskoeffisient av uttrykket profiler (kopitall profiler og metylering profiler) mellom hvert par av gener og etablert en co-uttrykk nettverk (GCE), en co-kopi nummer nettverk (GCC) og en co-metylering nettverk (GCM). Denne prosessen ble også gjennomført i R statistisk programvare. For å bedre gjenspeile resultatet av vårt nettverk, sammenlignet vi ICAN og CNAmet, og mellom tre enkelts datanettverk.

Identifisere kandidat eggstokkreft relaterte gener

Random Walk med Starter [31] er en sorteringsalgoritme. Den simulerer prosessen med å gå trinnvis fra frø noder til direkte nabo noder; noder i nettverket blir rangert etter sannsynligheten for å nå frem til noden. Forutsatt

W

er nabomatrisen av ICAN og

P

t er en vektor hvis i-te element har sannsynligheten for å komme fram til node

i

på trinnet

t

, den random walk ble beregnet ved plakater (4)

fordelingen av verdiene av frø noder i den innledende sannsynlighetsvektor

P

0 ble satt som ensartet, med summen av sannsynligheten lik 1;

r

representerer sannsynligheten for å starte på frø noder, som ble satt til 0,7. Etter N trinn, vil denne sannsynligheten nå en stabil tilstand, som ble bestemt av forskjellen mellom

P

t og

P

t + 1. Vi utførte køyring til L1 normen mellom dem falt under 1E-10. Random Walk med Starter sannsynlighet for alle genene i nettverket ble beregnet. Vi analyserte differensial endring av de beste 20% gener i de ulike nivåene.

Kaplan-Meier overlevelsesanalyse for kandidatkreftrelaterte gener

En ikke-parametrisk Kaplan-Meier estimatoren ble brukt å anslå innvirkningen av forskjellige faktorer på overlevelsestiden. I dette arbeidet, for å utforske mulig prognostisk verdi av identifiserte kandidat gener, brukte vi «survival» pakken i

R Statistisk programvare. En

p

-verdi 0,05 og en FDR 0,25 ble brukt som en tidsavgrensninger for statistisk signifikans ved log-rank test.

Vi undersøkte endring av hvert gen i prøvene, og diskretisert de tre datasett i henhold til funksjonene i onkogener og tumorsuppressorgener, dvs. , forsterkning, overekspresjon, hypometylering; og omvendt: sletting, lav uttrykk og hypermethylation hhv. For kopi nummer data, vedtok vi resultatene av GISTIC2.0 diskret kopi nummer samtaler. Prøvene ble klassifisert som genet homozygot delesjon (-2) eller forsterkning (1/2). For genuttrykk data, beregnet vi at middelverdi og standardavvik (SD) for hvert gen: verdier som var høyere enn bety + SD ble vurdert overekspresjon. Omvendt, ble de verdier som var lavere enn middelverdien-SD vurderes som lav uttrykk. For DNA metylering data, setter vi terskelen basert på empirisk analyse av betaverdien fordelinger: en betaverdi mindre enn 0,2 ble ansett som hypometylering; en verdi mer enn 0,8 ble ansett som hypermethylation.

Identifisere funksjonelle moduler for ICAN

Vi identifiserte funksjonelle moduler fra ICAN og konstruert tre single-level nettverk ved hjelp MCODE [32]. Bruken av MCODE ble foretrukket for en lettere sammenligning av ICAN og de tre single-faktor nettverk, som de samme modulene ble identifisert fra uvektet nettverket. Kanten-vekting prosedyren ble utført separat for hvert nettverk, og M score til hver modul ble beregnet i henhold til en scoring formel (se Tilleggs fil S4 tabell for detaljer). En funksjonell berikelse analyse ble utført på kandidaten kreft-relaterte genet sett og genene inne i modulen ved hjelp av DAVID verktøy [33] (https://david.abcc.ncifcrf.gov/).

Resultater

ICAN har egenskapene til komplekse nettverk

Den integrerte co-endring nettverk er representert som en urettet vektet graf, der nodene representerer gener og kanter som forbinder nodene representerer de korrelasjoner av co-endring mellom gener . Først, gjør bruk av menneskelige interaksjonsdata og sti kunnskap, etablerte vi en HBN som består 9,195 noder og 65,720 kanter.

I 574 eggstokkreft tumorprøver, er det 11,384 gener som er tilstede i alle tre profiler av kopi nummer, arrangøren metylering og genuttrykk. Ifølge CCA, vi så beregnet vekten mellom hver to gener for å måle lineær korrelasjon av de tre funksjonene. Deretter ble kantene i nettverket er tilordnet vekter og de gener som ikke er inneholdt i molekyl profiler ble fjernet. Til slutt, vi bygget ICAN, som omfattet 6.345 noder og 40,125 kanter. Jo nærmere

ω

er 1, jo høyere korrelasjon mellom de to gener. I tillegg har vi brukt Pearson korrelasjonskoeffisient for nivået av genekspresjon, kopiantall, og DNA-metylering for å konstruere tre like store nett.

Nettverkstopologien spiller en viktig rolle i de biologiske funksjoner og informasjonstransmisjon i nettverk. Etter å ha analysert egenskapene for nettverkstopologi, fant vi at ICAN viste en skala-fri struktur, med en power-lov distribusjon av node grader. Dette betyr at Ican bare inneholder et lite antall noder hvis grad er høy, noe som antyder viktigheten av navet noder. Vi deretter brukt vektet tilfeldig gang metode for å identifisere hub noder. Denne metoden effektivt kan optimalisere kandidat sykdomsgener og nøyaktig forutsi kandidat viktige gener av kreft.

ICAN forbedrer nøyaktigheten av prioritering kandidatkreftrelaterte gener

ICAN inneholder 604 kjente eggstokkreft relaterte gener, som ble anvendt som gullstandarden for å plotte mottageroperatøren karakteristikker, og å beregne arealet under kurven (AUC). Basert på fem-fold kryssvalidering, valgte vi 80% av genene som frø gener; de resterende 20% var reservert for endelig godkjenning. For å bevise riktigheten av vår metode, ved hjelp av den samme datasettet, søkte vi CNAmet metode for å forutsi onkogener og tumorsuppressorgener, og sammenlignet resultatene med ICAN utfallet. Som et resultat av AUC-verdien av CNAmet var betydelig mindre enn AUC-verdien av ICAN (ICAN: Max AUC = 0,8179; CNAmet: AUC = 0,5183, p-verdi = 3.158e-14, de to første arkene i S5 Table) (fig. 2). Betydningen av forskjellen i AUC for to ROC kurver ble bestemt av DeLong test i «Proc pakke» [34].

Svart linje representerer ICAN, representerer rød stiplet linje CNAmet. Horisontal akse er falsk positiv rate, er den vertikale aksen sann positiv rate.

For mer nøyaktig forutsi kreftrelaterte gener i eggstokkreft, vi brukte en vektet tilfeldig gang metode for å beregne nærhet mellom andre noder og frø gener for å finne ut korrelasjoner med onkogener. Denne metoden er ofte referert til som «skyld-ved-direkte-foreningen» -prinsippet, ved hvilke gener som er assosiert med sykdomsgener tendens til å ha lignende funksjoner. Vi valgte tilfeldig gener i ICAN som frø gener, og sammenlignet dem med de opprinnelige resultatene. Denne prosessen ble gjentatt 1000 ganger; en justert

p

-verdi under 0,05 ble ansett som vesentlig for kreftrelaterte gener. På den annen side, sammenlignet vi forskjell i graden [35] og gen-lengde mellom kandidatgener og de andre gener. Nyere forskning har vist at en større lengde genet resulterer ofte i flere domener i de oversatte proteiner, noe som fører til forbedret interaktivitet, noe som betyr en større mulighet for genet som kreft-genet [36]. Resultatene viste at det ikke bare var det signifikante forskjeller i genet lengden av kandidat kreft-relaterte gener i forhold til de andre gener (

p

verdi = 2.64E-02, fig. 3, S6 tabell), men også resultatene var like med hensyn til genet grad (

p

verdi = 6.176E-07).

i fig. 3 (a), representerer lys grønn kandidatgener, grått representerer de andre gener i Ican, og den vertikale akse representerer graden av gener. I fig. 3 (b), representerer lys grønn kandidatgener, grått representerer de andre gener i Ican, og den vertikale aksen representerer lengden av gener.

Til slutt har vi identifisert 155 kandidat- kreft-relaterte gener (S7 Table), og analyserte co-endring hendelser av disse genene i detalj. CHEK1, IGF1R og MSH3 var co-endret til felles på alle tre nivåer; CHEK1, IGF1R, MSH3 og FANCA var co-forandra ved kopi nummer og uttrykk nivåer; og CHEK1, FGF18, IGF1R, IGFBP1, IGFBP2, MSH3, Plau, RAD51 og EIF2AK2 ble co-endret på nivået av DNA metylering og uttrykk.

CHEK1, FANCA og RAD51 er involvert i kontroll av stoppunkter i regulering av cellesyklus og reparasjonsprosessen, og spiller viktige roller enten i p53 signalveien eller MAPK signalveien. MAPK signalveien er en viktig kreft reaksjonsvei; aktivering av denne reaksjonsvei kan fremme endotelial celleproliferasjon og angiogenese. De nylig genererte blodkar kunne gi flere næringsstoffer til tumorceller, akselererende tumorvekst og fremme proliferasjon av kreftceller [37]. MSH3 og IGF1R har viktige roller i DNA replikasjon, rekombinasjon og reparasjon. Mangel på mismatch reparasjon, spesielt tap av uttrykk for de syv viktigste genene (MSH2, MSH3, MSH6, MLH1, MLH3, PMS1 og PMS2), kan øke risikoen for kreft i eggstokkene [38].

I tillegg vi analyserte differensial andelen av de beste 20% gener i ICAN ved tilfeldig turgåing. Fig. 4 viser at andelen differensial metylering var den høyeste i hver bar blant de topp 100; Men bare to gener har samtidige differensial endringer på alle tre nivåer. Antallet gener med bare én type endring (CNA, differensial metylering eller differensial uttrykk) var 13, 19 og 18, henholdsvis. Vi har funnet at antall gener som er differensielt endres på flere nivåer tendens til å stabilisere seg etter toppen 600, noe som indikerte at sannsynligheten for disse genene er mye høyere, noe som tyder på en tettere forbindelse med kjente frø gener.

valgt TOP 20% genet i ICAN av Random Walk, representerer hver bar antall differensial endring gener. GE representerer gener som bare var var forskjellig uttrykt i tumorprøver, på samme måte, representerer CN endring av genkopitallet; DM representerer DNA metylering; GD representerer genekspresjon og DNA-metylering; GC representerer genekspresjon og kopi nummer, CD representerer kopiantall og DNA metylering; GCD representerer genene endret i tre funksjoner.

Endringen av et gen på et enkelt nivå representert en kopi nummer abnormitet, forskjells uttrykk eller differensial metylering, henholdsvis (S3 tabell, ark 1-3).

Nye kreftrelaterte gener av eggstokkreft kan påvirke overlevelsen

for å anslå effekten av kandidatgener på pasientens overlevelse, og ser for genomisk og epigenetiske genomiske funksjoner knyttet til pasientenes prognose, vi brukt overlevelsesanalyse for å estimere bidraget fra 6 funksjoner for hvert av de 155 gener (930 totalt antall funksjoner) på overlevelsestiden. Vi identifiserte seks viktige onkogene risikofaktorer og 11 signifikante tumor suppressor faktorer (S8 Table).

Interessant, virkningen av homozygote sletting av kandidatgener på overlevelse var ikke signifikant. Vi har spekulert på om det kan resultere fra heterogeniteten til tumorprøver. Selv om høy uttrykk for PDPN ikke har en spesielt stor betydning for dårlig prognose (

p

verdi = 7.80E-04, FDR = 0,12, Fig. 5). Kreftceller med høy PDPN uttrykk har høyere malignt potensial på grunn av økt blodplateaggregasjon, som fremmer endring av cellemotilitet, metastaser og epitelial-mesenchymale overgang [39]. Tidligere studier har vist at overekspresjon av PDPN i fibroblaster er signifikant korrelert med en dårlig prognose i ovarialcancer [40].

I venstre panel, representerer den røde linjen prøvene med PDPN høy-uttrykk og den grønne linjen representerer prøven slakk av PDPN high-uttrykk.

Legg att eit svar