PLoS ONE Stemme-cancer Module Identifikasjon ved å kombinere Topologiske og databaserte Properties

Abstract

Nylig, beregningsorientert tilnærminger som integrerer kopi antall avvik (CNAS) og genekspresjon (GE) har blitt grundig undersøkt for å identifisere kreftrelaterte gener og stier. I dette arbeidet, integrerer vi disse to datasettene med protein-protein interaksjon (PPI) informasjon for å finne kreft-relaterte funksjonelle moduler. Å integrere CNA og GE data, må vi først bygget et gen-gen forholdet nettverk fra et sett av frø gener ved opplisting av alle typer parvise korrelasjoner, f.eks GE-GE, CNA-GE, og CNA-CNA, over flere pasienter. Deretter foreslår en avstemnings-cancer-modulen identifikasjonsalgoritme ved å kombinere topologiske og datadrevne egenskaper (VToD algoritmen) ved å bruke gen-genet forhold nettverket som en kilde for datadrevet informasjon, og PPI-data som topologisk informasjon. Vi benyttet den VToD algoritmen til 266 glioblastoma multiforme (GBM) og 96 ovarialcancer (OVC) prøver som har både uttrykk og kopiantall målinger, og identifisert 22 GBM moduler og 23 OVC moduler. Blant 22 GBM moduler, 15, 12, og 20 moduler ble betydelig beriket med kreftrelaterte KEGG, BioCarta trasé, og GO vilkår, henholdsvis. Blant 23 OVC moduler, 19, 18, og 23 moduler ble betydelig beriket med kreftrelaterte KEGG, BioCarta trasé, og GO vilkår, henholdsvis. Tilsvarende har vi også observert at 9 og 2 GBM moduler og 15 og 18 OVC moduler ble beriket med kreft genet folketelling (CGC) og spesifikke kreft driver gener, henholdsvis. Vårt forslag modul-algoritme betydelig bedre enn andre eksisterende metoder i form av både funksjonelle og kreft genet sett enrichments. De fleste av de kreftrelaterte trasé fra begge kreft datasett som finnes i vår algoritme inneholdt mer enn to typer gen-gen relasjoner, viser sterke positive korrelasjoner mellom antall ulike typer forhold og CGC berikelse -verdier (0,64 for GBM og 0,49 for OVC). Denne studien tyder på at de identifiserte moduler som inneholder både uttrykk endringer og CNAs kan forklare kreftrelaterte aktiviteter med større innsikt

Citation. Azad AKM, Lee H (2013) Stemme-cancer Module Identifikasjon ved å kombinere Topological og Data- Driven Egenskaper. PLoS ONE åtte (8): e70498. doi: 10,1371 /journal.pone.0070498

Redaktør: Dongxiao Zhu, Wayne State University, USA

mottatt: 09.11.2012; Godkjent: 19 juni 2013; Publisert: 05.08.2013

Copyright: © 2013 Azad, Lee. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet (No. 2011-0029447) ble støttet av Midt-karriere Forsker Program gjennom en National Research Foundation finansiert av departementet for utdanning, vitenskap og teknologi. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Kreft er en felles genetisk sykdom og en av verdens ledende dødsårsak. Kreft genomikk identifiserer endringer av gener som spiller viktige roller i kreft initiering og progresjon. Tiår med forskning har avdekket at kreft er nært knyttet til unormale endringer i regelverket og signalveier i løpet av sin vekst og malignance [1], [2]; slike dysreguleringer i hovedveier oppstå på grunn av kombinasjoner av genetiske endringer og uttrykk endring av onkogener eller tumorsuppressorgener [3] – [5]. Derfor har mange algoritmer er utviklet for å identifisere stier knyttet til kreft [6] -. [9] med DNA CNAs, GE endringer, PPIs, og så videre

Omfattende bruk av GE for å studere molekylære stier har bidratt i klassifisere kreft subtyper, forutsi prognose, og å utvikle medikamenter for kreft. Men ved å bruke kun GE data for å identifisere kreftrelaterte gener er ikke nok fordi noen viktige gener i kreftrelaterte trasé ikke kan bli uttrykt forskjellig og noen differensielt uttrykte gener ikke kan være relevant for kreft. CNAs er strukturelle variasjoner av DNA-sekvenser som representerer unormale kopier av DNA-segmenter i en form for delesjon eller forsterkning i cellen [10]. CNAs er kjent for å være et kjennetegn på kreft, og metoder inkludert GISTIC [11], RAE [12], og WIFA [13] er blitt anvendt for å påvise kreft-driver gener i avvikende genomiske regioner. En fersk storskala analyse av GBM prøver fra Kreft Genome Atlas (TCGA) [8] viste genetiske forandringer inkludert mutasjoner, slettinger og presiseringer av DNA i 78%, 87% og 88% av 206 GBM prøvene i kjernekomponentene av RB, TP53, og RTK /PI3K veier, henholdsvis.

Flere studier har nylig rapportert betydningen av å integrere CNAS og GE datasett for identifikasjon av kreft-relaterte veier. TCGA forskning på kreft i eggstokkene, viste at genetiske endringer og genekspresjon, endres samtidig forekomme i retinoblastom-signalveien [14]. Jörnsten

et al.

[15] utviklet en modell som forklarer effekten av CNAs på GE i en storstilt nettverk. Basert på modellen, ble prognostiske score beregnet og kreftrelaterte gener ble identifisert. Akavia

et al.

[16] benyttet en integrerende bayesiansk tilnærming for å identifisere biologisk og terapeutisk viktige driver gener i genetisk endrede regioner ved å knytte kandidat driver gener med forskjellig uttrykt gener. De brukte den foreslåtte metoden til en melanom datasett og identifiserte kjente driver gener i melanom, sammen med nye kreft driver gener TBC1D16 og RAB27A. Et viktig fremskritt i å kombinere CNAs og GE er å analysere gener som en modul snarere enn som enkeltgener. Witten

et al.

[17] brukes kanonisk korrelasjonsanalyse for å integrere CNAs og GE. Denne metoden knytter CNA moduler med GE moduler og optimaliserer CNA-GE interaksjoner.

I bygge moduler eller subnett, har PPIs blitt brukt som forutgående informasjon å innlemme tilkobling mellom gener. Cerami

et al.

[9] foreslo en fremgangsmåte for å konstruere subnett som inneholder et betydelig antall av muterte gener med humane PPIer og for å identifisere veier som er relatert til GBM. Chuang

et al.

[6] foreslått en tilnærming av integrere PPIs og GE datasett for å identifisere subnettet markører som klassifiserer metastatiske og ikke-metastatiske svulster.

Vi foreslår en beregnings rammeverk for å innlemme CNA -CNA, CNA-GE og GE-GE forhold til protein interaksjon nettverk for å identifisere kreftrelaterte moduler hvor genetiske endringer av gener blir forklart av disse sammenhengene. Selv om GE-GE forholdet har blitt studert i flere tiår [18] – [20], CNA-CNA [21] – [23] og CNA-GE [7], [24] – [27] relasjoner har bare nylig blitt studert . Det er observert at amplifikasjoner og delesjoner av DNA-segmenter som kan påvirke uttrykk nivåer av gener i den samme sted, samt fjernt beliggende gener [25]. Dette trans-plassert assosiasjon mellom CNA og GE kan være en av mekanismene som forklarer kompliserte forhold mellom gener i signalering og regulatoriske reaksjonsveier. Å innlemme disse komplekse sammenhenger, konstruerer vi et gen-gen forholdet nettverk ved hjelp av forskjellig uttrykt og betydelig kopiantall endret genene i sammenkoblede datasett som inneholder både DNA og RNA data på de samme pasientene. Så, vi også innlemme PPI informasjon for å utnytte tidligere funksjonelle avhengigheter mellom gener. Vi brukte en avstemning tilnærming for å finne representative gener som er sterkt knyttet til andre gener gjennom foreninger blant CNAs, GE, og PPIs. Disse representative gener brukes til å konstruere pre-moduler ved å inkludere sterkt knyttet gener. Deretter blir pre-moduler slått sammen med andre pre-moduler som har statistisk signifikante assosiasjoner gjennom CNAs, GE, og PPI relasjoner, og endelig moduler er generert.

Den foreslåtte tilnærmingen ble brukt til GE og CNAs data av GBM og OVC prøver fra TCGA å identifisere kreft-relaterte moduler. De identifiserte modulene ble vurdert i to aspekter: funksjonell sammenheng og relevans for kreft. For å teste at modulene er sammensatt av funksjonelt sammenhengende gener, søkte vi funksjonelle berikelse tester ved hjelp KEGG [28], BioCarta trasé [29], og GO biologisk prosess [30]. For å teste at de genererte modulene er knyttet til kreft, må vi først valgt kreftrelaterte trasé fra disse tre kategoriene av veier. Siden det er fortsatt ingen enighet om hvilken trasé eller funksjonelle ordene er knyttet til kreft, anser vi at en vei er relatert til kreft hvis det er betydelig beriket med kreftrelaterte gener fra en kreft genet folketelling (CGC) [31]. Deretter søkte vi berikelse tester ved hjelp av disse kreftrelaterte veier. Våre resultater viste at kreftrelaterte banene ble anriket med våre identifiserte moduler i begge GBM og OVC datasett, og at et betydelig antall av gener i modulene var forbundet med andre gjennom CNA-CNA, CNA-GE, og GE-GE relasjoner .

Resultater

et rammeverk for å kombinere Topologiske og datadrevne Egenskaper

Vi utviklet VToD tilnærming til å bygge moduler som er sammensatt av et sett med funksjonelt sammenhengende og kreft relaterte gener. VToD ble utviklet basert på fire hoved ideer; (i) gener med liknende genekspresjonsprofiler og kopitall endringer er mer sannsynlig å være i den samme modul, (ii) gener kan være tilordnet til flere moduler for å reflektere den biologisk kunnskap at noen gener som er involvert i flere baner, (iii) genene i en kort avstand i PPI-nettverket er mer sannsynlig å tilhøre den samme modulen, og (iv) hub gener i PPI-nettverket er mer sannsynlig å bli inkludert i de moduler, siden mange hub gener som har et stort antall samvirkende partnere kan bidra til kreftutvikling. De førstnevnte to ideer vurdere datadrevne egenskaper, og de to sistnevnte reflektere topologiske egenskaper av gener innenfor PPI nettverket.

skjematisk diagram av vår foreslåtte VToD metoden er vist i figur 1. VToD konstruerer en gen-gen forholdet nettverk, ved å integrere GE og CNA datasett, der er et sett med frø gener og er et sett av gen-genet relasjoner. Seed gener blir valgt ved å kombinere forskjellig uttrykt (DE) gener og CNA gener, hvor CNA genene er hentet fra TCGA [8], [14] og er oppført i tabell S1. For GBM, ble 4,821 frø gener valgt ved å kombinere 2,976 DE gener og 2.073 CNA gener. For OVC, ble 6,649 frø gener konstruert av 710 DE gener og 6,510 CNA gener. Merk at noen frø gener er både forskjellig uttrykt og kopiere nummeret er endret. De gen-gen-relasjoner ble bygget, hvor to gener har sterk sammenheng i minst ett av tre typer relasjoner: GE-GE, CNA-GE, og CNA-CNA. Deretter integrerer VToD en PPI datasett med genet-genet forholdet nettverk

GGR

av følgende fire hovedtrinn.

(A) Gene uttrykk og deres parede CNA data er samlet inn. (B) Et gen-gen forhold nettverk,

GGR

, er bygget ved hjelp direkte og indirekte relasjoner til GE-GE, CNA-GE, og CNA-CNA. (C) En ny algoritme, VToD finner overlappende moduler som kombinerer

GGR

nettverk og PPI informasjon. (D) Funksjonell og kreft genet sett enrichments er testet for identifiserte moduler

Beregn sammenhengen mellom gener.

For hver to gener og, en forening verdi fra gen til gen er beregnet ved å kombinere den gene-genet forhold og PPI-datasett. Foreningen verdien kalles en – i denne studien, siden vi anta at genet stemmer for genet til å representere styrken på sammenhengen mellom to gener

Velg representative gener av hvert gen:

For. gen, er stemme-verdier fra alle andre gener sortert i synkende rekkefølge, og gener som ligger innenfor topp% av stemmene-verdier er valgt som representant gener av genet.

Form pre-moduler :

Hvis et gen er valgt som representant gen fra flere gener, andre gener velge genet som representant genet sammen med genet i seg selv utgjør en pre-modul

Merge pre-moduler. .:

to pre-modulene er slått sammen hvis parvise medlemmer av de to pre-moduler er sterkt relatert i genet-genet forholdet nettverk og er tett knyttet sammen i PPI nettverk

VToD algoritmen er inspirert av et dynamisk signal transduksjon system (STM) algoritme [32], hvor, for hvert gen, er de forbundet genene valgt for å danne pre-moduler basert på PPI-topologi eneste. Imidlertid ligger det klart skille mellom STM og VToD i ferd med å (i) å beregne sammenhengen mellom to gener og (ii) å slå sammen pre-moduler, ettersom vår tilnærming integrerer GE, CNAs, og PPI datasett.

De konstruerte modulene ble vurdert i to aspekter; (I) vi målt funksjonelle relevansen av de identifiserte moduler ved å teste hvorvidt gener i en modul ble beriket for KEGG, BioCarta trasé, og biologiske prosesser i GO vilkår (kalles en funksjonell berikelse test), og (ii) vi vurdert relevansen av modulene til kreft ved å anvende en anrikning test til kreftrelaterte trasé eller kreft-relaterte biologiske funksjoner som er undergrupper av de ovennevnte tre kategorier av trasé /GO betingelser beriket med kreft-relaterte gener fra CGC [31] (kalt en kreft relatert vei berikelse test). Videre testet vi om gener i de identifiserte modulene ble beriket med kreftgener fra CGC, GBM driver gener [33], og OVC-relaterte gener [34]. I disse vurderingene ble hypergeometrisk statistikk brukes til anriking test.

Moduler fra VToD Algoritme

De distribusjoner av alle oppregnet parvise gen-gen-relasjoner (GE-GE, CNA-GE, og CNA-CNA) blant frø gener er vist i figur S1, og fordelinger av alle stemme-verdier for GBM og OVC datasett er vist i figur S2. Siden antallet forhånds moduler avhenger av% verdiene i trinn 2 i VToD algoritmen, vi prøvde tre verdier for å undersøke hvordan verdier innvirkning på de konstruerte pre-moduler. Stem-verdier på toppen 1%, 0,25% og 0,1% til slutt ga 100, 68, og 43 pre-moduler for GBM, og 138, 53, og 34 pre-moduler for OVC. Deretter søkte vi de funksjonelle berikelse tester og kreftrelaterte vei berikelse tester til pre-moduler generert ved hjelp av de tre terskelverdier over. Figur 2 viser brøkdel av anriket pre-moduler; selv om mange pre-moduler har betydelig overlapping med kjente stier på tvers av alle tre terskler, pre-moduler fra = 0,25% og 0,1% har mer overlapping med trasé i forhold til = 1%, som viser at høyere stemme-verdier genererer høyere andel av funksjonelt relevant og kreft-relaterte moduler.

(A) er for GBM og (B) er for OVC. Barer representerer fraksjoner av moduler beriket med KEGG, BioCarta, GO biologisk prosess, kreft-relaterte KEGG, kreft-relaterte BioCarta, kreft-relaterte GO biologisk prosess, og kreft genet folketelling (CGC) i tre forskjellige stemme terskler. I tillegg, i hvert tilfelle, ble stemme-verdier beregnet ved å bruke bare topologiske egenskaper, med kun datadrevne egenskaper, og ved å kombinere dem til å sammenligne de individuelle virkninger på ytelsen. Antallet gener (NGS) i hver pre-modulen set vises tilsvarende.

Vi testet også viktigheten av å vurdere både topologiske og datadrevne egenskaper for parvis stemme beregning. Vi generert pre-moduler ved hjelp av bare topologiske og bare datadrevne egenskaper. Når den eneste egenskap ble anvendt, ble det samme antall genet parene valgt med den til genet parene valgt ved å kombinere begge egenskapene for hver verdi av. På tvers av alle tre verdier for terskelen, den fraksjon av funksjonelt anrikede moduler var høyere når topologiske og datadrevne egenskaper ble slått sammen enn når bare en enkelt egenskap ble anvendt for både GBM og OVC, som vist i figur 2.

Vi valgte = 0,1% som en terskel for videre analyse. Ved hjelp av denne grensen, for GBM, ble 43 pre-moduler oppnådd. Ved å slå sammen disse pre-modulene ble 22 moduler generert, og gjennomsnittlig antall gener i modulene var 24. For OVC, med samme terskel, 34 pre-moduler ble generert, og 23 moduler ble oppnådd etter sammenslåing pre-moduler, hvor gjennomsnittet av antall gener er 57. Alle gener i modulene er oppført i tabell S2 og S3 Tabell. Den statistiske signifikans av de identifiserte modulene er vist i figur S3.

Siden den VToD algoritmen tillater multiple skinn av gener i flere moduler, beregnet vi den gjennomsnittlige forholdet av vanlige gener mellom modulene. For GBM, forholdet mellom felles-genet var 16,07%, som var lik de av de KEGG og BioCarta veier. Også, ble fordelingen av forhold av vanlige gener beregnet. Rundt halvparten av modulene hadde 10% av felles gener, noe som indikerer at siste modulene vil bli beriket med distinkte funksjonelle trasé eller vilkår (Tall S4A og S4B). Vi har også undersøkt tre forskjellige typer direkte relasjoner (GE-GE, CNA-GE, og CNA-CNA) mellom genet parene innenfor hver av disse 22 GBM moduler (Figur s5a). Rundt 64% av modulene som inneholdes i det minste to typer av relasjoner, som viser (i) at genene med liknende genekspresjon og DNA-kopi antall endringer er mer sannsynlig å være i den samme modulen, og (ii) at aktiviteten av genene i disse identifiserte modulene kan forklares ved forskjellige molekylære mekanismer (tabell S4).

i 23 OVC moduler, det gjennomsnittlige forholdet av vanlige gener var 11,68%, som var også lavere enn de fra KEGG og BioCarta, og mer enn halvparten av de 23 OVC modulene hadde 10% av felles gener (Tall S4C og S4D). Rundt 83% av alle 23 OVC moduler (figur S5b) inneholdt minst to typer av direkte avtaler.

Kreft-relaterte moduler identifisert av VToD algoritme for GBM.

Vi søkte funksjonell og kreft genet satt berikelse tester til 22 GBM moduler. Vi fant at 19 (86,36%), 14 (63,63%), og 20 (90,9%) moduler ble betydelig anriket (FDR-verdi 0,05) med minst én KEGG, BioCarta, eller GO vilkår, henholdsvis, som viser at de identifiserte modulene er funksjonelt sammenhengende. Også 15 (68,18%), 12 (54,55%), og 20 (90,9%) GBM moduler ble betydelig beriket med kreftrelaterte KEGG, BioCarta trasé, og GO vilkår, henholdsvis. I tilfelle av kreft genet settet anrikning test, 9 og 2 GBM moduler hadde signifikant overlapping (FDR-verdi 0,05) med CGC [31] og GBM-relaterte gener [33], respektivt. Disse resultatene viser at våre moduler er relatert til kreftutvikling. Tabell 1 viser oppsummering av de fem utvalgte moduler som er bestilt av GBM-relaterte genet berikelse -verdier; disse modulene inneholder mange GBM-relaterte gener. Alle berikelse resultater for GBM datasettet er vist i tabellene S4, S5, S6 og S7.

Vi valgte GBM Modul 2 å forklare i detalj hvordan genene er i samspill med andre gener og er involvert i biologiske mekanismer i moduler. Vi valgte denne modulen for nærmere forklaring siden den har en lav berikelse-verdi med kreft gensettene, og inneholder genet parene med sterke sammenhenger i tre typer av direkte relasjoner. Denne modulen inneholder 1,080 genpar fra 48 gener, og blant dem var det 300 GE-GE, 9 CNA-GE, og 8 CNA-CNA direkte relasjoner. Figur 3A viser nettverket visningen av GBM Modul 2 med kun direkte relasjoner. Det var tre typer kanter i dette nettverket: i) røde kanter for CNA-CNA, ii) blå kanter for CNA-GE, og iii) grønne kanter for GE-GE relasjoner mellom to gener. Gener som tilhører betydelig beriket trasé /vilkår ble gruppert sammen. Informasjon for DNA CNAs og /eller uttrykk endringer for gener ble også merket med dem i hver gruppe. Frekvensene for kopitall endringer ble presentert som en prosentandel av 206 GBM prøver med enten fokal forsterkning eller homozygot delesjon i [8]. Å telle brøkdel av tumorprøver med genuttrykk endringer for, vurderte vi at en svulst prøven er over- eller under uttrykt dersom verdien av i ligning (1) tilhører de 10% av verdiene av alle kreftprøver, hvor er uttrykket verdien av en tumorprøve og er den midlere uttrykk for alle kontrollprøver for. Basert på fordelingen av for GBM og OVC datasett, 0.4 ble valgt for GBM og 0,365 for OVC. (1)

(A) Et nettverk visning av GBM Modul 2 bruker bare direkte relasjoner, tegnet av Cytoscape [ ,,,0],70]. Gener ble gruppert sammen basert på overlapp med BioCarta trasé, og prosentandelen av prøver med CNAS og GE endringer vises. CGC gener er farget i oliven og GBM gener er i lilla. Cytoband og Amp /Del (eller Endring utfoldelse Endringer) informasjon for CNA-CNA (eller CNA-GE) parene vises i innfelte bord. (B) Pathway berikelse tester med KEGG og BioCarta trasé for denne modulen vises. Nedbørssøylene viser de berikelse -verdier på stier og røde linjene viser overlappings -verdier mellom veien og GBM driver gener. Svarte, loddrette linjer viser -verdi terskel, 0,05, og bredden av de horisontale stolpene avhenger (-verdi). (C) Røde linjer viser overlapp -verdi med CGC og GBM driver gener.

En manuell litteraturstudie gitt støttende bevis for de direkte relasjoner GBM Modul 2. Genes i MAPK1-MAPK3, MAPK3- MAPK9, og MAPK1-MAPK9 parene er involvert i ulike kreft-og GBM-relaterte pathways, inkludert MAPK signalering, erbB signalering, fokus heft, og Toll-like receptor signalering. I BRCA2-ING1, både gener spiller viktige roller i cellesykluskontroll [35], [36]; ING1 er en tumor suppressor gen og samhandler med TP53, og dens under uttrykk og genetiske omorganisering har blitt observert i flere krefttyper, inkludert GBM [37]; og BRCA2, en tumor suppressor genet, har nylig blitt målrettet for sensibiliserende glioma celler for å drepe av anti-kreft narkotika [38]. I BTBD2-TEP1, er TEP1 et velkjent GBM suppressor-gen, og sletting /mutasjon av dette genet er blitt observert i mange kreftformer, inkludert GBM [39]; polymorfisme av BTBD2 er involvert i dobbel tråd pause reparere veien som kan være nyttig for GBM overleve [40]. I ING1-HMGB1, er begge gener lokalisert i kromosom 13q, hvor kopiantall tap har blitt rapportert [41] – [43], noe som tyder på co-forekommende sletting av disse to genene. I APEX1-HIF1A og HIF1A-TEP1 ha CNA-CNA forhold, APEX1 og HIF1A direkte samhandle med hverandre

in vitro product: [44]; og i GBM, kopiere antall tap på 14q11.1-q13.1, 14q23.2-q23.3, og 14q32.33, der disse genene er plassert, har blitt rapportert av Donovan

et al.

[45]. Forholdet mellom 14q11.1-11.2 og 14q23.1-31.3 er også vist i våre funn av CNA-GE relasjoner (APEX1-BRCA1, BRCA1-HIF1A, og BRCA1-TEP1) innenfor denne modulen. I BTBD2-BARD1 ble BARD1 foreslått som en formidler av apoptose siden over-uttrykk induserer celledød [46]; og høy LOH er påvist i menneskelig carcinoma metastaser til hjernen på kromosom 19p13.3 for BTBD2 [47].

Figur 3B viser berikelse tester ved hjelp KEGG og BioCarta trasé for GBM Modul 2. For å finne GBM- relaterte pathways, vi også beregnet -verdier for anriking av GBM-relaterte gener i disse banene, henholdsvis. I figur 3B, toppen 15 av 37 beriket KEGG og toppen 15 av 49 beriket BioCarta trasé er vist for GBM modul 2, sammen med deres tilsvarende overlapp -verdier, sortert etter de-verdier. GBM Modul 2 inneholder mange tidligere kjent GBM relaterte KEGG trasé inkludert Glioma, P53 signalering, MAPK signalering, erbB signalering, mTOR signalering, og VEGF signalering, og GBM-relaterte BioCarta trasé, inkludert ATM, G2, G1, RB, P53, PTEN , og møtte trasé [48]. GBM Modul 2 er også beriket med kreft-relaterte 40 KEGG, 48 BioCarta trasé, og 92 GO vilkår.

Vi testet også relevansen av GBM Modul 2 med kreft ved hjelp av CGC og GBM-relaterte gener, som vist i Figur 3C. GBM Modul 2 inneholdt 10 CGC gener av TP53, BRCA1, BRCA2, DAXX, DDX5, MDM2, MDM4, NPM1, TEP1, og WRN, noe som resulterer i en-verdi på 1,0510, og 2 GBM-relaterte gener av TP53 og TEP1, noe som resulterer i en -verdi av 1,0210.

kreft-relaterte moduler identifisert av VToD algoritme for eggstokkreft.

Blant 23 OVC moduler, 22 (95,65%), 18 (78,26%), 23 ( 100%), 15 (65,22%), og 18 (78,26%) moduler ble betydelig anriket (FDR-verdi 0,05) med minst én KEGG, BioCarta trasé, GO vilkår, CGC [31], eller OVC-relaterte gensettene [ ,,,0],34] hhv. Også 19 (82,61%), 18 (78,26%), og 23 (100%) OVC moduler ble betydelig beriket med kreft-relaterte KEGG, BioCarta, og GO vilkår, henholdsvis. Tabell 2 viser et sammendrag av fem utvalgte moduler som er bestilt av OVC-relaterte genet satt berikelse-verdier. Alle berikelse resultater for den OVC datasettet er vist i tabellene S8, S9, S10, S11 og

Vi undersøkte OVC modul 8 i detalj, slik som vist i figur 4.; den inneholder 629 genet par av 37 gener, og blant dem var det to GE-GE, 28 CNA-GE, og 49 CNA-CNA direkte relasjoner. I OVC Modul 8 er STAT5B-STAT3 gen par aktivert i eggstokkreft [49], samhandler med hverandre [50], og er involvert i mange stier inkludert Jak-STAT signalering, RAS signalering, chemokine signalering, EGF, IL10, PDGF og TPO veier. I STAT5B-Prlr, er begge gener involvert i Jak-STAT signalering, en signaltransduksjonsbane med nøkkelen kontroll over spredning, differensiering og overlevelse av melke celler [51]. Nylig er det blitt vist at Prlr og dens nedstrøms STAT5B er acetylert ved CREB-bindende protein (CBP) [52]. I EGF-STAT1 og EGF-STAT3, både genet parene er involvert i kreft i bukspyttkjertelen, EGF vei, og signaltransduksjonsbane; både STAT1 og STAT3 aktiveres av Jak kinase som respons på EGF [53] – [55], hvor JAK2 /STAT3 signalering er nødvendig for EGF-drevet eggstokkreft [55]. I PIK3R1-IGF1R disse genene samhandle med hverandre [56] og er involvert i mange funksjonelle baner, inkludert IGF1, IGF1R, HDAC, BAD, IGF1MTOR, og fokale vedheft veier. I ErbB2-STAT, er disse gener involvert i kreft i bukspyttkjertelen og signaltransduksjonsveiene; korrelasjonen mellom aktiveringen av ErbB2 og STAT3 har blitt observert i mange humane tumorer [57], [58]. I ErbB2-STAT5B, begge gener samvirke med JAK2 [59], [60] og er involvert i erbB signal- og signaltransduksjonsveier. I EGF-erbB2 disse genene direkte samhandler med hverandre [61] og er involvert i mange kreftformer, inkludert bukspyttkjertelen, livmor, prostata, blære og eggstokkreft. De er også involvert i erbB signalering og fokale vedheft veier. I HRAS-FYN disse genene samhandle med hverandre

in vitro product: [62] og er involvert i mange stier, som for eksempel fokus vedheft, axon veiledning, T-celle reseptor signalisering, og FC Epsilon RI signalering, ECM , TCR, og integrin trasé.

(A) Et nettverk visning av OVC Modul 8 bruker bare direkte relasjoner. CGC gener er farget i oliven og OVC-relaterte gener er i lilla. (B) Pathway berikelse tester testene var lik de i figur 3 (B), men her, røde linjene viser de overlapp -verdier mellom veien og OVC-relaterte gener. (C) Røde linjer viser de -verdier som overlapper med de av CGC- og OVC-relaterte gener.

Den øverste 15 av 37 beriket KEGG og topp 15 av 59 beriket BioCarta veier er også vist for OVC modul 8 i figur 4B. Det inkluderer kjente OVC-relaterte KEGG veier, for eksempel fokus vedheft, JAK-STAT signalering, erbB signalering, cytokin-cytokin reseptor interaksjon, chemokine signalering og VEGF signalering, og OVC-relaterte BioCarta trasé som AKT signalering, IL6, RAS, EGF, IGF1, PDGF, VEGF, CXCR4, og HER2 trasé [34]. Vi testet også relevansen av OVC Modul 8 til kreft. OVC Modul 8 ble beriket med 39 KEGG, 58 BioCarta veier, og 49 GO vilkår, som var kreftrelaterte undergrupper av de opprinnelige trasé /betingelser. Også, som vist i figur 4C, den OVC Modul 8 inneholdt 7 CGC gener (PTPN11, akt1, erbB2, FOXO1, HRAS, LIFR, og PIK3R1) med en-verdi på 2,0810 og 6 OVC-relaterte gener (EGF, EPHA2, erbB2 , PIK3R1, STAT3, og VEGFA) med en-verdi på 5,2310. Disse resultatene tyder på at våre identifiserte moduler fra de OVC datasettet representerer kreftrelaterte veier.

Sammenligning VToD med andre metoder

Tabell 3 viser ytelses sammenlikninger mellom vår foreslåtte VToD algoritme og andre clustering metoder ved hjelp GBM og OVC datasett; når sammenlignet med disse algoritmene, ble en høyere fraksjon av VToD moduler funksjonelt anriket enn moduler fra andre algoritmer. Selv om den funksjonelle anrikning av DFM-CIN moduler er sammenliknbare med VToD, VToD identifisert en høyere fraksjon av moduler encriched med kreft-relaterte veier enn DFM-CIN. Legg merke til at siden algoritmer ble utviklet for forskjellige datatyper, de ble sammenliknet med datatyper i det opprinnelige papir. For en hierarkisk clustering metode, ble GE, CNAS, og PPI datasett integrert

hierarkisk clustering. For å finne moduler av hierarkisk clustering algoritmen, konverterte vi vår gen-gen forholdet nettverk inn i en avstand matrise hjelp av topologiske overlapping metric [63] av WCGNA verktøy i R beregnings suite. Denne avstanden matrisen ble deretter anvendt for hierarkisk clustering med gjennomsnittet binding. Dendrogrammet av klyngen ble kuttet med en dynamisk tre snitt [64] algoritme, slutt å produsere 216 modulene når den GBM datasettet ble anvendt. Vi søkte funksjonelle og kreft genet sett berikelse tester med disse 216 moduler. Vi fant 14, 0 og 13 moduler som har betydelig overlapping med KEGG, BioCarta trasé, og gå vilkår, henholdsvis, og 4, 0 og 4 beriket moduler med kreftrelaterte undergrupper av KEGG, BioCarta, og GO vilkår, henholdsvis. Også, 5 og 1 modulene ble beriket med CGC- og GBM-relaterte gener (Tabell S12). Tabell 3 viser de sammenlignende resultatene mellom hierarkisk clustering og VToD algoritmer, som viser at VToD identifisert flere sti-anrikede moduler enn den hierarkiske clustering algoritmen (tabell S13). Videre viser figur S6a boksplottet av CGC og GBM driver genet berikelse-verdier, noe som indikerer høyere kreft genet enrichments i VToD sammenlignet med hierarkisk clustering. Også kakediagrammer i Figur S6B viser ulike kombinasjoner av tre typer direkte relasjoner (CNA-CNA, GE-CNA, GE-GE). Her VToD produsert en større del av moduler som inneholder mer enn én type direkte relasjoner i forhold til hierarkisk clustering.

Cerami et. al .: Cerami

et al. product: [9] utviklet en algoritme for å integrere DNA kopiantall, somatisk mutasjon, og PPI datasett, og har brukt den til 84 TCGA GBM data [8].

Legg att eit svar