PLoS ONE: Identifisere Cancer Subtyper fra miRNA-TF-mRNA regulatoriske nettverk og Expression data

Abstract

Bakgrunn

Identifisere kreft subtyper er en viktig del av personlig medisin rammeverket. Et økende antall beregningsmetoder har blitt utviklet for å identifisere kreft subtyper. Men eksisterende metoder sjelden bruker informasjon fra gennettverk å lette subtype identifikasjon. Det er allment akseptert at gennettverk spille viktige roller i å forstå mekanismene for sykdommer. Forskjellige kreft subtyper er sannsynligvis forårsaket av ulike reguleringsmekanismer. Derfor er det store muligheter for å utvikle metoder som kan utnytte nettverksinformasjon for å identifisere kreft undergrupper.

Resultater

I denne artikkelen foreslår en metode, vektet likheten nettverk fusjon (WSNF), til bruke informasjonen i komplekset miRNA-TF-mRNA regulatoriske nettverk for å identifisere kreft subtyper. Vi først bygge det regulatoriske nettverk der nodene representerer funksjonene, dvs. microRNAs (mirnas), transkripsjonsfaktorer (TFS) og messenger RNA (mRNA) og kantene indikerer interaksjoner mellom funksjonene. Samspillet er hentet fra ulike interatomiske databaser. Vi bruker da nettverket informasjon og uttrykk data av mirnas, TFS og mRNAer for å beregne vekten av funksjonene, som representerer nivået av betydning av funksjonene. Funksjonen vekten er så integrert i et nettverk fusjon tilnærming til å klynge prøvene (pasienter) og dermed til å identifisere kreft subtyper. Vi søkte vår metode til TCGA bryst invasivt karsinom (BRCA) og glioblastoma multiforme (GBM) datasett. Forsøksresultatene viser at WSNF utfører bedre enn de andre vanlige beregningsmetoder, og informasjonen fra miRNA-TF-mRNA regulatoriske nettverk bidrar til forbedring ytelse. Den WSNF metoden med hell identifisert fem brystkreft subtyper og tre GBM undertyper som viser signifikant forskjellige overlevelsesmønstre. Vi observerte at uttrykket mønstre av funksjonene i noen miRNA-TF-mRNA undernettverk varierer på tvers av ulike identifiserte subtyper. I tillegg vei berikelse analyser viser at de beste veier som involverer de differensielt uttrykte gener i hver av de identifiserte subtyper er forskjellige. Resultatene vil gi verdifull informasjon for å forstå mekanismene som preger ulike kreft subtyper og bistå utformingen av behandlinger. Alle datasett og de R skript for å reprodusere resultatene er tilgjengelig online på nettstedet. https://nugget.unisa.edu.au/Thuc/cancersubtypes/

Citation: Xu T, Le TD, Liu L Wang R, Sun B, Li J (2016) Identifisere Cancer Subtyper fra miRNA-TF-mRNA regulatoriske nettverk og Expression data. PLoS ONE 11 (4): e0152792. doi: 10,1371 /journal.pone.0152792

Redaktør: Bibekanand Mallick, National Institute of Technology, Rourkela, INDIA

mottatt: 13 desember 2015; Godkjent: 18 mars 2016; Publisert: 01.04.2016

Copyright: © 2016 Xu et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Data Tilgjengelighet:. All relevant data er i avisen og dens saksdokumenter filer

Finansiering:. Dette arbeidet er delvis støttet av Australian Research Council (https://www.arc.gov.au/) Discovery Prosjekt DP130104090 (JL og LL ), og Natural Science Foundation National Kina 31371340 (BS), https://www.nsfc.gov.cn/publish/portal1/. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Snarere enn å være en enkelt sykdom, innebærer kreft ulike undergrupper preget av ulike sett av molekyler [1, 2]. Identifisere kreft subtyper er en viktig oppgave for å velge riktig behandling for pasienter, som ulike kreft subtyper kan svare godt til ulike behandlinger. For eksempel vil østrogenreseptor (ER) positiv brystkreft subtype svare på hormonbehandling, og human epidermal vekstfaktor reseptor 2 (HER2) positiv subtype er sannsynlig å dra nytte av cellegift. Men vår nåværende forståelse av mekanismene som styrer hver kreft subtype fortsatt langt fra komplett.

Flere beregningsmetoder har blitt utviklet for å identifisere kreft subtyper. Disse metodene faller inn i tre ulike strømmer av forskning. I den første strømmen, er data mining eller maskinlæringsmodeller bygget for å utnytte genekspresjon datasett for clustering prøver (pasienter) i forskjellige grupper, som hver tilsvarer en kreft subtype [3-7]. Men å benytte en genomisk datatype kan ikke være tilstrekkelig til å identifisere kreft subtyper nøyaktig. Med forkant av sekvense teknologier, er flere datatyper kreftpasienter som genomisk, miRNA og relaterte kliniske data gjøres tilgjengelig i dag. Disse stort datasett som fører til den andre strømmen av forskning hvor forskere analysere ulike typer data separat for å identifisere subtyper og de oppnådde resultater for seg er så integrert for å danne det endelige resultatet. Høydepunkter i denne tilnærmingen er [1, 8-10]. Men analysere de ulike typer data hver for seg kan miste den komplementære informasjonen i dataene på de samme pasienter, og det kan være i konflikt i de oppnådde resultater ved bruk av ulike typer data. Den siste strømmen av forskning fokuserer på å analysere multi omics data på samme tid, og har identifisert noen viktige kreft subtyper nylig [11-14].

Men informasjonen fra gennettverk er sjelden brukes av eksisterende beregningsmetoder. Gennettverk spiller en viktig rolle i alle livsprosessen, og å forstå dynamikken i disse nettverkene bidra til å avsløre mekanismen for andre sykdommer [15]. Selv om betydningen av nettverksbasert informasjon har blitt adressert i nyere arbeider [16, 17], er det fortsatt mangel på metoder som benytter biologisk informasjon fra nettverk til å identifisere kreft subtyper. Videre er det fortsatt en stor utfordring å knytte multi-omics data og nettverksinformasjon med kreft subtyper og resultatene spesielt prognose. Nylig, Liu et al. [18] slått Kripos (nettverks-assistert ko-clustering for identifisering av kreft subtyper) Fremgangsmåte for å utnytte uttrykket profiler av mRNA’er og til nettverket informasjon av mRNA-mRNA interaksjoner med en bi-gruppering metode for å oppdage kreft subtyper. Men gennettverk er komplekse og involverer mange typer regulatorer inkludert mirnas og TFS. Det er av interesse å utnytte informasjonen i nettverk som involverer mirnas, TFS, og mRNA identifisere kreft subtyper. Opplysningene kan ikke bare forbedre nøyaktigheten av beregningsmodeller, men også gi innsikt i mekanismer (regulatoriske nettverk) som regulerer hver kreft subtype.

I denne artikkelen foreslår vi en metode som kalles vektet likhet nettverk fusjon (WSNF), for å identifisere kreft undergrupper ved å gjøre bruk av både uttrykket data og informasjon om nettverk av mirnas, TFS og mRNA. Gitt et datasett som inneholder uttrykket profiler av et sett av miRNAs, TFS og mRNA (kjent som funksjoner i resten av papiret), WSNF først henter samspillet mellom disse funksjonene fra ulike interatomiske databaser for å bygge miRNA-TF-mRNA regulatoriske nettverk . I nettverket er funksjoner representert ved noder og interaksjoner mellom funksjoner som er angitt med kantene. Deretter beregner vekten (dvs. betydning) av en funksjon ved å utnytte nettverksinformasjon miRNA-TF-mRNA og uttrykket variasjon av funksjonene. Til slutt, vi endre likheten nettverk fusjon (SNF) tilnærming [11] for å ta funksjonen vekten i betraktning ved clustering pasienter for å identifisere kreft subtyper.

Vi anvender WSNF metoden til TCGA brystkreft og GBM datasett. De eksperimentelle resultatene viser at vår metode har klart identifisert fem brystkreft subtyper og tre GBM undertyper som viser signifikant forskjellige overlevelsesmønstre. Informasjonen fra miRNA-TF-mRNA regulatoriske nettverk forbedrer ytelsen til nettverket fusion tilnærming, som WSNF metoden er bedre enn både SNF [11], nettverket fusjon metoden uten å bruke funksjonen vekt og NCIS [18] som bare bruker mRNA uttrykk data og mRNA-mRNA interaksjoner. Vi sammenligner også vår metode med Consensus clustering (CC) [7], en metode som vanligvis brukes i TCGA forskning. De eksperimentelle resultater viser at den WSNF metode har også bedre ytelse med både brystkreft og GBM datasett. For brystkreft datasettet, analyserer vi de identifiserte subtyper i detalj og rapportere resultatene i form av uttrykk mønstre, forskjellene i miRNA-TF-mRNA regulatoriske nettverk på tvers av de ulike subtyper, og de funksjonelle trasé som karakteriserer hver subtype. Informasjonen kan være verdifulle for å bistå behandling utformingen av spesifikke brystkreft subtyper.

Materialer og metoder

Metode oversikt

Vi foreslår å bruke miRNA-TF-mRNA regulatorisk nettverk for å hjelpe identifiseringen av kreft subtyper. Det er tre hovedtrinnene i WSNF metode (figur 1), herunder: 1) å konstruere miRNA-TF-mRNA regulatoriske nettverk, 2) å beregne vekten for hver funksjon (miRNA, TF, mRNA), og 3) å modifisere og bruke den likheten nettverk fusion tilnærming [11] for å identifisere kreft undergrupper, mens du tar funksjonen vekten i betraktning. Vi beskriver detaljene for hvert trinn i det følgende.

I trinn 1, interaksjoner mellom mirnas, TFS og mRNA hentet fra databasene brukes til å konstruere miRNA-TF-mRNA regulatoriske nettverk. I trinn 2, er rangeringen av hver funksjon (R) beregnes på grunnlag av nettverksinformasjon, og genet og miRNA uttrykk data brukes for å få funksjonen uttrykk variasjon (MAD) på tvers av alle prøvene. Så for hver funksjon, er rangeringen og uttrykk variasjon kombinert for å få sin vekt (W). I trinn 3, blir de vektede prøve likheten nettverk hentet fra gener (mRNA, TFS) og mirnas separat ved hjelp av vekter og uttrykk data av funksjonene, og til slutt bygge nettverk fusjon og clustering er utført for å finne pasientgrupper som innebærer kreft subtyper.

Konstruere miRNA-TF-mRNA regulatoriske nettverk

i dette trinnet, bruker vi en rekke kilder for å bygge miRNA-TF-mRNA interaksjons nettverk. Nettverket inneholder ulike typer interaksjoner, inkludert de mellom miRNA-mRNA, miRNA-TF, TF-miRNA, TF-mRNA, TF-TF, og mRNA-mRNA. Figur 2 viser detaljer om datakilder for å hente de forskjellige typer interaksjoner. I figuren er hver type interaksjoner representeres som en kobling hvor kilden er regulatoren og pilen enden er målet. Datakildene er oppført ved siden av hver type samhandling.

Vi først få listen over TFS ved å kombinere TFS i Encyclopedia of DNA Elements (KODE) Chip-seq data, TransmiR [19 ] og FANTOM5 mennesketranskripsjonsfaktorer som er tilgjengelig på https://fantom.gsc.riken.jp/5/sstar/Browse_Transcription_Factors_hg19. Endelig oppnås en liste over 1679 TFS (se S1 fil for listen).

Som vist i figur 2, får vi de miRNA-mRNA og miRNA-TF interaksjoner fra eksperimentelt bekreftet databaser, inkludert Tarbase [20 ], mirTarbase [21], mirRecords [22], og prediksjon database Base v2.0 [23]. Tarbase, mirTarbase og mirRecords inkludere kuratert bekreftet interaksjoner fra litteraturen. Starbase v2.0 inneholder unionen av settene av miRNA-mRNA interaksjoner spådd av de fem miRNA mål prediksjon programmer (TargetScan, PicTar, pita, Miranda og RNA22). Den tester også hver av miRNA-mRNA interaksjons parene basert på TCGA Pan-kreft [24] uttrykk datasett. Kriteriet av valideringstesten er anti-korrelasjon med negativ Pearson korrelasjonskoeffisient (

p

-verdi 0,05) mellom en miRNA og sitt mål. I vårt nettverk, bruker vi miRNA-mRNA interaksjoner i Starbase v2.0 som støttes av minst én TCGA Pan-kreft uttrykk datasett. I tillegg miRNA-mRNA interaksjoner hentet fra kode data [25] blir også brukt i vårt arbeid. Samspillet er tilgjengelig på:. https://encodenets.gersteinlab.org/

mRNA-mRNA interaksjoner er hentet fra Reactome [26] og STRING v10.0 [27]. Siden finnes i Reactome og STRING er protein-protein interaksjons parene, bruker vi

org.Hs.eg.db

R pakke [28] for å kartlegge protein-genet merknad for å få tilsvarende mRNA-mRNA interaksjons par. Vi velger poengsum cut-off som 0,9 i STRING v10.0 å velge mRNA-mRNA par av høy troverdighet for vårt nettverk.

For TF regulering, får vi samspillet mellom TF-mRNA fra KODE ChIP -seq data [29] og Transkripsjonell Regulatory Element Database (TRED) [30]. Encode Chip-seq data på UCSC Genome Browser er behandlet ved hjelp av beregnings rørledning for å generere ensartede toppene i TF bindende. TRED er en integrert oppbevaringssted for både cis- og trans-regulatoriske elementer. Den inneholder kuratert transkripsjonsregulering informasjon, inkludert transkripsjonsfaktor bindende motiver og eksperimentelle bevis. Vi henter TF-TF interaksjoner fra Reactome og STRING, med protein-genet merknad kartlegging som for få TF-TF interaksjoner. For vårt nettverk, er TF-miRNA interaksjoner hentet fra to kilder: TransmiR [19] og utfyllende data fra [25] som er også tilgjengelig på https://encodenets.gersteinlab.org/

Beregning funksjonen. vekter

med den foreslåtte WSNF metoden, vi beregne vekten av en funksjon i to etapper. For det første bruker vi informasjonen om miRNA-TF-mRNA nettverk bygget i forrige trinn til å rangere funksjonene. Da uttrykket informasjonen blir brukt til å finne et uttrykk variasjonen av hver funksjon på tvers av alle prøvene i datasettene. Endelig, er vekten av en funksjon oppnås ved å kombinere sin rangering og uttrykk variasjon

Trinn 1:.. Computing vurdering av funksjoner ved hjelp av Google Pagerank

Google Pagerank [31, 32] er en algoritme som opprinnelig ble brukt til å rangere det store antall websider fra Google Search. Den er basert på en rettet graf

G product: (

V

,

E

) der nodene

V

representerer nettsider og kantene

E

indikerer hyperkoblinger mellom websider. Den grunnleggende forutsetningen er at en viktig nettside er sannsynlig å ha flere inngående linker fra andre nettsider. Anta at det er

N

nettsider {

p

1,

p

2, …,

p

N

}. Rangeringen av en nettside

p

i

er definert som følgende: (1) der

PR product: (

p

i

) og

PR product: (

p

j

) er rangeringen av nettsider

p

i

og

p

j

henholdsvis med

p

i

p

j

;

d

er dempefaktoren som er som et klikk-through sannsynlighet brukes til å forfalle rangeringen av nettsider uten utgående lenker, og 0

d

1;

M plakater (

p

i

) er det sett av websider som er knyttet til

p

i

; og

L product: (

p

j

) er antall utgående lenker fra

p

j

. Så en nettside

p

i

vil ha en høy rangering hvis det er forbundet med mange andre høyt rangert websider

p

j

. For interesserte lesere, konvergens og beregning av Pagerank bruker over iterativ formel (dvs. ligning 1) er illustrert i [33, 34].

For vårt tilfelle å utnytte miRNA-TF-mRNA regulatoriske nettverk til rang en funksjon, er et molekylært regulerende mange mål viktig. I vår miRNA-TF-mRNA-nettverk, betegnet som

G

(

V

,

E

), nodene

V

er funksjonene (miRNAs , TFS og mRNA) og kantene

E

er samspillet mellom myndigheter og deres mål. Retningen av en kant er fra en regulator til dens mål. En viktig regulator er analog til en viktig nettside i Pagerank at mange andre nettsider lenker til, bortsett fra at regulatoren har mange lenker som går ut av det til sine mål. Anta at det er

N

funksjoner {

f

1,

f

2, …,

f

N

}. Rankingen (regulatorisk betydning) av en funksjon

f

i

kan defineres på følgende måte ved hjelp av en modifisert Rank-algoritmen: (2) der

R plakater (

f

i

) og

R product: (

f

j

) er rangeringen av funksjoner

f

i

og

f

j

henholdsvis med

f

jeg

f

j

;

d

er dempefaktor, og 0

d

1;

T product: (

f

i

) er det sett av mål som

f

i

regulerer ; og

L product: (

f

j

) er antall regulatorer som regulerer

f

j

R og Matlab skript av databehandling funksjonen vurdering fra miRNA-TF-mRNA regulatoriske nettverk er gitt i S2 File

Trinn 2:… Integrering funksjonen vurdering og har variasjon

uttrykket variasjon mellom prøvene er en viktig indikator for forskning av kreft genomiske data. Funksjonene (for eksempel gener) med høyere uttrykk variasjoner blir alltid behandlet som mer viktig biologisk markør i kreftmekanismer. Vi bruker median absoluttavviket (MAD) til å representere uttrykk variant av en funksjon. Den MAD av en funksjon

f

I

beregnes slik: (3) der

X product: (

f

i

) er en numerisk vektor som representerer uttrykket verdiene av funksjonen

f

i

tvers av alle prøvene (pasienter).

for å integrere funksjonen variasjon med funksjonen ranking, NCIS [18] følger ideen om GeneRank [35] for å bare erstatte den delen [] i Google Pagerank-algoritmen med MAD for å få den endelige vekten av en funksjon. Imidlertid finner vi at den endelige vekten oppnås på denne måten både GeneRank og Kripos er sterkt korrelert med funksjonen vekt direkte beregnet med likning 2, det vil si uten bruk av MAD. Den sterke korrelasjonen innebærer at tilnærmingen tatt av de to metodene for å integrere MAD er ikke effektiv som uttrykket variasjon informasjonen ikke er reflektert av den endelige vekten innhentet ved hjelp av sin tilnærming. De detaljerte resultatene på dette funnet er vist i S3 File.

For å løse dette problemet, har vi adoptert en lineær modell for å effektivt integrere funksjonen rangering og funksjonen variasjon i dette papiret. Vi først normalisere funksjonen rangeringen hentet fra miRNA-TF-mRNA regulatoriske nettverk og har variasjon fra expression data som følger: (4) (5)

En lineær modell er deretter brukt til å integrere disse to tiltak for å få den endelige vekten for hver funksjon. (6) der

β

er en tuning parameter for betydningen av miRNA-TF-mRNA regulatoriske nettverk informasjonen. Jo større verdi på

β

er viktigere rolle informasjonen om miRNA-TF-mRNA regulatoriske nettverk vil spille i beregning av endelige vekten av funksjonene. I våre forsøk, vi satt

β

til 0,8 for å fokusere mer på nettverksinformasjon for kreft subtype oppdagelsen.

Vektet likheten nettverk fusjon

Vi bruker funksjonen vektinformasjon for å hjelpe identifiseringen av kreft undertyper fra genekspresjon data og miRNA ekspresjonsdata. For å oppnå dette har vi modifisere likheten nettverket fusjon (SNF) metoden [11] for å innlemme funksjonen vekt oppnådd i det foregående trinn i prosessen med kreft subtype klassifisering.

SNF er en multi-omics dataprosesseringsmetode som konstruerer en fusjon pasient likhet nettverk ved å integrere pasienten likheten erholdt fra hver av de genomiske datatyper. SNF beregner likheten mellom pasienter som bruker hver enkelt datatype separat. Likhetene mellom pasienter fra ulike datatyper er så integrert med et kryss-nettverk diffusjon prosess for å konstruere fusjons pasienten likhetsmatrise. Til slutt blir en gruppering metode anvendt på fusjons pasienten likhetsmatrisen å klynge pasienter i forskjellige grupper, som innebærer forskjellige kreft subtyper.

Nøkkeltrinnet for SNF er å definere likheten mellom pasienter, som vi trenger å stratifisere lignende pasienter og i samme gruppe (undertype). Euklidsk avstand er brukt i SNF for å måle likheten mellom pasienter i enkelt genomisk datatype, hvor, imidlertid, er alle funksjoner behandlet som like viktig. Anta at det er et uttrykk profil datasett (

n

pasienter ×

p

funksjoner), deretter den euklidske avstanden mellom pasient

S

i

og tålmodig

S

j

er: (7) der og er uttrykk verdier av

f

m

i pasienter

S

i

og

S

j

hhv.

Vi endrer pasienten avstand formel som følger ta vekten av hver funksjon i betraktning: (8)

Ved å anvende den ovenfor angitte modifiserte prøvene avstand formel anser den foreslåtte metode WSNF likheten mellom to pasienter basert på ikke bare den totale forskjellen mellom ekspresjonsnivåer av alle sine funksjoner, men også viktigheten (vekt) av hver av funksjonene. Som vi gjør bruk av miRNA-TF-mRNA nettverksinformasjon i beregningen av funksjonen vekt og vår metode behandler ulike funksjoner annerledes, vil vi se i Resultater og diskusjon avsnitt som WSNF betydelig utkonkurrerer SNF og de andre brukte metoder for å identifisere kreft subtyper.

diskusjon

datasett

i denne artikkelen bruker vi BRCA og GBM datasett fra kreft~~POS=TRUNC Genome Atlas (TCGA) for våre eksperimenter, inkludert

Resultater og gen (mRNA og TF) uttrykk data, miRNA uttrykk data og kliniske data (total overlevelse tid, overlevelse status og noen kliniske kovariatene). De Nivå 3 TCGA tumorprøver er lastet ned fra Broad GDAC Firehose (timestamp: 2015-04-02). For å få mest mulig antall matchet prøver for både kreft, bruker vi RNASeq og miRNAHiseq data for BRCA og microarray data for GBM.

gener og mirnas med svært lave nivåer og lave varianter over prøvene er fjernet. De ulike cut-off punkter er valgt basert på fordelingen karakteristikker av BRCA og GBM datasett (se S3 fil). For BRCA RNASeq og miRNAHiseq datasett, vi først bruke

logg

to transformasjon til preprocess dem, som vanligvis brukes for RNA-sekvense data som introduseres i

DESeq2 product: [36] R pakke . Vi beregner gjennomsnittsverdien for hver funksjon på tvers av prøver og fjerne de 25% gener og 60% mirnas med lav gjennomsnittlig uttrykk. Deretter standardavviket for hvert gen og miRNA beregnes, og gener og mirnas med standardavvik lavere enn 0,5 er også fjernet. For de GBM microarray data, er det noen mangler observasjoner. Vi først gjelder godtgjørelses ved hjelp av

tilregner

R pacakage [37]. Deretter beregner vi standardavvik for hvert gen og miRNA. Genene med standardavvik mindre enn 0,6 og mirnas med standardavvik mindre enn 0,2 er fjernet. Den detaljerte prosesser av datasettene er registrert i S3 fil. Til slutt er det 587 matchede prøvene i BRCA med 12,233 mRNA, 1338 TFS og 361 miRNAs. I mellomtiden, for GBM er 276 matchede prøver med 10,278 mRNA, 1,083 TFS og 287 mirnas (se S3 File).

Nettverk konstruksjon

Som nevnt i avsnittet Materialer og metoder, bruker vi flere offentlige databaser for å konstruere miRNA-TF-mRNA regulatoriske nettverk. Tabell 1 viser antall interaksjoner fra datakildene for å konstruere de regulatoriske nettverk for BRCA datasett. Lignende informasjon for GBM datasettet er i S3 File.

De identifiserte undertypene har vesentlig forskjellige overlevelsesmønstre

Med de konstruerte nettverk og BRCA og GBM uttrykk datasett, identifiserer WSNF fem brystkreft subtyper og tre GBM undertyper. De identifiserte kreft subtyper og tilhørende klinisk informasjon for brystkreft og GBM er gitt i S4 og S5 filer. For å vurdere hvor godt vår metode har utført for å identifisere kreft subtyper, gjennomfører vi overlevelsesanalyse av de identifiserte kreft subtyper. Figurene 3 og 4 viser overlevelseskurver for pasientene i de fem undergrupper av BRCA og de tre undergrupper av GBM, respektivt.

p

-verdier fra Log-rank tester [38] er 0,00483 for BRCA og 0.00279 for GBM. De p-verdier tyder på at de identifiserte subtyper i begge datasettene har vesentlig forskjellige overlevelsesmønstre, noe som indikerer ulike kreft subtyper hhv.

j

,

n

j

,

s

i

i Silhouette tomten er subtype etikett, antall pasienter i subtype og Silhouette bredde for pasienten

i

hhv.

j

,

n

j

,

s

i

i Silhouette tomten er subtype etikett, antall pasienter i subtype og Silhouette bredde for pasienten

i

hhv.

i tillegg bruker vi Silhouette bredde [39] og svart-hvitt heatmap for å demonstrere konsistensen av prøvene (pasienter) i hver undertype og forskjellen på tvers av forskjellige subtyper, respektivt. Som vist i figur 3 og 4, de samlede gjennomsnittlige Silhouette breddeverdiene er positive for både BRCA og GBM. Merk at Silhouette breddeverdien er positiv hvis prøvene i hver subtype er konsistente, og negativ ellers. I mellomtiden er de sorte-hvite varmekart genereres fra matrisen av prøven likheten ved å anordne prøvene ifølge klynge etiketter. De blokkgrenser for alle undergrupper er veldig klare. Spesielt, den tredje undertype av BRCA har en høy Silhouette breddeverdi og en klar kontrast i svart-hvitt heatmap, noe som antyder unike karakteristika for pasientene i denne subtype.

Nettverket informasjon forbedrer identifisering av kreft subtyper

for å undersøke om informasjonen fra miRNA-TF-mRNA regulatoriske nettverk faktisk bidrar til å forbedre identifiseringen av kreft subtyper, sammenligner vi WSNF metoden med de tidligere foreslåtte metoder inkludert NCIS [18], Consensus clustering (CC ) [7], og SNF [11]. NCIS benytter genuttrykk data og informasjon fra mRNA-mRNA interaksjoner. CC er den som vanligvis brukes clustering Fremgangsmåte i TCGA forskningsartikler [1, 8, 40-42] basert på enkelt genomisk datatype. SNF er flere genomet data fusjon og clustering metoden, men bruker ikke informasjonen fra gennettverk. For å gjøre en rettferdig sammenligning, fra våre bearbeidede datasett (BRCA GBM) og konstruert miRNA-TF-mRNA regulatoriske nettverk, bruker vi genuttrykket data og trekke mRNA-mRNA interaksjoner som inngangs for NICS. Vi sette sammen de normaliserte genuttrykk data og normaliserte miRNA uttrykket data for hver pasient som inngangsdata for CC. Inngangene på SNF er genuttrykk data og miRNA uttrykk data. Inngangene vår WSNF metode er genuttrykk data, miRNA uttrykk data og regulatoriske nettverk miRNA-TF-mRNA. Vi gjennomfører overlevelse analyser for de identifiserte subtyper av hver av metodene og sammenligne

p

-verdier av Log-rank tester [38] for å vurdere betydningen av de ulike overlevelses utdelinger over subtyper.

Fra tabell 2 ser vi at WSNF har betydelig lavere

p

-verdier enn andre vanlige metoder i både BRCA og GBM datasett. Når

β

er satt til 1, er vekten for de funksjonene helt bestemt av miRNA-TF-mRNA regulatoriske nettverk. Resultatene viser at den WSNF metode er bedre enn de andre eksisterende metoder, som tyder på at informasjonen fra den miRNA-TF-mRNA regulatoriske nettverk bidrar til å forbedre identifikasjon av undertypene. Vi observerer videre at metoden fungerer veldig bra i begge datasett når

β

er 0,8 (som er standardverdi brukes for

β

).

Brystkreft subtyper viser forskjellige uttrykk mønstre

i forrige avsnitt, har vi demonstrert ytelsen WSNF hjelp BRCA og GBM datasett. Resultatene tyder på at WSNF er i stand til å oppdage kreft undergrupper med forskjellige overlevelsesmønstre og vår metode utkonkurrerer de eksisterende kreft subtype identifikasjon metoder. Vi undersøker mRNA, TF og miRNA uttrykk mønstre på tvers av de fem forskjellige brystkreft subtyper. I likhet med [8], trekke vi «kjerneprøver» som er identifisert på grunnlag av deres Silhouette bredde ved å fjerne prøver med negative Silhouette bredde verdier i hver subtype. Det er 502 prøver med positive Silhouette breddeverdier på de fem undergrupper. Vi får også 69 normale prøver fra TCGA for sammenligning. De heatmaps for mRNA, TF, og miRNA uttrykket er vist i figur 5. Tar normal gruppe som referanse, kan vi se av figuren at uttrykket profiler mellom subtypene er vesentlig forskjellige.

Å ta en nærmere titt på uttrykk mønstre av gener som karakteriserer hver subtype, bruker vi

voom product: [43] metode og

Limma product: [44] R Package å finne de differensielt uttrykte gener (justert

p

-verdi 0,01) mellom hver subtype og normale prøver. Vi velger de beste 1500 differensielt uttrykte gener i hver subtype for analysen. Figur 6 viser overlappingen av differensielt uttrykte gener på tvers av subtypene. Det er 473 vanlige differensielt uttrykte gener for alle undergrupper. Samtidig har hver subtype deres spesifikke gener (Subtypesamlinger 1: 271, Undergruppe 2: 82, Undergruppe 3: 393, Undergruppe 4: 291, Undergruppe 5: 157). De felles gener på tvers av de fem subtyper og subtype-spesifikke gener er oppført i S6 fil. Selv om det er noen vanlige differensielt uttrykte gener for alle undergrupper, deres uttrykk mønstre er ganske forskjellige som vist i figur 7. I sistnevnte delen, gjennomfører vi veien analyse for subtype-spesifikke gener å utforske sine funksjonsegenskaper i hver subtype.

endringer i regulatoriske nettverk på tvers av brystkreft subtyper

Vi utvinner TF genet

BCL11A

å vise endringer i miRNA-TF-mRNA regulatoriske nettverk over de identifiserte brystkreft subtyper.

BCL11A

er et proto-onkogen som har en betydelig effekt på brystkreft [45]. Som vist i figur 8,

BCL11A

er sterkt uttrykt i Undergruppe 3, men ringe uttrykt i andre subtyper. Vi kart pasientene i Undergruppe 3 kliniske data og finner ut at 73,5% av pasientene er i trippel-negativ klasse, inkludert ER-, PR- og HER2-.

Legg att eit svar