PLoS ONE: Integrative Gene Network Construction å analysere kreft tilbakefall Bruke Semi-tilsyn Learning

Abstract

Bakgrunn

Prognosen for kreft tilbakefall er et viktig forskningsområde i bioinformatikk og er utfordrende på grunn av de små utvalgsstørrelser i forhold til det store antall gener. Det har vært flere forsøk på å forutsi kreft tilbakefall. De fleste studier ansatt en veiledet tilnærming, som bruker bare noen få merkede prøver. Semi-overvåket læring kan være et flott alternativ for å løse dette problemet. Det har vært få forsøk basert på mangfoldige forutsetninger for å avsløre detaljerte rollene som identifiserte kreftgener i tilbakefall.

Resultater

For å kunne forutsi kreft tilbakefall, foreslo vi en ny semi-veiledet læring algoritme basert på en graf regularisering tilnærming. Vi forvandlet genuttrykk data i en graf struktur for semi-overvåket læring og integrerte protein interaksjonsdata med genuttrykk data for å velge funksjonelt-relaterte genet parene. Da spådde vi tilbakefall av kreft ved å bruke en regularisering tilnærming til bygget graf som inneholder både merkede og umerkede noder.

Konklusjoner

Den gjennomsnittlige forbedring rate av nøyaktighet for tre ulike kreft datasett var 24,9 % i forhold til eksisterende tilsyn og semi-overvåket metoder. Vi utførte funksjonelle berikelse på gensenett som anvendes til læring. Vi identifiserte at disse genene nettverk er signifikant assosiert med kreft-tilbakefall relaterte biologiske funksjoner. Vår algoritme ble utviklet med standard C ++ og er tilgjengelig i Linux og MS Windows-formater i STL biblioteket. Den kjørbare programmet er fritt tilgjengelig på:. https://embio.yonsei.ac.kr/~Park/ssl.php

Citation: Park C, Ahn J, Kim H, Park S (2014) Integrative Gene Network Construction å analysere kreft tilbakefall Bruke Semi-Veiledet læring. PLoS ONE 9 (1): e86309. doi: 10,1371 /journal.pone.0086309

Redaktør: Peter Csermely, Semmelweis University, Ungarn

mottatt: 03.07.2013; Godkjent: 09.12.2013; Publisert: 31 januar 2014

Copyright: © 2014 Park et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet av National Research Foundation of Korea (NRF) finansiert av Korea regjeringen (MSIP) (NRF-2012R1A2A1A01010775) den. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Identifisere kreft biomarkører for diagnose og prognose er en av de viktigste forskningsfelt i bioinformatikk. Bruk av nøyaktige kreft biomarkører kan bidra til å finne riktig behandling basert på pasientens status. Disse biomarkører kan presenteres som en liste av gener eller genet nettverksstruktur. Mikromatrisebasert genekspresjon har blitt brukt for å identifisere slike biomarkører [1], [2], [3]. I tillegg har flere nyere studier anvendes ikke bare genekspresjon data, men også interactome data for å øke den prediktive ytelsen. Kjente kreftrelaterte gener ikke er lett gjenkjennelig med genuttrykk nivå alene. Chuang

et al

. vist at integrering av interactome og transkriptom data var nyttig for identifisering av kouttrykte funksjonelle undernettverk, og interaksjoner av sub-nettverk fungerte som en markør med høyere klassifisering nøyaktighet [4]. Taylor

et al

. analysert global modularitet på protein interaksjon nettverk, og avslørte at intermodular navet, en av to typer av knutepunkter, ble mer ofte forbundet med onkogenese [5]. Ahn

et al

. foreslått en ny og nøyaktig klassifisering metode ved hjelp av integrasjon av begge interactome og transkriptom data [6]. De kan også konstrueres kreftspesifikke genet nettverk som stammer fra deres klassifisering metode, og avslørte at kreft-relaterte gener i et nettverk spiller en viktig rolle i kreft [6].

Selv om genekspresjon og interactome data er meget nyttig for cancer forskning, er forholdsvis lite antall prøver i forhold til antall gener som medfører utfordringer i analyse [7]. Påliteligheten til å oppdage gener forskjellig uttrykt i to forskjellige forhold er redusert med små utvalgsstørrelser. Det har vært forsøk på å overvinne denne begrensningen av mikromatrisebasert genuttrykk data [8]. Shi

et al

. nevnes at å skaffe microarray data med klinisk oppfølging informasjonen er tidkrevende, dyrt og begrenset av prøven tilgjengelighet [9]. Disse funnene antyder at de eksisterende overvåket-læringsbaserte tilnærminger som bare bruker merkede data fremdeles har begrensninger.

En fremgangsmåte for å supplere de små mengder av merket data er semi-overvåket læring, som er en blanding av super- reviderte og unsupervised metoder. Semi-veiledet læring kombinerer merkede og umerkede data for å konstruere en læringsmodell med forbedret nøyaktighet [10]. Generelt er semi-overvåket klassifisering som brukes når det er mer data enn umerkede merket data. I et slikt tilfelle, er det tenkt at kunnskap om de umerkede data vil være nyttig i den slutning av nøyaktige klasseregler under læringsprosessen.

Nylig, semi-overvåket læringsbaserte tilnærminger har blitt mye brukt til biologisk dataanalyse inkludert genetiske interaksjoner. Du

et al

. utviklet en graf basert semi-overvåket læring klassifiserer som kan forutsi parvise syntetiske genetiske interaksjoner [11]. Fordi genetiske interaksjonsProfilene kan bidra til å skape en bedre forståelse av sammenhengen mellom gener og funksjonelle veier, en nøyaktig algoritme for å forutsi genetiske interaksjoner er meget ønskelig til tross for mangelen av en høy presisjon funksjonelt gen nettverk. Semi-veiledet læring tilnærminger har også blitt brukt til prognose relaterte studier. Nguyen

et al

. foreslått en semi-overvåket læring basert metode for å forutsi gener som er involvert i sykdoms ved å utlede både sykdomsgener og deres naboer gjennom proteininteraksjon nettverk [12]. Bair

et al

. foreslått å bruke begge tilgjengelige kliniske data og genuttrykk data for å identifisere den delen av genene som brukes til å utføre semi-overvåket clustering [13]. Deres metode ble brukt for å avsløre undergrupper av kreft og forutsi pasientens overlevelse. Joshua Smith

et al

. brukte genekspresjonsprofiler til å identifisere et gen klassifikator forbundet med høy risiko for metastasering og død av kreft i tykktarmen [14].

Som nevnt ovenfor, semi-overvåket tilnærminger kan supplere begrensninger av genekspresjon dataanalyse, slik som mangel på en tilordnet klinisk klasse for hver enkelt pasient. Shi

et al

. foreslått en semi-overvåket klassifiserer basert på lav tetthet separasjon som kan identifisere høy risiko og lav-risiko pasienter [9]. At studien, som brukte og umerkede genuttrykk prøver, viste forbedret nøyaktighet sammenlignet med eksisterende metoder basert på veiledet læring. Det har imidlertid ikke vært et forsøk på å bruke både semi-veiledet læring og integrering av interactome og transkriptom data for å overvinne den lite antall merkede prøver og for å forbedre ytelsen til klassifisering og prediksjon. Integreringen av heterogene data kan hjelpe til å skjelne mer betydelige gener fra genuttrykk data som brukes til å bygge klassifiserere, som nevnt ovenfor.

I denne artikkelen, vi brukte graf regularisering og integrering av transkriptom og interactome data for å bygge opp en roman semi-veiledet læring baserte klassifikator for kreft hos mennesker, og bygget en kreft-spesifikke genet nettverk. Grafen regularisering er basert på «manifold antagelse «, der byggingen av grafen modeller er en viktig fase. I utforming av grafen modell for klassifisering, konstruerte vi grafen ved bruk av merkede og umerkede prøver som noder. Sammenhengen mellom to prøvene ble beregnet ved hjelp av de valgte informative genet parene. Ved valg av nyttige genpar, integrert vi Protein-Protein Interaction (PPI) data med genuttrykk data. PPI data gitt informasjon om det funksjonelle forholdet mellom proteiner og ble brukt til gener forbundet med PPIs. Når du har valgt genpar, søkte vi en scoring ordningen foreslått i en tidligere artikkel [6]. Vi har fokusert på bryst, tykk- og prostatakreft å forutsi kreft tilbakefall. Tre kreftpasienter «mRNA expression data inkludert både umerkede og merkede prøver.

Vi viste at (i) den foreslåtte semi-veiledet læring basert klassifisering forbedret prognose ytelse sammenlignet med eksisterende metoder, inkludert TSVM, som er en semi- overvåket læring versjon av SVM, (ii) den foreslåtte fremgangsmåte var anvendelig til forskjellige kreftformer, (iii) den foreslåtte fremgangsmåte var robust uavhengig av klassen etikett forholdet og (iv) den kreftspesifikke gen nettverk avledet fra sorteringsapparatet var biologisk meningsfylt, og kreft-spesifikke gener av dette nettverket spilte en rolle som medlemmer av komplekse biologiske prosesser.

Metoder

å bygge en semi-overvåket læring klassifikator, vi først integrerte genuttrykk data med PPI og identifisert informative genet parene med merkede prøver. For det andre, vi konstruert et eksempel basert graf modell av utvalgte informative gener for å bygge en klassifikator.

Data Beskrivelse

Vi har lastet ned de genuttrykk datasett av tre kreftformer fra Gene Expression Omnibus (GEO ) database. Tabell 1 oppsummerer detaljert spesifikasjon av datasett. Den genekspresjon datasettet GSE2990 var sammensatt av 125 invasiv brystkreft prøvene klassifisert i to grupper, høy og lav risiko for tilbakefall; 64 prøver hadde ikke en klasse etikett. Genuttrykket datasett GSE17536 besto av 177 pasienter med kolorektal kreft. Prøvene ble klassifisert i tre grupper:. «Tilbakefall,» «ingen tilbakefall, «og» umerket «Basert på observasjon av tilbakefall innen fem år med oppfølging, ble etikettene tildelt prøver. De umerkede prøvene hadde ingen kliniske oppfølgingsdata. Den genekspresjon datasettet GSE17538 var sammensatt av 213 tykktarmskreft prøver, som ble også klassifiseres i de tre gruppene som er nevnt ovenfor. En mer detaljert beskrivelse av datasett i henhold til den eksperimentelle plattformen er vist i tabell S2 i File S1.

Vi har også lastet ned 194,988 menneskelige PPIs fra I2D database, som inkluderte kjent, eksperimentell, og spådde PPIs . Fordi proteiner i disse PPIs ble kartlagt i genet symboler ved Universal Protein Resource (Uniprot), fikk vi 108,544 PPIs etter fjerning duplisert PPIs og PPIs som inneholdt proteiner som ikke ble tilordnet et gen symbol.

System Oversikt

Denne delen beskriver en roman graf basert semi-overvåket læring algoritme for kreft prognose. Kurven består av noder og kanter som svarer til prøvene og interaksjoner mellom to prøver, henholdsvis. Diagrammet er konstruert med både merkede og umerkede prøver av genuttrykk av data, og de umerkede prøvene ble deretter merket basert på geometrien av grafen struktur. Derfor er det meget viktig å generere en prøve basert graf fra den gitte datasettet. Vi foreslår en ny graf byggemetode som er spesialisert for en microarray datasett. Basert på denne grafen byggemåten, har vi utviklet en semi-overvåket læring algoritme som bruker grafen regularisering.

I denne tilnærmingen, selve grafen er en klassifikator. Således parametrene for å konstruere diagrammet antyde at de er de viktigste faktorene for sorteringsapparatet. Klassifiserings resultater avhenger av parametrene. Semi-veiledet læring generelt benytter funksjonen eller underliggende informasjon fra umerkede data. Denne fremgangsmåten forutsetter at umerket data er i stand til å forbedre klassifiserings ytelsen. Ifølge denne kjennetegn semi-overvåket læring, kan vi dra nytte av umerkede data for å bygge en klassifikator.

Den foreslåtte metoden har to faser. Den første fasen er å avgjøre kandidat optimale parametere for grafen regularisering varierende parameterverdier hos

k

fold kryssvalidering. Etter denne fasen, konstruerer vi grafen med både merkede og umerkede prøver. Deretter identifiserer vi om klassifisering resultatene fra grafen regularisering endres eller konvergerte. Hvis de blir endret, anser vi ØNSKES umerkede data som nylig merkede data og bruke dem til å bestemme de optimale kandidaten parametere. I denne iterative prosess blir informasjonen fra umerkede eksempler gitt. Den forrige semi-veiledet læring metoden foreslått i [9] brukes også umerkede prøver å bygge en klassifikator basert på Low Density Separation (LDS). Figur 1 viser hele arbeidsflyten inkludert semi-overvåket læring modul for å bestemme de optimale parametrene av vår metode.

Først må vi lage en graf for regularisering med bare merkede prøver av varierende to parametre. I denne fasen bruker vi

k

fold kryssvalidering for å finne den optimale parametersettet. Vi deretter bruke semi-overvåket læring med den oppnådde optimal parametersettet og forutsi etikettene av de ukjente prøvene. Den foreslåtte metoden bruker umerkede prøve informasjonen til å bygge en klassifikator ved å gjenta prosedyren.

Detaljene i semi-overvåket læring modul i denne arbeidsflyten er beskrevet i de neste avsnittene. Denne modulen består av følgende tre kjerne trinn: (1) identifisering av informative genpar, (2) bygging av prøve grafer med utvalgte gener, og (3) regularisering av grafen og prediksjon av etikettene til de umerkede prøvene. Arbeidsflyten av semi-overvåket læring modulen er vist i figur 2.

Vi bruker en graf regularisering tilnærming for semi-overvåket læring, og formålet med den foreslåtte metoden er å forutsi etikettene av umerkede prøver.

Identifikasjon av informative Gene Pairs

det er titusener av gener i microarray datasett, og bare noen av dem er spesifikke for klassifisering av prøven. Informative genpar indikerer interaksjoner som staves i de to motstridende klasser av merkede prøver. Vi vedtatt og endret vår tidligere foreslåtte ordningen for å identifisere interaksjoner i genuttrykket datasett [6]. I den studien demonstrerte vi at intensiteten av noen interaksjoner kan være forskjellig mellom normale celler og tumorceller. Vi har også klarlagt at endringer i samspillet nivå kan være årsaken eller virkning tumorgenese, og at modifiseringen av proteinkomplekser kan påvirke forskjellige interaksjoner som følge av tumorgenese.

Måling av forandringer i interaksjoner kan betraktes som identifikasjon av graden av avhengighet mellom to gener. En stor korrelasjonsverdi mellom to gener som en grad av forandring indikerer at det er sterk avhengighet mellom de to genene. Basert på denne begrunnelsen, foreslår en scoring ordning for å beregne styrken av forbindelsen mellom to gener som er forbundet med PPIer. Ved hjelp av dette tiltaket, kan vi forenkle valg av informative interaksjoner fra genuttrykk datasett, siden kreften bestemt nettverk ble bygget basert på en tilsvarende scoring funksjon. Med andre ord, kan vi velge samspillet spesifisert for tumorresidiv bruker den foreslåtte scoring ordningen. Poengsummen to genene er beregnet ved hjelp av følgende ligning: der

g

iC

1 og

g

iC

2 er vektorer av mRNA uttrykk verdien av genet

i

på klasse 1 og klasse 2 prøver, henholdsvis, og

g

JC

1 og

g

JC

2 er vektorer av mRNA uttrykk verdien av genet

j

på klasse 1 og klasse 2 prøver. Bare genet par med en scoring verdi større enn

terskel

g

anses å være vesentlig forskjellig mellom to klasser. Dette scoring ordningen utføres kun med de merkede prøvene i genuttrykk datasett. Et enkelt eksempel på beregning av poengverdier er vist i figur S1 i File S1.

Anleggs av Eksempelbasert graf

Vi konstruerte en sample-basert grafen for regularisering. Vekten av en prøve par er beregnet av Pearson Korrelasjonskoeffisient (PCC) mellom to prøve vektorer som er sammensatt av genene som elementer, hvor genene er oppnådd fra informative genet par. Både merkede og umerkede prøver blir anvendt i grafen. Vekten funksjon er som følger: hvor

S

*

i

og

S

*

j

er vektorer av mRNA-ekspresjon verdien av prøven

i

og prøve

j

, henholdsvis av de utvalgte genet parene med verdier større enn

terskel

s

. Vi antar at det er en signifikant relasjon mellom to stikkprøver når de er sterkt knyttet til hverandre med en positiv eller negativ mønster. Vi kan trans genekspresjonen datasettet til en graf struktur som kan regularized. Et enkelt eksempel på beregning av vekt verdi er vist i figur S1 i File S1.

regularisering av grafen

Basert på sample-basert grafen struktur stammer fra metoden som er nevnt ovenfor, etiketter tilordnes de umerkede noder. For å oppnå dette, benytter vi en grunnleggende regularisering tilnærming. For regularisering av grafen, anslår vi en regularisering rammeverk basert på de mangfoldige forutsetninger. Kostnadsfunksjonen for regularisering er som følger: hvor

y Hotell og

Y

indikerer henholdsvis de første etiketter og estimerte etiketter for både merkede og umerkede data.

W

ij

indikerer vekten mellom node

i

og node

j

. Det totale antall av både merkede og umerkede noder er

n

, og antall merkede noder er

l

. I vårt problem,

y

indikerer merket og umerkede prøver av kreft datasettet, og

W

ij

oppnås ved hjelp av vekten funksjonen definert i ovennevnte kapittel. Ved hjelp av kostnadsfunksjonen, måler vi konsistensen med den første merking med første periode, og vi tildele en straff for regularisering hjelp av andre periode. Bruk av andre periode, beregner vi et veid forskjellen mellom to noder uten hensyn til hvorvidt de er merket. Det viktigste formålet med denne kostnadsfunksjonen er å minimalisere det veide forskjell mellom alle nodene. Denne prosessen refererer til regularisering og er ekvivalent med etiketten forplantning algoritmen. I vårt tilfelle er det unødvendig å tilordne etiketter til de merkede dataene fordi de allerede har blitt klinisk bekreftet. Derfor, i første periode av kostnadsfunksjonen,

y

i

er begrenset til å være lik

y

i

. Som et resultat, kan kostnadsfunksjonen bli forvandlet til følgende funksjon med en graf Laplace.

der

L

er un-normalisert graf Laplace og

D

er en diagonal matrise av vekt matrise

W

. Denne funksjonen straffer rask label endringer i

Y

mellom to nære datapunkter i henhold til gitt vekt matrise. Ulike tilnærminger har vært foreslått å redusere denne funksjon over

y

u

, der

y

u

indikerer estimert etikett for umerkede data og

y

l

indikerer de merkede dataene. Minimere funksjonen med hensyn til

y

u

konverterer den til følgende funksjon.

Vi spår etikettene for de umerkede data ved hjelp av denne beregningen. Siden vi ikke fokusere på utvikling av ny semi-overvåket læring algoritme, ansetter vi en generell regularisering tilnærming for det veide prøven grafen, og det er tilstrekkelig å anvende den generelle tilnærming til vårt problem.

Resultater

Vi utførte eksperimenter for å oppnå den optimale kombinasjonen av to terskler for resultatet av et gen par og vekten av prøven basert grafen. Vi deretter sammenlignet vår metode med flere eksisterende metoder for å vurdere ytelsen. Til slutt, analyserte vi nettverket utledet fra vår metode med den kjente kreftrelaterte genet listen.

Innhenting av optimale parametre

Vi brukte to parametre å både identifisere informative genpar og tildele vekter for å prøve parene . For å finne optimale kombinasjoner av disse to parametrene målt vi nøyaktigheten av den foreslåtte klassifiseringsmodell ved hjelp av

k

fold kryssvalidering ved å variere disse to parametrene. Vi endret

terskel

g

verdi 0,15 til 0,6 i intervaller på 0,05 og

terskel

s

verdi 0,72 til 0,9 i intervaller på 0,02. Totalt utførte vi 100 forskjellige eksperimenter, varierende disse to terskler og måle nøyaktigheten av hvert forsøk som gjennomsnittet av

k

nøyaktig generert under

k

fold kryssvalidering. Figur S2 i File S1 viser arbeidsflyten av evalueringen av vår metode. For å måle nøyaktigheten av den semi-overvåket læringsmetode, vi brukte bare merkede prøver, og antatt at noen av prøvene var umerket. Ved hjelp av disse to gruppene av merkede og umerkede prøver, bygget vi grafen og utført regularisering.

For å bestemme klassifiseringen av umerkede prøver, vi brukte et heuristisk metode som kalles klasse Mass Normalisering (CMN) foreslått av [15]. Generelt, tildeler avgjørelsen regel etikett 1 til node

i

hvis den beregnede verdi etter regularisering er større enn 0,5, og merket 0 på annen måte. Imidlertid er denne beslutningen tilnærmingen bare effektiv når klassene er godt atskilt. Siden genuttrykk data ikke alltid har samme antall prøver for hver klasse, vedtok vi CMN å identifisere den siste klassen etiketten. CMN justerer kriteriet for å bestemme klassen merking i henhold til forholdet mellom massen av klassene.

De eksperimentelle resultatene oppnådd fra varierende parametere er vist i figur 3. Vi utførte 100 forskjellige eksperimenter, å variere de to terskelverdier for hvert datasett. For hvert forsøk, utførte vi

k

fold kryssvalidering og i gjennomsnitt

k

nøyaktighet. Hensikten med denne prosessen var å sammenligne nøyaktigheten av klassifiseringen på 100 forskjellige eksperimenter. Vi har også utført de samme eksperimentene med en justert datasettet, som hadde samme antall prøver for både tilbakefall og ikke-tilbakefall grupper siden ulike andeler av klasse etiketter kan påvirke ytelsen til klassifikator. Vår metode benytter halv-overvåket læring basert graf regularisering, som er påvirket av den geometriske struktur av grafen, for å klassifisere etiketten. Dersom de relative forhold mellom to klasser varierer betydelig, kan etikettene av et lite antall prøver ikke forplante seg gjennom kurven. Dette kan påvirke ytelsen klassifiseringen. Alle de utvalgte kreft datasett ble delt inn i originale og justert utvalgsgrupper. I resten av denne artikkelen beskriver vi et eksperiment utført med disse to gruppene. Vi fikk to optimal terskelverdier på maksimal nøyaktighet for hver datasettet, som vist i figur 3. Vi har også funnet det optimale terskler under endring av

k

verdien av kryssvalidering. De eksperimentelle resultatene av

k

= 5 og

k

= 20 er beskrevet i tabell S5 i File S1. De eksperimentelle resultatene er vist i tabell 2. For å vise effektiviteten av en umerkede data, har vi også gjort ut eksperimentene varierende antall umerkede prøver. Den eksperimentelle resultat gjøres at nøyaktigheten ble forbedret i henhold til økning av antall umerkede prøver. Dette eksperimentelle resultat er vist i tabell S6 i File S1.

Vi utførte 100 forskjellige eksperimenter når du skifter to terskelverdier og oppnådde 100 gjennomsnittlig nøyaktighet for hvert datasett ved hjelp av 10-fold kryssvalidering. Vi fant maksimum, minimum, og gjennomsnittlig nøyaktighet for hvert datasett i to tilfeller. (1) Vi har utført 10 ganger kryssvalidering over 100 ganger, å variere de to terskler for de opprinnelige prøver som vist i tabell 1. (2) Vi har også foretatt 10 ganger kryssvalidering over 100 ganger, å variere de to tersklene etter balansere antall prøver i de to klassene. Vi tilfeldig fjernet prøvene 27, 73 og 83 fra de ikke-tilbakefall grupper GSE2990, GSE17536, og GSE17538 hhv.

Sammenligning med eksisterende metoder

Vi sammenlignet foreslåtte metoden med tre typiske tilsyn klassifisering algoritmer implementert i Weka 3.6.8, nemlig Support Vector Machine (SVM) [16], naiv bayesiansk [17], og Random Forest [18]. I tillegg har vi også sammenlignet vår metode med TSVM, som er en semi-overvåket læring versjon av SVM og ble implementert i SVM-lys.

Vi sammenlignet nøyaktighet, inkludert følsomhet og spesifisitet, av den foreslåtte metoden og andre fremgangsmåter ved bruk av 10-gangers kryssvalidering. Vi delt datasettet inn i to grupper som nevnt ovenfor, og gjentok eksperimentet 15 ganger hver i tre krefttyper. Vi beregnet gjennomsnittsverdiene av nøyaktighet, følsomhet og spesifisitet for hvert datasett i den innstilte gruppen. Sensitiviteten og spesifisiteten TSVM kunne ikke skal beregnes siden TSVM av SVM-lys forutsatt nøyaktighet, presisjon og tilbakekalling. Tabell 3 oppsummerer resultatet av disse testene. I den opprinnelige gruppe, nøyaktigheten av vår fremgangsmåte var generelt bedre enn den for de sammenlignende metoder. Spesielt ytelsesforskjellen mellom den foreslåtte fremgangsmåten og andre algoritmer i den justerte gruppen var større enn i den opprinnelige gruppen. Dersom andelen av klassen etiketter er forspent i en treningsdatasettet, kan klassifikator være over montert mot et større etikett. Andelen av klassemerker i den opprinnelige gruppen ble forspent mot den ikke-tilbakefall label, «-1». Derfor er sensitiviteten og spesifisiteten til de fleste av de metoder i forhold, inkludert vår fremgangsmåte, var forskjellige. Siden forutsi begge etiketter er viktig for å forutsi tilbakefall av kreft, høyere klassifisering sensitivitet og spesifisitet er bedre. I den justerte gruppen, vår metode hadde høyere sensitivitet, spesifisitet og nøyaktighet enn de metoder for sammenligning. Vanligvis fikk vi bekreftet at den foreslåtte metoden hadde ytelse bedre enn i de andre metodene.

Den gjennomsnittlige nøyaktighet økte 24,9% i forhold til de fire eksisterende metoder. For eksempel, som vist i tabell 3, er nøyaktigheten av den foreslåtte fremgangsmåten var 0,725 og nøyaktigheten av TSVM var 0,543 for brystkreft datasettet uten å justere klasse etikett-forhold, en tilnærmet 33% forbedring. Den gjennomsnittlige forbedringen ratio for alle datasettene var 24,9%. Fem av seks eksperimentelle datasett inkludert de justerte prøvegruppene, og nøyaktigheten av den foreslåtte fremgangsmåten var høyere enn de eksisterende metoder. Den gjennomsnittlige forskjell i nøyaktigheten av den foreslåtte fremgangsmåte og konkurrentene var 0,139. Vi har også fått AUC-verdier for hver eksperimentell datasett. Som vist i figur 4, viser den foreslåtte fremgangsmåte en meget høyere AUC-verdi for brystkreft datasett og en høyere AUC-verdi sammenlignet med andre eksisterende metoder for fire av de seks eksperimentelle datasettene.

Vi sammenlignet AUC-verdier av foreslåtte metoden og andre veiledet læring algoritmer.

i tillegg utførte vi en uavhengig test der vi brukt lettelse-F for å velge informative gener i stedet for PPI. Vi har også gjennomført en statistisk analyse av signifikant forskjell i nøyaktighet for sammenligning mellom metoder. De detaljerte eksperimentelle resultatene er beskrevet i saksdokumenter i tabell S1, tabell S3, og tabell S4 i File S1.

Diskusjoner

Ytelsen til en klassifisering metode er påvirket av andelen av trening data i hver klasse. Beregnings bidraget av den foreslåtte fremgangsmåten er å bestemme den sammenhengende nøyaktigheten av forskjellene i klasse proporsjon. Dette er fordelaktig fordi det antall sampler for hver klasse ikke kan justeres under uavhengig testing. I tillegg, selv om klassifikasjon basert på semi-veiledet læring har blitt brukt til microarray datasett, resultatene av den foreslåtte metoden viser at tilnærming basert på «glatthet antagelsen» var tilstrekkelig for klinisk anvendelse.

For å redusere dimensjonen av microarray data, valgte vi gensettene med sterke biologiske interaksjoner. Derfor sample-basert grafisk fremstilling av regularisering ble bygget basert på biologisk kunnskap. Den valgte genet settet kan bli referert til som en gjentakelse spesifikt gen nettverk. Vår analyse viste at dette genet nettverket var biologisk meningsfylt i forhold til kreft tilbakefall. For å analysere kreft-tilbakefall-spesifikt gen nettverk, beriket vi den informative genet sett hentet fra den optimale parametersettet med Gene ontologi (GO) database og bingo [19]. Blant de mange beriket GO vilkår, fokuserte vi på de som er knyttet til kreft tilbakefall. Blant flere tilbakefall beslektede begreper, fokuserte vi på GO vilkår knyttet til «spredning» og analysert sub-genet nettverk for de GO vilkår, med henvisning til litteratur. For bedre å analysere detaljene undernettverk knyttet til proliferasjon i hvert kreft, illustrert vi nettverk ved bruk av Cytoscape [20], som vist i figur 5, Figur S3 i File S1, og fig S4 i File S1.

den oransje-fargede noder er onkogener.

den foreslåtte fremgangsmåte identifisert sub-genet nettverk bestående av BRCA1, CCND1, STAT1, og CCNB1, vist i figur 4, hvor den primære onkogen BRCA1 ble koblet med en annen onkogen CCND1 og to hub-strukturert gener, CCNB1 og STAT1. Vi antok at disse gen under nettverk ble knyttet til brystkreft. De CCND1, CCNB1, og STAT1 gener nabo BRCA1 er også rapportert å ha viktige roller i brystkreft. CCND1 er en primær gen i regulering av cellesyklusprogresjon, og Shu

et al

. rapportert en sammenheng mellom risiko for brystkreft og overlevelse basert på CCND1 polymorfismer [21]. CCNB1 en oncotype DX-genet ble rapportert at STAT1 var signifikant relatert til aktivering av IFN-γ og dens antitumor-virkning [22], [23]. Dersom STAT1-avhengig ekspresjon av MHC proteiner er forbedret, blir tumor proliferasjon og overlevelse inhiberes ved aktivering av IFN-γ. Desmedt

et al

. konkluderte med at aktivering av STAT1 spiller en viktig rolle i døden av kreftceller og aktivering av apoptotiske gener [23].

Konklusjoner

I denne studien foreslo vi en ny semi-veiledet læring metode basert på grafen regularisering for å forutsi kreft tilbakefall. Vi viste også at gjentakelses-spesifikke gen-nettverk som stammer fra den foreslåtte fremgangsmåte inneholder mange gjentagelses-relaterte gener. Vi integrert PPI data med genuttrykk data til å produsere en informativ gen sett og til å analysere biologiske prosessen knyttet til gjentakelse.

Legg att eit svar