PLoS ONE: Semi-tilsyn projektiv ikke-negativ Matrix Faktorisering for Cancer Classification

Abstract

Advances in DNA microarray teknologi har gjort genuttrykk profiler en betydelig kandidat i å identifisere ulike typer kreft. Tradisjonelle læringsbasert kreft identifikasjon metoder utnytte merkede prøver å trene en klassifikator, men de er upraktisk for praktisk anvendelse fordi etikettene er ganske dyrt i klinisk kreftforskning samfunnet. Denne artikkelen foreslår en semi-overvåket projektiv ikke-negative matrise faktormetoden (Semi-PNMF) for å lære en effektiv sorterings fra både merkede og umerkede prøvene, og dermed øke påfølgende kreft klassifisering ytelse. Spesielt Semi-PNMF lærer i fellesskap en ikke-negativ-subrom fra sammenkjedet merkede og umerkede prøver og viser klasser av posisjonene av de maksimale oppføringene i sine koeffisienter. Fordi Semi-PNMF inneholder statistisk informasjon fra det store volumet av umerkede prøver i den lærde underrom, kan det lære mer representative underrom og øke klassifisering ytelse. Vi utviklet en multiplikativ oppdatering regel (MUR) for å optimalisere Halv PNMF og bevist sin konvergens. De eksperimentelle resultatene av kreft klassifisering for to multiclass kreft genuttrykk profil datasett viser at halv PNMF utkonkurrerer de representative metoder

Citation. Zhang X, Guan N, Jia Z, Qiu X, Luo Z (2015) Semi -Supervised Projektiv Non-Negativ Matrix faktorisering for Cancer klassifisering. PLoS ONE 10 (9): e0138814. doi: 10,1371 /journal.pone.0138814

Redaktør: Ramin Homayouni, University of Memphis, USA

mottatt: 04.03.2015; Godkjent: 03.09.2015; Publisert: 22.09.2015

Copyright: © 2015 Zhang et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Data Tilgjengelighet: All relevant data er i avisen og dens saksdokumenter filer. Alle relevante data er tilgjengelige på Zenodo depotet, og tilgangen URL er https://zenodo.org/record/21712

Finansiering:. Dette arbeidet ble støttet av Kunnskapsdepartementet i Folkerepublikken Kina Grant antall 20134307110017 (www.moe.edu.cn), PI: Zhigang Luo og Natural Science Foundation of China Grant nummer 91024030 /G03 (https://www.nsfc.gov.cn/) National, PI. Xiaogang Qiu

konkurrerende interesser:. forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

i kreft prognose og behandling, er det avgjørende å identifisere ulike krefttyper og subtyper. Tradisjonelle metoder er ofte avhengige av lignende morfologiske skinn, men lett indusere ulike kliniske kurs og reaksjoner på behandling på grunn av subjektive tolkninger og personlig erfaring. Dette resulterer vanligvis i diagnostisk forvirring. Heldigvis fremveksten av DNA microarray teknikk fjerner denne barrieren på en objektiv og systematisk måte og har vist stort potensial i utfallet prediksjon av krefttyper i genom-wide skalaer [1-11].

Mange læringsformer har er utviklet for kreft klassifikasjon basert på genuttrykk profiler [1-3]. For eksempel, Golub

et al. Product: [1] brukt en vektet stemmegivning ordning for molekylær klassifisering av akutt leukemi. Nguyen

et al. Product: [3] innarbeidet Partial Least Squares (PLS) i den logistiske diskriminering og kvadratisk diskriminant analyse for svulst klassifisering. Men disse metodene er ikke praktisk for praktisk bruk fordi de merkede prøvene er ganske dyrt i klinisk kreftforskning samfunnet. For å overvinne denne mangelen, Xu

et al.

[12] brukt semi-overvåket Ellipsoid ARTMAP (ssEAM) metode for kreft klassifisering. Shi

et al.

[13] anvendes det halv overvåket metode betegnet med lav densitet separasjon (LDS, [14]) å klassifisere forskjellige typer kreft. Videre Maulik

et al.

[15] undersøkte effekten av transductive SVM (TSVM, [16]) i kreft klassifisering. Likevel, disse algoritmisk utfordringer involvere forbannelse dimensionality, noe som indikerer at det overveldende rekke tiltak for genuttrykk nivåer kontrast med lite antall prøver.

Dette problemet krever ofte dimensjon reduksjon teknikker. Denne artikkelen fokuserer på ikke-negative matrise faktorisering (NMF, [17, 18]) fordi det er et fleksibelt rammeverk for gjennomføring dimensjon reduksjon og utfører klassifisering og clustering oppgaver [19-26]. NMF dekomponerer en datamatrise inn i et produkt av to ikke-negative faktorer. På grunn av dens effektivitet, har NMF og dens varianter blitt brukt for å analysere store genuttrykk datasett [27-29], kreft klassifisering [30, 31] og ny klasse oppdagelse [30]. Brunet

et al.

[31] opprinnelig vedtatt NMF å avdekke molekylære meta-mønstre ved clustering prøver av leukemi, medulloblastoma og sentralnervesystemet svulster, og indikerer at NMF utkonkurrerer både hierarki clustering (HC) og selvorganiser kart (SOM). Men NMF ikke eksplisitt garantere sparseness av nedbrytning og bryter det unike eiendommen. Nyere arbeider [32] viser at dette ofte forringer clustering ytelse. For å løse dette problemet, Li

et al.

[32] foreslått lokal NMF (LNMF) for å overvinne denne mangelen ved å pålegge sparsom begrensninger over nedbryting. Hoyer

et al.

Slått sparsom NMF (SNMF, [33]) for å håndheve sparseness i NMF etter straffe antall ikke-null oppføringer av koeffisientene snarere enn summen av oppføringene. Videre Gao

et al.

[34] benyttes SNMF å identifisere meta-mønstre av ulike kreftformer for å identifisere ulike typer svulster.

Fordi de nevnte metodene følge regularisering teori, er de i fellesskap ikke-konveks, og er vanskelig å optimalisere. I motsetning til de ovennevnte metoder, Yuan

et al.

[35] utviklet det projiserte NMF (PNMF) for å indusere deler basert representasjon av implisitt å pålegge den ortogonale begrensnings over basis. Men fordi disse metodene er unsupervised læringsformer som ikke tar hensyn til etiketter, deres prestasjoner i kreft klassifisering kan forbedres ytterligere. I denne artikkelen foreslår vi en semi-overvåket projektiv NMF metode (Semi-PNMF) som utnytter både merkede og umerkede prøver å øke klassifisering ytelse. Spesielt lærer Semi-PNMF en ikke-negativ underrom fra sammenkjedet merkede og umerkede prøver og spår klasser av indeksen av de største oppføringer av sine koeffisienter. Drar nytte av de umerkede data, kan Semi-PNMF lære mer representative underrom, som er gunstig for klassifisering oppgaver. Vi utforsket en multiplikativ oppdatering regel (MUR) for å løse Halv PNMF og bevist sin konvergens. De eksperimentelle resultatene av kreft identifikasjon for multiclass kreft genuttrykk profilerte datasett inkludert GCM [8] og akutt leukemi [36] datasett viser at halv PNMF utkonkurrerer de representative metoder når det gjelder kvantitet.

Materialer og metoder

Semi-overvåket projektiv nonnegative Matrix faktorisering

projektiv ikke-negative matrise faktorisering (PNMF) lærer en ikke-negativ projeksjon matrise for å projisere høy-dimensjonale data inn i den nedre-dimensjonale underrom. Fordi det kan lære deler basert representasjon, har PNMF blitt mye brukt i mønstergjenkjenning [21, 26, 35, 37]. Her introduserer vi den andre representasjonen form av PNMF som lærer de lavere-dimensjonale koeffisienter av prøver å tilnærme klassen indikator for clustering. Dette er basert på en forutsetning om at grunnlaget ligger i underrommet utspent av de originale prøvene. Gitt datamatrisen

V

= [

v

1, ⋯,

v

n

]

T

R

n

×

m

, der

n

angir antall prøver og

m

deres dimensjonalitet, PNMF lærer koeffisientene

H

R

n

×

r

å representere originale prøvene, dvs. (1) hvor ∥ • ∥

F

betegner matrisen Frobenius normen og

r

antall klynger.

Som i mål (1), er det ikke-trivielt å analysere konvergens i teorien fordi likning (1) inneholder en fjerde-ordens sikt. For å fjerne en så høy orden sikt, må vi først introdusere et hjelpe variabel, dvs. klyngen centroids og likestilling begrensningen i ligning (1). Dermed kan vi få (2)

Formålet er svært lik BPNMF [26], men vi kan ikke direkte bruke optimaliseringsalgoritme for BPNMF å optimalisere det spesielt når ytterligere begrensninger som sparseness begrensning og Laplace regularisering blir pålagt over koeffisientene, da disse begrensningene lett induserer PNMF for å fremstille den trivielle løsning. For å unngå en slik ulempe, foreslår vi en semi-overvåket PNMF metode (Semi-PNMF) ved recasting likning (2) som (3) der

α

≥ 0 er en regularisering konstant og

W

betegner de ikke-negative klynge sentroide. Modell (3) skiller seg vesentlig fra BPNMF fordi ligning (3) favoriserer representative kapasiteten av klyngen centroids, mens BPNMF fokuserer på ortogonaliteten av den ikke-negative underrom. Således, ligning (3) induserer sparsom koeffisientene, mens BPNMF produserer sparsom basis.

I henhold til ligning (3), kan vi anvende den lokale koordinat begrensningen [38] for å forbedre den representative kraft av grunnlaget, i mellomtiden ytterligere indusere sparsom koeffisientene til å være sant klasser. Dermed støpt vi likning (3) som følgende regularisering form: (4) der

β

handler utenfor den lokale koordinere regularisering og

H

ij

betegner

i

-the rad og

j

-te kolonne element koeffisienter

H

,

W

j

og

V

i

, betegner

i

-te og

j

-te radvektor av

W

og

V

hhv.

for å gjøre full bruk av delvis merkede prøver, forplante vi etikettene av merkede prøver til umerkede seg ved å minimere avstanden mellom deres koeffisienter og tilsvarende klasse indikator. Spesielt krever vi koeffisientene merkede prøver til å være ekvivalent med den tilsvarende klasseindikator. Tenk det første

d

eksempler merket og resten umerkede; datamatrisen

V

kan deles inn i to deler, dvs.. Da kan vi få den objektive funksjon av Semi-PNMF som følger: (5) der

Q

betegner den delvise etiketten matrise der

Q

ij

= 1 hvis

v

i

tilhører

j

-te klasse; ellers,

Q

ij

= 0. Begge

H

U Hotell og

n

U

betegne koeffisientene og antall de umerkede prøvene, henholdsvis.

Interessant, har halv PNMF to forskjellige aspekter. For det første erstatter det de har lært koeffisientene for de merkede prøver med den tilsvarende klasseindikator. Begrensningen er så sterk at den lærde basis presser helt de merkede prøver. Dette kan indusere den trivielle løsning til koeffisientene til de umerkede prøvene. Sekund, Semi-PNMF ignorerer fullstendig representasjon bidraget fra de merkede prøver. Det er så uforståelig at lært basis favoriserer bare de umerkede prøvene. Det viste seg at begge deler motsier hverandre, men egentlig, de utfyller hverandre gjensidig i vår Semi-PNMF. I hovedsak tilsvarer den første aspektet til overvåket læring, som genererer rimelig løsning, men sørger ikke for den er i samsvar med det underliggende datafordeling, mens den andre en betrakter data fordeling, men kan ikke gi rimelig løsning. Således kan en kombinasjon av begge deler gjensidig utfyller hverandre. Semi-PNMF lærer den felles basis av de merkede og umerkede tilfeller, i mellomtiden å indusere lignende tilfeller å ha en tilsvarende representasjon, dvs. koeffisientene. Fordi vi pålegge den begrensning at koeffisientene til de merkede prøvene være sine etiketter samt lokale koordinere begrensningen over basis og koeffisientene, de umerkede prøve koeffisientene er implisitt så sparsom som etiketten vektorer. På denne måten forplanter Semi-PNMF effektivt etikettene av merkede prøver til de umerkede seg. Følgelig, i kreft klassifisering, er det rimelig at for hver umerkede prøve, velger vi indeksen av de største oppføring av sin koeffisient å forutsi klasser av denne prøven når målet (5) gir sine koeffisienter. Ovennevnte intuisjon kan bli ytterligere bekreftet av leketøy eksempel gitt i figurene 1 og 2.

I figur (a), både firkantede og sirkel markører betegne de umerkede og merkede prøver, henholdsvis, og tre forskjellige farger skiller seg i tre forskjellige kategorier. Fig (b) viser at de umerkede prøvene er merket som de bakkesannhets markører og farger. Fiken (c) og (d) viser de koeffisienter og basis lært ved Semi-PNMF, respektivt. Indeksen av maksimal verdi på koeffisienten for en umerket prøve vises i rødt og viser sin klasse.

optimaliseringsalgoritme

Det er vanskelig å optimalisere ligning (5), fordi det er i fellesskap ikke-konveks med hensyn til både

W Hotell og

H

. Heldigvis er det konveks med hensyn til

W Hotell og

H

hhv. Dermed kan vi slå fast følgende teorem:

Theorem 1: Målet funksjon (5) er ikke-økende under følgende multiplikative oppdaterings regler: (6) og (7) hvor ⊗ betegner element-messig produktet operatør,

F

U

=

diag product: (

sum product: (

H

U

)),

A

= [

en

, ⋯,

en

] der, og

B

= [

b

, ⋯,

b

], hvor

b

=

diag product: (

WW

T

) .

Proof. Ifølge ligning (5), kan vi oppnå målet med hensyn til

W

som følger: (8) der betegner diagonal matrise som diagonal elementene er

i

-te radvektor verdier av

V

U

.

av ligning (8), vi kan definere hjelpefunksjonen

J product: (

W

) som (9)

åpenbart, (9) har objektiv (10)

Vi kan få den deriverte av likning (9) som følger: (11) på grunnlag av likning ( 11), har vi (12)

Ved enkel algebra kan formel (6) kan ikke utledes fra ligning (12). På samme måte kan vi få hjelpefunksjonen

J product: (

H

U

) som følger: (13)

Setting, vi har (14)

Derfor, i henhold til ligning (14), har vi også tak i oppdateringen regel (7) for

H

U

.

videre, i henhold til ligningene (10), (12) og (14), har vi (15)

Ut fra likning (15), disse oppdateringsregler alltid garantere at objektivfunksjonen monotont minker. Dermed fullfører dette beviset. ■

Ifølge ovenfor teorem, oppsummerer vi multiplikativ oppdatering regel (MUR) for Semi-PNMF i Algoritme 1.

Algoritme en MUR for Semi-PNMF

Input Eksempler

V

R

m

×

n

, straff parameter

α

, delvis etikett matrise

Q

Output:.

H

U

1. Tilfeldig initial

W

0 og, og

l

= 0.

2: gjenta

3: Oppdatering

W

l

1 i henhold til ligning (6)

4. Beregn henhold til ligning (7)

5.

l

l

. 1

6: inntil {Stoppe kriteriet er oppfylt.}

7.

For å redusere tiden overhead, benytter algoritme 1 målet relative feilen som stopp kriterium; i tillegg satt

ɛ

til 10

-7 i våre eksperimenter. Den viktigste tiden kostnaden for Algoritme 1 ligger på linje 3 og linje 4. sin tid kompleksiteten er

O product: (

r

2

n

+

MRN

+

r

2

m

+

rm

) og

O product: (

mr plakater (

n

d

) +

r

2

m

+

rm

+

r

2 +

r

2 (

n Anmeldelser –

d

)), henholdsvis. Dermed er den totale tiden kompleksiteten av algoritmen en

O product: (

r

2

n

+

MRN

+

mr

(

n Anmeldelser –

d

) +

mrd

+

r

2

m

+

rm

+

r

2 +

r

2 (

n Anmeldelser –

d

).)

Resultater

denne seksjonen gjennomfører en rekke eksperimenter på både syntetiske og reelle datasett for å verifisere metoden foreslått i dette papiret.

syntetisk datasett

dette avsnittet genererer en liten syntetisk datasett for å avklare mekanismen av Semi-PNMF. Den syntetiske datasett består av tre kategorier konstruert av følgende stikkprøver: andwhere

x

R

3, og hver av sin inntreden er samplet fra standard jevn fordeling

U product: (0,1). For hver kategori, vi tilfeldig genererte 10 prøver, innen hvilke tre prøver ble valgt som merkede prøver og resten som umerkede seg. Derfor inneholder det syntetiske datasett 30 prøver totalt. For klar illustrasjon, er tre kategoriene markert som tre forskjellige farger, og de merkede og umerkede eksempler utmerker seg ved to figurer.

Fig 1 (a) og 1 (b) viser den første sannheten og den resulterende merkede resultater de umerkede prøver ved henholdsvis Semi-PNMF,, mens fig 1 (c) og 1 (d) viser de lært koeffisientene for de umerkede prøver og basis. I figur 1 (d), hver rad i lært basis har forskjellige farger, noe som tyder på at grunnlaget står for de centroids i forskjellige kategorier og eier diskriminerende representasjon evne. I henhold til figur 1 (c), hver rad av de lært koeffisientene er lavere-dimensjonale koeffisient av det tilsvarende umerkede prøven. Jo større oppføring av koeffisienten er, jo mørkere fargen er. Som vist i figur 1 (c), er den maksimale inntrengning av koeffisienten overstiger i stor grad de andre oppføringer. Alle maksimal oppføringer gjøre koeffisientene ta opp diagonal form og innebærer klase medlemskap i alle prøvene. Derfor er det rimelig å velge indeks av den maksimale inntrengning av koeffisienten som de forskjellige klasser av en umerket prøve. Dette bekrefter våre tidligere intuisjon. Ettersom alle prøvene deler den felles basis, deres koeffisienter ligge nær hverandre hvis de har de samme etiketter. Vi pålegge den begrensning at koeffisientene for merkede prøver være ekvivalente med deres etikett vektorer, og dermed denne induserer også koeffisientene i det umerkede å være nær sin etikett vektorer. På denne måten kan Semi-PNMF forplante etikettene av de merkede prøvene til de umerkede seg. Utbredelsen prosedyren er illustrert i figur 2.

GCM Datasett

Dette eksperimentet bare sammen tradisjonelle semi-overvåket læringsmetoder, inkludert separasjon lav tetthet (LDS, [14]), transductive SVM (TSVM, [16]), begrenset NMF (CNMF, [24]), soft-begrenset NMF (SCNMF, [25]) og Semi-PNMF ved å skille forskjellige typer kreft på GCM datasett. GCM datasett [8] inneholder uttrykket profiler av 218 tumorprøver som representerer 14 vanlige humane kreft klasser. Den er tilgjengelig på det offentlige nettstedet: https://www.broadinstitute.org/cgi-bin/cancer/datasets.cgi, og kan også lastes ned fra nettsiden: https://zenodo.org/record/21712. Ifølge [8], kombinerer vi opplæring og testing sett denne genuttrykk data i et datasett for kreft klassifisering. Således inneholder det kombinerte datasettet 198 prøver med 16,063 gener. Tabell 1 gir en kort beskrivelse av dette datasettet. For å fjerne svært lav støyende verdier og metning effekter av svært høye verdier, bundet vi genuttrykk data til en bestemt boks begrensning som strekker seg fra 20 til 16.000 enheter og deretter utelukke disse genene som forholdstall og absolutte forskjeller mellom prøvene er under 5 og 500, henholdsvis . Derfor inneholder den resulterende uttrykket profilen datasett de 11,370 gener som passerer. Vi sammenligner effekten av Semi-PNMF med LDS, TSVM, CNMF og SCNMF under varierende konfigurasjoner. Både CNMF og SCNMF innebærer ingen parameter tuning. For Semi-PNMF, vi satt to parametre

α

= 2 og

henholdsvis β

= 0,0001,. Fordi disse representative metodene at konvergens innen 1500 iterasjon runder, setter vi det maksimale antall løkker til 1500. For LDS og TSVM, vedta vi parameterinnstillingene som er gitt i kildekoden for å få klassifiseringsresultatene.

Vi evaluerer kreft klassifisering av kryssvalidering over hele datasettet. Denne prosessen velger en prøve som den umerkede prøven og, i mellomtiden, lærer prediksjon modellen på alle prøvene for kreftdiagnose. For den umerkede prøven, velger vi indeksen for den største verdien av den resulterende konsensus matrise for å forutsi klasser av denne prøven. Som vist i figurene 3 til 7, er den forvirring matrise av de forutsagte resultater fra Semi-PNMF, CNMF, SCNMF, LDS og TSVM rapportert i detalj. Hver kolonne angir hvor mange de umerkede prøvene er tildelt hver kreft, mens hver rad betegner antallet av de umerkede prøvene tilsluttet den virkelige tumortype. Hver farge representerer ikke bare en bestemt type kreft, men også fremhever de riktige prediksjon resultater, dvs. de diagonale elementer av forvirring matrise.

Matrix markerer fordelingen av faktiske forhold spådd klasse medlemskap for multiclass kreft prognose på GCM datasett.

Matrix markerer fordelingen av faktiske forhold spådd klasse medlemskap for multiclass kreft prognose på GCM datasett.

Matrix markerer fordelingen av faktiske forhold spådd klasse medlemskap for multiclass kreft prognose på GCM datasett.

Matrix markerer fordelingen av faktiske forhold spådd klasse medlemskap for multiclass kreft prognose på GCM datasett.

Matrix markerer fordelingen av faktiske sammenlignet med spådd klasse medlemskap for multiclass kreft prognose på GCM datasett.

figurene 3 til 7 innebærer at halv PNMF kan identifisere ulike krefttyper mer nøyaktig enn de representative metoder. For eksempel, når du arbeider med to merkede prøver fra hver tumor type, oppnår Halv PNMF 70,71% klassifisering nøyaktighet og overgår LDS, TSVM, SCNMF, og CNMF med 10,6%, 21,72%, 21,72% og 32,3%, henholdsvis. Videre Tabell 2 innebærer ytterligere effektiviteten av Semi-PNMF sammenlignet med CNMF, SCNMF, TSVM, og LDS i form av både sensitivitet og spesifisitet. For fullstendighet, lister vi deres definisjoner som følger: (16) og (17) der

TP

,

TN

,

FP

, og

FN

betegne antall sanne positive, sanne negative, falske positive og falske negative prøver, henholdsvis.

antall merkede eksempler er en viktig faktor som påvirker ytelsen til semi-overvåket læringsformer. Derfor er det svært nødvendig å observere klassifisering nøyaktigheten av Semi-PNMF under ulike tall (1-6) av merkede prøver i hver klasse. Her har vi tilfeldig velge forskjellige antall eksempler fra hver klasse som er merket eksempler og ser resten som umerket. For rettferdig sammenligning, vi uavhengig gjennomføre 100 individuelle forsøks stier å fjerne effekten av tilfeldighet.

Fig 8 sammen gjennomsnittlig nøyaktighet på CNMF, SCNMF, TSVM, LDS, og Semi-PNMF under forskjellige antall merkede prøver for hver klasse. Det viser også at halv PNMF oppnår den høyeste nøyaktighet og tar på seg en økende tendens med økningen i antall merkede prøver.

Akutt leukemi Datasett

Vi har også gjennomføre en kreft klassifisering eksperiment for å bekrefte klassifiseringen ytelsen til Semi-PNMF sammenlignet med lav tetthet separasjon (LDS, [14]), transductive SVM (TSVM, [16]), begrenset NMF (CNMF, [24]), og soft-begrenset NMF ( SCNMF, [25]) på en annen populær datasettet, dvs. akutt leukemi datasett [36]. Dette datasettet kommer fra Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE13159), og kan også lastes ned fra nettsiden: https: //zenodo. org /record /21712. Vi erstatter utilgjengelige oppføringer av dette datasettet med gjennomsnittsverdiene av sine

k

-nearest nabo elementer. Dette datasettet består av 2.096 prøver sammen med 54,675 sonder totalt. Dette datasettet inneholder forskjellige kreft subtyper av akutt leukemi, og således ikke er egnet for kreft klassifisering i kontrast med GCM datasett. Tabell 3 gir en kort beskrivelse av dette datasettet. Deretter fører vi dette datasettet til alle de sammenlignede metoder.

For Semi-PNMF, vi satt to parametre

α

= 0,2 og

β

= 0.01 . For de tradisjonelle semi-overvåket læringsformer, har vi adoptert de samme konfigurasjoner som ovenfor ledd. Kryssvalideringsprosessen av ovenstående ledd er gjentatte ganger utført for å evaluere de sammenlignede metoder på dette datasettet. Som vist i figurene 9 til 13, er den forvirring matrise av de forutsagte resultater fra Semi-PNMF, CNMF, SCNMF, LDS og TSVM rapportert i detalj. Hver kolonne angir hvor mange ikke-merkede prøvene blir tildelt hver subtype kreft, mens hver rad betegner antall umerkede prøver tilsluttet til den virkelige tumor-subtypen. Hver farge representerer ikke bare en bestemt kreft subtype, men også fremhever de riktige prediksjon resultater, dvs. de diagonale elementer av forvirring matrise.

Matrix markerer fordelingen av faktiske forhold spådd klasse medlemskap for multiclass kreft prognose på Akutt leukemi datasett.

Matrix markerer fordelingen av faktiske forhold spådd klasse medlemskap for multiclass kreft prognose på akutt leukemi datasett.

Matrix markerer fordelingen av faktiske forhold spådd klasse medlemskap for multiclass kreft prognose på akutt leukemi datasett.

Matrix markerer fordelingen av faktiske forhold spådd klasse medlemskap for multiclass kreft prognose på akutt leukemi datasett.

Matrix avtegner fordeling av faktiske forhold spådd klasse medlemskap for multiclass kreft prognose på akutt leukemi datasett.

figurene 9 til 13 innebærer at halv PNMF kan identifisere ulike krefttyper mer nøyaktig enn de representative metoder. Semi-PNMF oppnår høyest total klassifisering nøyaktighet sammenlignet med CNMF, SCNMF, TSVM og LDS i forhold til prediksjon resultater i forvirringen matrisen. Videre Tabell 4 viser også at halv PNMF konsekvent overgår de sammenlignede metoder på atten krefttyper hos både sensitivitet og spesifisitet. Oppsummert disse resultatene tyder på effektiviteten av Semi-PNMF i kreft klassifisering.

Antallet merkede prøver er en viktig faktor som påvirker ytelsen til semi-tilsyn læringsformer. Derfor er det svært nødvendig å observere klassifisering nøyaktigheten av Semi-PNMF under ulike tall (1-6) av merkede prøver i hver klasse. Her har vi tilfeldig velge forskjellige antall eksempler fra hver klasse som er merket eksempler og ser resten som umerket. Så, vi uavhengig utføre 10 individuelle forsøks stier å fjerne effekten av tilfeldighet.

Fig 14 sammen gjennomsnittlig nøyaktighet på CNMF, SCNMF, TSVM, LDS, og Semi-PNMF under forskjellige antall merkede prøver for hver klasse . Det viser også at halv PNMF oppnår den høyeste nøyaktighet og har en økende tendens med økningen i antall merkede prøver.

Diskusjoner

Denne artikkelen foreslår semi-overvåket PNMF fremgangsmåte (Semi-PNMF), som omfatter to typer av begrensninger så vel som hjelpe basis for å øke PNMF. Spesielt benytter Semi-PNMF lineær kombinasjon av eksempler for å tilnærme klynge centroids slik at klase centroids har kraftigere representant evne. For effektivt å indikere klassene umerkede prøver, håndhever Semi-PNMF koeffisientene merkede prøver å nærme seg sine etiketter, i mellomtiden som representerer de umerkede prøver å bruke den samme klyngen Tyngdepunktet. For å optimalisere Semi-PNMF, utviklet vi multiplikativ oppdatering regelen (MUR) for å etablere konvergens garanti. Eksperimenter for kreft klassifisering på to reelle datasett viser at halv PNMF utkonkurrerer de representative metoder når det gjelder kvantitet.

Nylig, Bayesianske metoder som inkluderer både sparsity og et stort antall kovariater i modellen har vært omfattende brukes for parameterestimering og klassifisering i datasett i forhold til små utvalgsstørrelser som genuttrykk data [39-41]. De har også bedre modell nøyaktighet ved å innføre en liten skjevhet i modellen [40]. I fremtidige arbeid, kan vi låne fra verdien av Bayesianske metoder for å ytterligere forbedre klassifiseringen ytelsen til Semi-PNMF for en storstilt datasettet. Semi-PNMF har gitt et fleksibelt rammeverk for å lære metoder i kreft databehandling og kan brukes i andre programmer som for eksempel kreft tilbakefall [42, 43].

Legg att eit svar