PLoS ONE: funksjonsvalg og kreft Klassifisering via Sparse Logistisk regresjon med Hybrid L1 /2 2 Regularization

Abstract

Kreft klassifisering og funksjon (genet) utvalg spiller en viktig rolle i kunnskap funn i genomiske data. Selv om logistisk regresjon er en av de mest populære klassifiseringsmetoder, betyr det ikke forårsake funksjonsvalg. I denne artikkelen presenterte vi en ny hybrid L

1/2 2 regularisering (HLR) -funksjonen, en lineær kombinasjon av L

1/2 og L

2 straffer, for å velge det aktuelle genet i logistisk regresjon. HLR tilnærming arver noen fascinerende egenskaper fra L

1/2 (sparsity) og L

2 (gruppering effekt der variabler høyt korrelert er i eller ut en modell sammen) straffer. Vi foreslo også en roman univariate HLR thresholding tilnærming for å oppdatere de estimerte koeffisientene og utviklet koordinere nedstigningen algoritme for HLR straffet logistisk regresjonsmodell. De empiriske resultater og simuleringer tyder på at den foreslåtte metoden er meget konkurransedyktig blant flere state-of-the-art metoder

Citation. Huang HH, Liu XY, Liang Y (2016) funksjonsvalg og kreft Klassifisering via Sparse Logistic Regression med hybrid L

1/2 2 regularisering. PLoS ONE 11 (5): e0149675. doi: 10,1371 /journal.pone.0149675

Redaktør: Fengfeng Zhou, Jilin universitet, KINA

mottatt: 18 september 2015; Godkjent: 02.02.2016; Publisert: 02.05.2016

Copyright: © 2016 Huang et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Data Tilgjengelighet:. All relevant data er i avisen og dens saksdokumenter filer

Finansiering:.. Dette arbeidet ble støttet av Macau vitenskapelige og teknologiske Utvikle Funds (Grant No. 099/2013 /A3) av Macao SAR Kina

Konkurrerende interesser: et patent knyttet til en ny hybrid L

1 /2-2 regularisering (HLR) -funksjonen, en lineær kombinasjon av L1 og L

1/2 straffer, for å velge de relevante variablene i høy demensional data er under behandling. Dette endrer ikke vår tilslutning til PLoS ONE politikk om å dele data og materials.The forfattere har erklært at ingen konkurrerende interesser eksisterer.

1. Introduksjon til

Med fremskritt innen high-throughput molekylære teknikker, kan forskerne studere uttrykk for titusener av gener samtidig. Kreft klassifikasjon basert på genuttrykk nivåer er en av de sentrale problemene i genomforskning. Logistisk regresjon er en populær klassifisering metode og har en eksplisitt statistisk tolkning som kan få sannsynlighetene for klassifisering av kreft fenotype. Men i de fleste genuttrykkstudier, antallet gener som vanligvis langt høyere enn antall prøvestørrelsen. Denne situasjonen kalles high-dimensjonale og lav utvalgsstørrelse problem, og den normale logistisk regresjon metoden kan ikke direkte brukes til å anslå regresjonsparametrene.

For å håndtere problemet med høy dimensjonalitet, en av de populære teknikkene er regularisering metoden. En kjent metode er regularisering L

en straff [1], som er den minste absolutte krympingen og seleksjon operatør (Lasso). Det utfører kontinuerlig krymping og genet valg samtidig. Andre L

1 normtypen regularisering fremgangsmåter omfatter vanligvis den flytende måte, klippet-absoluttavvik (SCAD) straff [2], som er symmetrisk, nonconcave, og har singulariteter i origo for å produsere spredte løsninger. Den adaptive Lasso [3] straffer de ulike koeffisientene med de dynamiske vektene i L

en straff. Imidlertid kan L

1 type regularisering gi inkonsistente har valg i enkelte situasjoner [3] og ofte introduserer ekstra skjevhet i estimeringen av parametrene i logistisk regresjon [4]. Xu

et al

. [5] foreslo L

1/2 straff, en metode som kan tas som en representant for L

q (0

q

1) straffer i begge sparsity og beregnings effektivitet, og har vist mange attraktive egenskaper, for eksempel unbiasedness, og oracle egenskaper [5-7]. Imidlertid, i likhet med de fleste av de regularisering metoder, L

1/2 straff ignorerer sammenhengen mellom funksjoner, og følgelig ute av stand til å analysere data med avhengige strukturer. Hvis det er en gruppe av variabler blant hvilke de parvise korrelasjoner er meget høy, så l

1/2 metode har en tendens til å velge bare en variabel for å representerer den tilsvarende gruppe. I genekspresjon studien, er gener ofte høyt korrelert hvis de har samme biologiske veien [8]. Noen innsats hadde blitt gjort for å håndtere problemet med variabler sterkt korrelerte. Zhou og Hastie slått elastisk nett straff [9], som er en lineær kombinasjon av L

1 og L

2 (ridge teknikk) straffer, og en slik fremgangsmåte understreker en gruppering effekt, hvor sterkt korrelert gener som har en tendens til å være i eller ut av modellen sammen. Becker

et al

. [10] foreslo Elastic SCAD (SCAD – L

2), en kombinasjon av SCAD og L

2 straffer. Ved å innføre L

2 straffeledd, Elastisk SCAD fungerer også for grupper av prediktorer.

I denne artikkelen, vi foreslo HLR (Hybrid L

1/2 + 2 regularisering) tilnærming til passer den logistiske regresjonsmodeller for genet utvalg, der regularisering er en lineær kombinasjon av L

1/2 og L

2 straffer. The L

1/2 straff oppnår funksjonsvalg. I teorien gir en strengt konveks straff funksjon en tilstrekkelig betingelse for å gruppere effekten av variabler og L

2 straffen garanterer streng konveksitet [11]. Derfor L

2 feltet induserer gruppering effekt samtidig i HLR tilnærming. Eksperimentelle resultater på kunstige og ekte genuttrykk data i denne avhandlingen viser at vår foreslåtte metoden er svært lovende.

Resten av artikkelen er organisert som følger. I § ​​2, må vi først definert HLR tilnærming og presenterte en effektiv algoritme for å løse logistisk regresjonsmodell med HLR straff. I avsnitt 3, evaluert vi resultatene av vår foreslåtte tilnærming på de simulerte data og fem offentlige genekspresjon datasett. Vi presenterte en konklusjon på papiret i § 4.

2. Metoder

2,1 regularisering

Anta at datasettet

D

har

n

prøver

D

= {(

X

1,

y

1), (

X

2

y

2), …, (

X

n

,

y

n

)}, der

X

i

= (

x

i

1,

x

i

2, …,

x

ip

) er

i

th prøven med

p

dimensjonale og

y

i

er den tilsvarende avhengig variabel

For alle ikke-negative

λ

, normal regularisering form er:. (1) der

P product: (

β

) representerer regularisering sikt. Det finnes mange regularisering metoder er foreslått i de siste årene. En av de populære metodene er L

en regularisering (Lasso), hvor. De andre L

1 typen regularizations inkluderer SCAD, den adaptive Lasso, Elastisk nett, Stage klok Lasso [12], Danzig velger [13] og elastisk SCAD. Men i genomisk forskning, resultatet av L

1 type regularisering kan ikke tynt nok for tolkning. Egentlig en typisk microarray eller RNA-seq datasett har mange tusen prediktorer (gener), og forskerne ofte ønske om å velge færre, men informative gener. Foruten dette, L

en regularisering er asymptotisk partisk [14,15]. Selv om L

0 regularisering, der, gir de sparsest løsninger, har det å forholde seg til NP-hard combinatory optimalisering problem. For å få en mer konsis løsning og bedre prediktiv nøyaktigheten av klassifiseringsmodell, må vi tenke utover L

1 og L

0 regularizations til L

q (0

q

1) regularisering. The L

1/2 regularisering kan tas som en representant for L

q (0

q

1) straffer og har tillatt en analytisk uttrykks thresholding representasjon [5]. Med thresholding representasjon, løse L

1/2 regularisering er mye enklere enn å løse den L

0 regularisering. Videre L

1/2 straff er unbiasedness og Oracle har egenskaper [5-7]. Disse egenskapene gjør L

1/2 straff ble et effektivt verktøy for høye dimensjonale problemer [16,17]. Imidlertid, på grunn av ufølsomhet av de svært korrelerte data, L

1/2 straff en tendens til å velge bare en variabel for å representere det korrelerte gruppe. Denne ulempen kan forringe ytelsen til L

1/2 metode.

2,2 Hybrid L

1/2 2 regularisering (HLR)

For noen faste ikke-negative λ

1 og λ

2 definerer vi hybrid L

1/2 2 regularisering (HLR) kriterium: (2) der

β

= (

β

1, …,

β

p

) er koeffisientene estimeres og Selge

HLR estimator er minimizer i ligning (2) : (3)

La α =

λ

1 /(1 +

λ

2), deretter løse i ligning (3) er ekvivalent til optimalisering problemet: (4)

Vi kaller funksjonen

α

|

β

|

1/2 + (1 – α) |

ß

|

2 som HLR, som er en kombinasjon av L

1/2 og L

2 straffer. Når α = 0, blir HLR straffen ryggen regularisering. Når α = 1, blir HLR L

1/2 regularisering. The L

2 straffen nyter gruppering effekt og L

1/2 straff induserer sparsom løsninger. . Denne kombinasjonen av begge straffene gjør HLR tilnærmingen ikke bare i stand til å håndtere de korrelasjonsdata, men også i stand til å generere en konsis resultat

Figur 1 viser fire regularisering metoder: Lasso, L

1 /2, Elastisk nett og HLR straffer med en ortogonal designmatrisen i regresjonsmodellen. Estimatorene av Lasso og elastisk nett er partisk, mens L

1/2 straff er asymptotisk objektivt. I likhet med L

1/2 metode, HLR tilnærming også utfører bedre enn Lasso og elastisk netto i eiendom unbiasedness.

Eksakte løsninger av (a) Lasso, (b) L

1/2, (c) elastisk nett, og (d) HLR i en ortogonal utforming. Regularisering parametrene er

λ

= 0,1 og

α

= 0,8 for Elastisk nett og HLR.

(β-OLS er de ordinære minstekvadrat (OLS) estimator)

.

Fig 2 beskriver kontur tomter på todimensjonal for straffen funksjoner av Lasso, Elastisk nett L

1/2 og HLR tilnærminger. Det tyder på at de L

1/2 feltet er ikke-konveks, mens HLR er konveks for den gitte α. Følgende teorem viser hvordan HLR styrker L

1/2 regularisering.

regularisering parametrene er

λ

= 1 og

α

= 0,2 for HLR-metoden.

Theorem 1.

gitt datasett (y, x) og (λ

1, λ

2), deretter HLR estimatene er gitt ved (5)

L

1/2 regularisering kan omskrives som (6)

beviset for Theorem en kan bli funnet i S1 fil. Therorem1 viser HLR tilnærmingen er en stabilisert versjon av L

1/2 regularisering. Vær oppmerksom på at er en prøve versjon av korrelasjonsmatrisen Σ andwhere

δ

=

λ

2 /(1 +

λ

2) krymper som mot identitetsmatrisen. Klassifiseringen nøyaktighet kan ofte bli forsterket ved å erstatte med en mer krympet anslaget i lineær diskriminere analyse [18,19]. Med andre ord, forbedrer HLR L

1/2 teknikk ved regularizing i ligning (6).

2.3 sparsom logistisk regresjon med HLR metoden

Anta at datasettet

D

har

n

prøver

D

= {(

X

1,

y

1), (

X

2

y

2), …, (

X

n

,

y

n

)}, der

X

i

= (

x

i

1,

x

i

2, …,

x

ip

) er

i

th prøven med

p

gener og

y

i

er den tilsvarende avhengig variabel som består av en binær verdi med 0 eller 1. Definer en klassifikator f (

x

) =

e

x Twitter /(1 +

e

x

) og logistisk regresjon er definert som: (7)

Hvor

β

= (

β

1, …,

β

p

) er koeffisientene som skal estimeres. Med en enkel algebra, kan regresjonsmodellen bli presentert som: (8)

I denne artikkelen bruker vi HLR tilnærming til den logistiske regresjonsmodellen. For noen fast ikke-negative

λ Hotell og

α

er sparsom logistisk regresjonsmodell basert på HLR tilnærming definert som: (9)

2,4 Løse algoritme for sparsom logistisk regresjon med HLR tilnærmingen

koordinaten kings algoritmen [20] er en effektiv metode for å løse regularisering modeller fordi dens beregningstiden øker lineært med dimensjonen av problemene. Dens standard prosedyre kan bli vist som følger: for hver

β

j (j = 1,2, …,

p

), til delvis optimalisere målet funksjon med hensyn til koeffisient med de resterende elementene i

β

fast ved sine de sist oppdaterte verdier, iterativt sykling gjennom alle koeffisientene til møte konvergert. Den spesifikke formen for fornye koeffisienter er knyttet til terskel operatør av straffen.

Anta at datasettet

D

har

n

prøver

D

= { (

X

1,

y

1), (

X

2

y

2 ), …, (

X

n

,

y

n

)}, der

X

i

= (

x

i

1,

x

i

2 , …,

x

ip

) er

i

th prøven med

p

dimensjonale og

y

i

er den tilsvarende avhengig variabel. Variablene er standardisert.

Etter Friedman

et al

. [20] og Liang

et al

. [16] I denne artikkelen presenterer vi den opprinnelige koordinere messig oppdatering skjema for HLR tilnærming: (10) der, og som delvis rest for montering

β

j

. er L

1/2 thresholding operatør (11) der,

π

= 3.14

EQ (9) kan linearisert ved en langsiktig Taylor rekkeutvikling. (12 ) hvor er estimert respons, er vekten for den estimerte respons. er evaluert verdien i henhold til gjeldende parametrene. Dermed kan vi omdefinere delvis rest for montering strøm som og. Prosedyren for å koordinere nedstigningen algoritme for HLR straffet logistiske modellen er beskrevet som følger

Algoritme. Den koordinere nedstigningen tilnærming for HLR straffet logistisk modell

Trinn 1: Initial alle

β

j product: (

m

) ← 0 (

j

= 1, 2, …,

p

) og

X

,

y

, etter

sette

m

← 0,

λ Hotell og

α

er valgt av kryssvalidering,

Trinn 2: Beregn

Z product: (

m

) og

W product: (

m

) og omtrentlig tapsfunksjonen (12) basert på gjeldende

β product: (

m

);

Trinn 3: Oppdatere hvert

β

j product: (

m

), og sykle over

j =

1, …,

p

;

Trinn 3.1: Beregn og;

Trinn 3.2: Oppdatering

Trinn 4: La

m

m

+ 1,

β product: (

m

+ 1) ←

β product: (

m

);

Hvis

β product: (

m

) dose ikke konvergens, deretter gjenta trinn 2, 3,

3. Diskusjon

Resultater og

3,1 analyser av simulerte data

Målet med denne delen er å evaluere resultatene av den logistisk regresjon med HLR tilnærming i simuleringen studien. Fire tilnærminger sammenlignes med vår foreslåtte metode: logistisk regresjon med Lasso regularisering, L

1/2 regularisering, SCAD – L

2 og elastisk netto regularisering hhv. Vi simulerer data fra den sanne modelwhere X ~

N plakater (0, 1),

ε

er den uavhengige tilfeldige feil og

σ

er parameteren som styrer signalet til bråk. Fire scenarier presenteres her. I hvert eksempel er dimensjonen av prediktorene er 1000. notasjon. /. var representert antall observasjoner i trening og testsett henholdsvis, f.eks 100/100. Her er detaljene i de fire scenariene.

I scenario 1, datasettet består av 100/100 observasjoner, setter vi

σ

= 0,3, og vi simulert en gruppert variabel situationwhere

ρ

er korrelasjonskoeffisient på de grupperte variabler.

scenario 2 ble definert på samme måte som scenario 1, bortsett fra at vi har vurdert saken når det er andre uavhengige faktorer bidrar også til tilsvarende klassifisering variabel

y

, etter

i scenario 3, setter vi

σ

= 0,4 og datasettet består av 200/200 observasjoner, og vi definert to variabler gruppert

i scenario 4, ble de sanne funksjoner lagt opp til 20% av de totale funksjoner,

σ

= 0,4 og datasettet består av 400/400 observasjoner, og vi definert tre variabler gruppert

I dette eksempel var det tre grupper av de korrelerte egenskaper og noen enkelt uavhengige funksjoner. En ideell sparsom regresjon metoden ville velge bare 200 sanne funksjoner og sette koeffisientene til 800 støyen har null.

I vårt eksperiment, setter vi korrelasjonskoeffisienten

ρ

av funksjoner er 0,3 henholdsvis 0,6, 0,9. Den Lasso og elastisk netto ble utført av Glmnet (en Matlab pakke, versjon 2014-04-28, nedlasting på https://web.stanford.edu/~hastie/glmnet_matlab/). Den optimale regularisering parametere eller justeringsparametere (balansere avveining mellom data passform og modell kompleksitet) av Lasso, L

1/2, SCAD – L

2, Elastisk nett og HLR tilnærminger ble innstilt ved 10- fold kryssvalidering (CV) tilnærming i treningssettet. Legg merke til at, ble det Elastisk nett og HLR metoder innstilt ved 10-CV tilnærming på de to-dimensjonale parameter overflater. Den SCAD – L

2 ble innstilt ved 10-CV tilnærming på de tredimensjonale parameter overflater. Deretter ble de ulike klassifiserings bygget av disse sparsomme logistikk regresjonene med de estimerte justeringsparametere. Til slutt ble de oppnådde classifiers påført på testsettet for klassifisering og prediksjon.

Vi gjentok simuleringene 500 ganger for hver straff metode og beregnet gjennomsnittet klassifiseringen nøyaktighet på testsett. For å vurdere kvaliteten av de valgte funksjonene for regularisering tilnærminger, sensitivitet og spesifisitet av funksjonen utvalget ytelse [21] ble definert som følger:.. Der * er element-messig produkt, og | |

0 beregner antall ikke-null elementer i en vektor, og er den logiske «ikke» operatører på vektorene

β Hotell og.

Som vist i tabell 1, for alle scenarier, vår foreslåtte HLR prosedyre generelt ga høyere eller tilsvarende klassifisering nøyaktighet enn Lasso, SCAD – L

2, Elastisk nett og L

1/2 metoder. Også, HLR tilnærming resulterer i mye høyere følsomhet for identifisering av sanne egenskaper i forhold til de andre fire algoritmer. For eksempel, i scenario 1 med

ρ

= 0,9, vår foreslåtte metoden fikk imponerende ytelse (nøyaktighet 99,87% med perfekt sensitivitet og spesifisitet). Spesifisiteten til HLR tilnærmingen er noe redusert, men ikke i stor grad sammenlignet med den oppnådd i følsomheten.

I fet-best ytelse blant alle de metoder.

3,2 analyser av reelle data

for å ytterligere evaluere effekten av vår foreslåtte metoden i denne delen, brukte vi flere offentlig tilgjengelige datasett: prostata, DLBCL og lungekreft. Prostata og DLBCL datasett ble begge ned fra https://ico2s.org/datasets/microarray.html, og lungekreft datasett kan lastes ned på https://www.ncbi.nlm.nih.gov/geo med tilgangsnummer [GSE40419].

Mer informasjon om disse datasettene er gitt i tabell 2.

prostata.

Dette datasettet ble opprinnelig foreslått av Singh

m.fl.

. [22]; det inneholder uttrykket profiler av 12.600 gener for 50 normalt vev og 52 prostata tumorvev.

Lymfom.

Dette datasettet (Shipp

et al

. [23]) inneholder 77 microarray genuttrykk profiler av de to mest utbredte voksen lymfoide maligniteter: 58 prøver av diffuse store B-celle lymfom (DLBCL) og 19 follikulære lymfomer (FL). Den opprinnelige dataene inneholder 7,129 genuttrykk verdier.

Lungekreft.

Som RNA- sekvensering (RNA-seq) teknikk mye brukt, derfor er det viktig å teste den foreslåtte metoden om den har evnen til å håndtere den RNA-seq data. For å bekrefte det, ble en datasettet som brukes neste generasjons sekvense involvert i vår analyse. Dette datasettet [24] inneholder 164 prøver med 87 lunge adenokarsinomer og 77 tilstøtende normalt vev.

Vi evaluerer resultatene av HLR straffet logis regresjonsmodeller med tilfeldig partisjonen. Dette betyr at vi dele datasettene på måfå slik at tilnærmet 75% av datasettene blir treningsprøver og den andre 25% som prøvene. De optimale justeringsparametere ble funnet ved å bruke 10 gangers kryssvalidering i treningssettet. Deretter ble klassifiseringsmodell bygget av sparsom logistisk regresjon med de estimerte justeringsparametere. Endelig anvendelse av klassifikator til testsettet gir prediksjon egenskaper som klassifikasjon nøyaktighet, AUC under mottakeren opererer karakteristikk (ROC) analyse. De ovennevnte fremgangsmåter ble gjentatt 500 ganger med forskjellige tilfeldige datasettet partisjoner. Gjennomsnittlig antall utvalgte gener, opplæring og testing klassifisering nøyaktighet, ble oppsummert i tabell 3 og de gjennomsnittlige AUC-forestillingene ble vist i figur 3.

I fet best mulig ytelse.

Som vist i tabell 3, for prostata datasettet, med klassifikator HLR tilnærmingen gir den gjennomsnittlige 10-gangers CV nøyaktighet på 97,61%, og det gjennomsnittlige test nøyaktighet på 93,68% med omtrent 12,6 gener valgt. De classifiers med Lasso, L

1/2, SCAD – L

2 og Elastiske nettometoden gi gjennomsnittlig 10 ganger CV nøyaktighet på 96,22%, 96,13%, 95,99%, 96,28% og gjennomsnittlig test nøyaktigheten av 92,4%, 92,18%, 91,33%, 91,35% med 13,7, 8,2, 22 og 15.2 genene valgt hhv. For lymfom datasett, kan det ses at HLR-metoden oppnår også den beste klassifiserings forestillinger med de høyeste nøyaktighet priser i opplæring og testsett. For lungekreft, vår metode fikk den beste treningen nøyaktighet. Testingen ytelsen Elastisk netto var litt bedre enn vår metode. Imidlertid oppnådde HLR-metoden sin suksess med bare ca 15,6 prediktorer (gener), sammenlignet med 28,9 gener for Elastic nettometoden. Selv om Lasso eller L

1/2 metoder tjente de sparsest løsninger, klassifisering resultatene av disse to tilnærmingene var verre enn HLR-metoden. Dette er en viktig faktor for screening og diagnostiske applikasjoner, hvor målet er ofte å utvikle en nøyaktig test med så få funksjoner som mulig for å kontrollere kostnadene.

Som vist i figur 3, oppnådd vår foreslåtte metoden beste klassifiserings forestillinger i disse tre reelle datasett blant alle konkurrentene. For eksempel ble det AUC fra ROC-analyse av HLR metode for datasett prostata, lymfom og lungekreft datasett beregnet til å være 0,9353, 0,9347 og 0,9932 respektivt. AUC resultatene av Lasso metode for de tre datasettene ble beregnet til å være 0,9327, 0,9253 og 0,9813 henholdsvis, som var verre enn den foreslåtte HLR-metoden.

Vi oppsummert topp 10 rangert (oftest) gener valgt av fem regularisering fremgangsmåter for lungekreft genekspresjon datasettet i tabell 4, kan informasjonen om de 10 rangert gener for de andre datasett som befinner seg i S2 fil. Merk at i tabell 1, har den foreslåtte HLR-metoden de imponerende forestillinger å velge de sanne funksjoner i simuleringen data. Det er underforstått at genene valgt av HLR-metoden i disse tre kreft datasett er verdifulle for forskere som ønsker å finne ut de viktigste faktorene som er knyttet til kreftutvikling. For eksempel, i tabell 4, biomarkører som er valgt av vår HLR fremgangsmåte omfatter avansert glykosylering sluttprodukt reseptor (AGER), som er et medlem av immunglobulin super overveiende uttrykt i lungen. AGER spiller en rolle i epiteliale organisasjon, og redusert hurtig av AGER i lungesvulster kan conduce til tap av epitelvev struktur, noe som kan føre til malign transformasjon [25]. Den unike funksjon av AGER i lungene, slik at det kan brukes som et ekstra diagnostisk verktøy for lungekreft [26], og til og med en target [27]. GATA2 (GATA bindende protein 2) uttrykkes hovedsakelig i blodkreft linjer, og har viktige roller i utviklingen av flere hematopoetiske celler, inkludert erytrocytter og megakaryocytes. Det er avgjørende for spredning og vedlikehold av blodkreft stamceller og multi potensielle stamfedre [28]. Kumar et al. [29] viste en sterk sammenheng mellom GATA2 og RAS-pathway mutant lunge kreftceller.

For ytterligere å verifisere biomarkører valgt av vår metode, hadde vi samlet to uavhengige lungekreft datasett for validering. Den GSE19804 [30] inneholder 120 prøver med 60 lunge adenokarsinomer og 60 tilstøtende normalt vev. Den GSE32863 [31] inneholder 116 prøvene inkluderer 58 lunge adenokarsinomer og 58 friske kontroller. Disse to datasett er tilgjengelige fra GEO serien sjonsnummer [GSE19804] og [GSE32863].

Vi brukte støtte vektor maskin (SVM) tilnærming for å bygge classifiers basert på de to første, først fem og ti første gener som er valgt av forskjellig regularisering nærmer seg fra den lungekreft datasettet (tabell 4), og ble trent på lungekreft datasettet (tabell 2) respektivt. Disse classifiers deretter ble brukt til de to uavhengige lungekreft datasett, GSE19804 og GSE32863 hhv.

Det er kjent at de oppnådde prediksjonsmodeller kan være bare gjelder for prøver fra samme plattform, celletype, miljøforhold og Eksperimentell prosedyre. Men interessant, som vist i tabell 5, kan vi se at alle klassenøyaktig spådd av de classifiers med utvalgte gener ved HLR tilnærming, er høyere enn 90%. Spesielt klassifisering nøyaktighet på GSE32863 datasettet er 97,41% med klassifikator basert på de første ti gener. Slike prestasjoner er bedre enn de som er valgt av andre metoder gener. For eksempel, nøyaktigheten av sorteringsapparatet sammen med de to første genene valgt av elastisk nett, for GSE19804, ble anslått til å være 86,67% som var dårligere enn sortereren med de utvalgte ved vår fremgangsmåte, 90,83% gener. Utførelsen av sorter med de første fem genene valgt av SCAD – L

2, for GSE32863, er beregnet til 92,24% som var verre enn klassifikator med de valgte vår HLR-metoden, 96,55% gener. Resultatene tyder på at den sparsomme logistisk regresjon med HLR tilnærming kan velge kraftige diskriminerende gener.

I fet best mulig ytelse.

I tillegg til å sammenligne med Lasso, L

1/2, SCAD – L

2 og elastisk nett teknikker, vi også gjøre en sammenligning med resultatene av andre metoder for datasett prostata og lymfom publisert i litteraturen. Merk at vi kun betraktet metoder ved hjelp av CV tilnærming for evaluering, siden tilnærminger basert på en ren trening /test sett partisjonen er nå allment kjent som upålitelig [32]. Tabell 6 viser den beste klassifisering nøyaktigheten av andre metoder. I tabell 6, klassifisering nøyaktighet oppnås ved HLR tilnærmingen er større enn andre metoder. Samtidig er antall utvalgte gener mindre enn andre metoder, bortsett fra på lymfom datasett.

I fet best mulig ytelse.

4. Konklusjon

I denne artikkelen har vi foreslått HLR-funksjon, en ny krymping og utvelgelsesmetode. HLR tilnærmingen er arvet noen verdifulle egenskaper fra L

1/2 (sparsity) og L

2 (gruppering effekt der variabler høyt korrelert er i eller ut en modell sammen) straffer. Vi har også foreslått en ny univariate HLR thresholding funksjonen for å oppdatere de estimerte koeffisientene og utviklet koordinere nedstigningen algoritme for HLR straffet logistisk regresjonsmodell.

De empiriske resultater og simuleringer viser HLR-metoden var svært konkurransedyktig blant Lasso, L

1/2, SCAD – L

2 og Elastisk netto i å analysere høye dimensjonale og lave utvalgsstørrelser data (microarray og RNA-seq data). Dermed logistisk regresjon med HLR tilnærmingen er lovende verktøy for funksjonsvalg i klassifiseringen problem. Kildekoden for sparsom logistisk regresjon med HLR tilnærming ble gitt i S3 fil.

Hjelpemiddel Informasjon

S1 fil. Beviset for teoremet 1.

doi: 10,1371 /journal.pone.0149675.s001 product: (PDF)

S2 fil. . Den hyppigst valgte 10-gener informasjon

Topp-10 rangert gener valgt av alle metoder for prostata og lymfom datasett

doi:. 10,1371 /journal.pone.0149675.s002 product: (PDF)

S3 fil. . Kildekoden til HLR-metoden

MATLAB kode sparsom logistisk regresjon med HLR tilnærming

doi:. 10,1371 /journal.pone.0149675.s003 plakater (RAR)

Legg att eit svar