PLoS ONE: Rekursiv Random Lasso (RRLasso) for å identifisere kreftlegemiddel Targets

Abstract

Avdekke driver gener er avgjørende for å forstå heterogenitet i kreft.

L

1-type regularisering tilnærminger har vært mye brukt for å avdekke kreft driver gener basert på genom-skala data. Selv om de eksisterende metoder er blitt mye brukt innen bioinformatikk, har de flere ulemper: begrensninger delsett størrelse, feilestimeringsresultatene, Multikolineæritet og tung tidsforbruk. Vi introduserer en ny statistisk strategi, kalt en rekursiv Random Lasso (

RRLasso

), for høy dimensjons genomisk dataanalyse og undersøkelse av driver gener. For tidseffektiv analyse, anser vi en rekursiv bootstrap prosedyre i tråd med tilfeldig lasso. Videre introduserer vi en parametrisk statistisk test for sjåføren genet valg basert på bootstrap regresjon modellering resultater. Den foreslåtte

RRLasso

er ikke bare rask, men fungerer godt for høy dimensjons genomiske dataanalyse. Monte Carlo simuleringer og analyse av «Sanger Genomics av ​​Drug Sensitivity in Cancer datasettet fra Kreft Genome Project» viser at den foreslåtte

RRLasso

er et effektivt verktøy for høy dimensjons genomiske dataanalyse. De foreslåtte metodene gir pålitelige og biologisk relevante resultater for kreft driver genet utvalg

Citation. Park H, Imoto S, Miyano S (2015) Recursive Random Lasso (

RRLasso

) for Identifisere Anti- kreft narkotika mål. PLoS ONE 10 (11): e0141869. doi: 10,1371 /journal.pone.0141869

Redaktør: Xiaodong Cai, Universitetet i Miami, UNITED STATES

mottatt: 5 mai 2015; Godkjent: 14 oktober 2015; Publisert: 06.11.2015

Copyright: © 2015 Park et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Data Tilgjengelighet: The Sanger Genomics av Drug Sensitivity in Cancer datasettet fra Kreft Genome Project (https://www.cancerrxgene.org/)

finansiering:.. forfatterne har ingen støtte eller finansiering for å rapportere

Konkurrerende interesser : forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Mye forskning er for tiden i gang for å forstå kompleksiteten i heterogene genetiske nettverk underliggende kreft.. For å identifisere de heterogene genetiske nettverk som ligger til grunn for kreft, ulike storskala-omics prosjekter (f.eks, The Cancer Genome Project, The Cancer Genome Atlas (TCGA), Sanger Genomics av ​​Drug Sensitivity in Cancer datasettet fra Kreft Genome Project, og andre) har igangsatt og har gitt store mengder data, for eksempel genomisk og epigenomic data for kreftpasienter eller cellelinjer. Et viktig tema i kreftforskningen er å identifisere kreft driver gener basert på ulike genomisk dataanalyse (f.eks uttrykk nivåer, kopiere nummer variasjoner, metylering, og andre), siden effektiv identifisering av kreft narkotika mål muliggjør utvikling av vellykkede anti-kreft terapi. Selv om forskjellige

L

1-type regularisering tilnærminger, for eksempel, lasso [1] og elastisk nett [2], har vært mye brukt til å identifisere kreft driver gener, de har flere ulemper som verktøy for fører genet identifikasjon [3]. Lassoen og adaptive lasso [4] lider begrensning av undergruppe størrelse (dvs. disse metodene velge funksjoner på de fleste utvalgsstørrelsen,

n

). Den elastiske nett, som har blitt mye brukt i bioinformatikk forskning, kan gi feilaktige estimeringsresultatene for koeffisientene høyt korrelerte variable med forskjellige størrelser, spesielt de som er forskjellige i fortegn, på grunn av sin «gruppering effekt». Imidlertid er koeffisientene til sterkt korrelerte variabler med ulike størrelser hyppig observert i bioinformatikk forskning, siden gener i vanlige biologiske veier er vanligvis korrelert, og deres regresjonskoeffisienter kan ha forskjellige størrelser eller ulike tegn. Videre adaptive

L

1-type regularisering metoder lider Multikolineæritet, siden deres adaptive datadrevet vektene er basert på Ordinære Minste kvadrat (OLS) estimatorene.

For å løse disse problemene, Wang et al. [3] foreslått en tilfeldig lasso basert på bootstrap regresjon modellering med tilfeldig skogen metode. Selv om tilfeldig lasso overvinner ulempene ved eksisterende

L

1-type regularisering tilnærminger ved hjelp av en tilfeldig skogstrategi, er metoden beregningskrevende fordi den benytter to skritt bootstrap prosedyrer. Videre Wang et al. [3] utført endelig har utvalget basert på en vilkårlig bestemte terskel, selv om de variable valgresultatene sterkt avhengig av terskelen.

Vi foreslår en ny statistisk strategi for å identifisere sjåføren gener av anti-kreft narkotika følsomhet i kø med tilfeldig lasso. Vi introduserer rekursive bootstrap tilnærminger til å samtidig måle betydningen av hvert gen og utføre driver genet utvalg. Vi foreslår også en roman terskel basert på en parametrisk statistisk test for å effektivt identifisere driver gener basert på bootstrap regresjon modellering. Ved å bruke en rekursiv bootstrap prosedyre, utfører vi tidseffektive bootstrap regresjon modellering for høy dimensjons genomisk analyse av data uten tap av modellering nøyaktighet. Videre kan den foreslåtte funksjonen valgmetoden ved hjelp av parametrisk statistisk test være et nyttig verktøy for variabel valg basert på bootstrap regresjon modellering.

Ved hjelp av Monte Carlo-simuleringer av ulike scenarioer, viser vi effekten av den foreslåtte rekursive tilfeldig lasso og elastisk nett med en parametrisk statistisk test for høy dimensjons regresjon modellering. Vi bruker også den foreslåtte statistisk strategi til offentlig tilgjengelige «Sanger Genomics av ​​Drug Sensitivity in Cancer datasettet fra Kreft Genome Project» (https://www.cancerrxgene.org/), og identifisere potensielle driver gener av anti-kreft narkotika følsomhet . Numeriske analyser viser at den foreslåtte rekursiv tilfeldig lasso og elastisk nett er tidsbesparende prosedyrer, og utkonkurrere høy dimensjons genomisk dataanalyse (dvs. fra et utsiktspunkt over funksjonsvalg og prediktiv nøyaktighet).

I § 2, vi introdusere den eksisterende

L

1-type regularisering tilnærminger, og peker ut sine ulemper. Vi introduserer tilfeldig lasso, og foreslå den rekursive tilfeldig lasso og elastiske netto prosedyrer. I § ​​3 beskriver vi Monte Carlo simuleringer og driver genet valget med Sanger Genomics av ​​Drug Sensitivity in Cancer datasettet for å undersøke effekten av de foreslåtte statistiske strategier. Vi state våre konklusjoner i kapittel 4.

Materialer og metoder

Sett at vi har

n

uavhengige observasjoner {(

y

i

,

x

i

);

i

= 1, …,

n

}, der

y

i

er tilfeldige responsvariabler og x

i

er

p

dimensjonale vektorer av Predictor variablene. Betrakt lineær regresjonsmodell, (1) der

β

er en ukjent

p

dimensjonal vektor av regresjonskoeffisienter og

ε

i

er de tilfeldige feil som antas å være uavhengig og identisk fordelt med gjennomsnittlig 0 og varians

σ

2. Vi antar at

y

I

er sentrert og

x

ij

er standardisert av deres gjennomsnitt og standardavvik: , og således en avskjæring begrep er utelatt fra regresjonsmodellen i ligning (1). Mange studier er for tiden i gang på regresjon modellering, spesielt for høy dimensjonsdataanalyse (f.eks genomisk endringer dataanalyse).

Tibshirani [1] foreslo lasso, noe som minimerer den gjenværende summen av kvadrater lagt en begrensning, og løsningen er gitt ved (2) der

λ

er en tuningparameteren som styrer modell kompleksitet. Ved å innføre en straffeledd, summen av de absolutte verdiene av regresjonskoeffisienter, lasso kan samtidig utføre parameterestimering og varierende utvalg.

Men en fersk arbeid antydet at lassoen kan lide av følgende begrensninger [ ,,,0],2]:

i

p

n

tilfellet lasso velger på de fleste

n

variable, på grunn av den konvekse optimeringsproblem. Dette innebærer at Lasso er ikke egnet for føreren gen valg, ettersom genomisk endring-data er typisk høy-dimensjonale data.

Lassoen kan ikke ta hensyn til gruppering virkning av prediktor variabler, og således en tendens til å velge bare en variabel blant sterkt korrelerte variable, selv om alle er relatert til responsvariabelen. Imidlertid er genomiske forandringer av gener (f.eks ekspresjonsnivåer, kopi antall variasjoner, metylering, etc.) som deler en felles biologisk reaksjonsvei vanligvis sterkt korrelert, og genene kan være forbundet med en kompleks kreft mekanisme anses å være responsvariabelen. Dette innebærer også at lassoen er ikke egnet for genomisk analyse av data.

For å overvinne disse ulempene, diverse

L

er blitt foreslått en-type regularisering metoder . Den elastiske nett [2] spesielt har trukket betydelig oppmerksomhet innen bioinformatikk: (3) Straffen løpetid elastisk nett er en konveks kombinasjon av ryggen [5] og lasso straffer. Ved å innføre en ekstra

L

2-straff på Lasso, utfører den elastiske nettet effektivt har utvalg i høy dimensjonsdataanalyse, dvs. at det ikke er noen begrensning på delsett størrelse. Videre kan det elastiske nettet ha det følgende gruppering virkning: (4) der er prøven korrelasjon [2]

Selv om det elastiske nettet gir gode resultater for høy dimensjonsdataanalyse, Wang et al.,. [3] viste at elastisk nett har følgende ulemper:

Den tilhører «gruppering effekt» fører til feilaktige estimeringsresultatene når koeffisientene sterkt korrelerte variabler med ulike størrelser, spesielt de med forskjellige tegn. Imidlertid er koeffisientene til sterkt korrelerte variabler med ulike størrelser hyppig observert i bioinformatikk forskning, siden gener i felles biologiske veien er vanligvis sterkt korrelert, og deres regresjonskoeffisienter kan ha forskjellige størrelser eller et annet tegn.

Den adaptive

L

straffer har også blitt foreslått og er mye brukt i ulike felt av forskning en-type:

adaptive lasso: (5)

adaptive elastisk nett: (6)

der er en adaptiv datadrevet vekt for

γ

0. Ved å bruke vekten, kan vi discriminately ilegge en straff på hver funksjon avhengig av deres betydning, og dermed effektivt utføre funksjonsvalg. Zou og Hastie [4] og Zou og Zhang [2] etablert koret tilhører den adaptive lasso og adaptive elastisk nett, henholdsvis. Men resultatene av adaptive regularisering metoder er svært avhengig av OLS estimator, og dermed disse metodene lider Multikolineæritet. Videre adaptive

L

1-type regularisering metoder lider av de samme ulempene som de vanligste metodene, dvs. når du bruker adaptive lasso, antall utvalgte variabler kan ikke overstige

n

, og den adaptive elastisk nett kan også gi feilaktige estimeringsresultatene når koeffisientene sterkt korrelerte variabler med ulike storleikar er til stede.

Random Lasso

Wang et al. [3] detaljert ulempene ved eksisterende

L

1-type tilnærminger, og foreslo tilfeldig lasso basert på en bootstrap strategi som benytter tilfeldig skogen metoden. I tilfeldig lasso prosedyren, tilfeldig valgt

q

variablene regnes som kandidat variabler i regresjon modellering for hver bootstrap prøve. Dermed trenger resultatene ikke lider av høyt korrelerte variable ulemper, siden hver bootstrap prøve kan omfatte bare et undersett av de svært korrelerte variable. Videre kan tilfeldig lasso vinne undergruppe størrelse begrensning, siden variabel Utvalget er basert på resultatene av bootstrap regresjon modellering med tilfeldig valgt

q

1 eller

q

2 variabler i hver bootstrap prøve.

Wang et al. [3] foreslått følgende algoritme basert på en to-trinns bootstrap prosedyre for å gjennomføre tilfeldige lasso:

Algoritme en

Random lasso

Trinn 1: Generering av betydning tiltak av Predictor variabler.

∘ Tegn

B

bootstrap prøver med størrelse

n

av prøvetaking med erstatning fra den opprinnelige datasettet.

∘ For bootstrap prøven,

b

1 ∈ {1, 2, …,

B

}

q

1 kandidat variabler er tilfeldig valgt, og lassoen er søkt om regresjon modellering og vi får estimatorer for

j

= 1, …,

p

.

∘ betydningen mål på

x

j

beregnes som

Trinn 2:. Variable utvalg

∘ Tegn

B

bootstrap prøver med størrelse

n

av prøvetaking med erstatning fra opprinnelige datasettet.

∘ For bootstrap prøven,

b

2 ∈ {1, 2, …,

B

}

q

2 kandidatvariablene er tilfeldig valgt med et utvalg sannsynlighet for

x

j

proporsjonal med

i

j

, og den adaptive lasso er søkt om regresjon modellering, og vi får det estimator for

j

= 1, …,

p

.

∘ Beregn den endelige estimator,, som for

j

= 1, …,

p

.

for støy Predictor variabler, koeffisientene i de respektive bootstrap prøvene er anslått til å være liten eller for å ha forskjellige tegn, og således den absolutte verdi av den gjennomsnittlige koeffisientene (dvs.

i

j

) vil være liten eller nær null . På den annen side kan koeffisientene avgjørende prediktor variable være gjennomgående stor i forskjellige bootstrap prøver, og dermed en avgjørende genet har en stor verdi av

I

j

. Dette innebærer at utvalget sannsynlighet

I

j

gir effektiv funksjon utvalg. Wang et al. [3] anses

q

1 og

q

2 som justeringsparametere, og betydningen tiltaket

I

j

kan også brukes til vekt for den adaptive lassoen.

Wang et al. [3] bemerkes at de variable valg resultatene av tilfeldige Lasso er urimelig, siden noen av de siste ikke-null-koeffisienter kan være resultatet av en bestemt bootstrap prøve (dvs. at den tilfeldige Lasso gi falske positiver i varierende utvalg). Dermed vil en terskel

t

n

= 1 /

n

ble lagt for variabel valg, og Predictor variabler med ble slettet fra den endelige modellen.

Recursive Random Lasso for Effektiv funksjonsvalg

Den tilfeldige lasso kan overvinne ulempene ved eksisterende

L

1-type regularisering ved hjelp av en tilfeldig skog metode med bootstrap regresjon modellering . Selv om tilfeldig lasso fungerer godt for høy dimensjons regresjon modellering med høyt korrelerte prediktorer, metoden lider også av følgende ulemper:

Den tilfeldige lasso er beregningskrevende, siden det er basert på to bootstrap prosedyrer med respektive B kjøringer. Beregningskompleksiteten av tilfeldige lasso er betydelig økt i genomisk dataanalyse, fordi datasettet er konstruert med et ekstremt stort antall Predictor variablene.

Terskelen er avgjørende i funksjonsvalg, ettersom funksjonen utvalgs resultatene avhenge sterkt på terskelen. Imidlertid, Wang et al. [3] vilkårlig satt terskelen som 1 /

n

, uten noen statistisk bakgrunn.

Metoden har for mange justeringsparametere, dvs.

λ

i

L

1-type straff, og

q

1 og

q

2 i tilfeldig skogen metoden. Det store antallet justeringsparametere gjør også den metoden tidkrevende, siden tilfeldige lasso prosedyrer bør iverksettes for å velge den optimale parameterkombinasjon.

Vi foreslår en effektiv modellering strategi i tråd med tilfeldige lasso, som kalles en rekursiv tilfeldig lasso (eller elastisk netto). Å effektivt utføre høy dimensjons genomiske dataanalyse, foreslår en rekursiv bootstrap fremgangsmåte for generering av betydning måle og regresjon modellering. Vi foreslår også en ny terskel for å effektivt velge Predictor variablene i bootstrap regresjon modellering ved hjelp av en parametrisk statistisk test. Videre en rekke kandidat prediktorer,

q

, er også tilfeldig valgt i hvert bootstrap prøve (dvs. vi ikke anser

q

som en tuning parameter). Den foreslåtte rekursive tilfeldig lasso (elastisk netto) er implementert ved følgende algoritme.

Algoritme 2

Recursive tilfeldig lasso (eller elastisk netto)

Tegn

B

bootstrap prøver med størrelse

n

ved prøvetaking med erstatning fra den opprinnelige datasettet.

For første bootstrap prøven (dvs.

b

= 1),

q

kandidatvariablene er tilfeldig valgt og lasso (eller elastisk netto) er søkt om regresjon modellering. Vi får estimatorer for

j

= 1, …,

p

.

For

b

∈ {2, …,

B

}, er betydningen mål på

x

j

beregnes.

q

kandidatvariablene er tilfeldig valgt med et utvalg sannsynlighet

I

j

, og den adaptive lasso (eller adaptive elastisk netto) med

w

j

= 1 /

i

j

er søkt om regresjon modellering. Vi får estimatorene for

j

= 1, …,

p

.

Endelige estimatorer er beregnet som.

Til slutt utfører vi variabel valg basert på terskelen

t product: * via parametrisk statistisk test.

para~~POS=TRUNC Statistiske test for variabelutvalg i Bootstrap regresjon Modeling (PSTVSboot).

i for å effektivt utføre funksjonen utvalget foreslår vi en parametrisk statistisk test basert på bootstrap regresjon modellering resultater. Vi anser først en

B

×

p

binær matrise D innhentet fra de ovennevnte rekursive bootstrap prosedyrer. Vi setter et element av det binære matrise som

D

bj

= 1 for en ikke-null i

b

th

bootstrap prøve; ellers

D

bj

= 0. Med andre ord, anser vi at det binære matrisen er hentet fra Bernoulli eksperimenter, og la

D

j

være en tilfeldig variabel forbundet med Bernoulli-forsøk som følger:.

, etter

Bernoulli tilfeldig variabel har følgende sannsynlighetstettheten (7) hvor sannsynligheten

π

kan anslås som følger, (8) som angir gjennomsnittet av utvalget forholdet mellom alle Predictor variablene i

B

bootstrap prøver. For rimelig variabel utvalg, vi deretter vurdere følgende statistikk: (9) som angir antall ikke-null i

B

Bernoulli-forsøk (dvs.

B

bootstrap prøver). Statistikken

C

j

følger Binomisk fordeling og har følgende sannsynlighetsmassefunksjon: (10) Deretter beregner vi en

p

-verdi for hver prediktor variabel som følger, (11) og til slutt utføre variable valg basert på

p

-verdi med en terskel

t product: * = 0,05 som følger, (12) der

i

(⋅) er en indikator funksjon. Vi kan forvente at parametrisk statistisk test kan overvinne falske positive trekk utvalgs resultatene av bootstrap regresjon modellering. Selv om vi har beskrevet den foreslåtte varierende utvalg strategi fokusert på tilfeldig lasso prosedyren, vil parametrisk statistisk test være et nyttig verktøy for bootstrap regresjon modellering.

Resultater

Monte Carlo-simuleringer

Monte Carlo-simuleringer ble utført for å undersøke effektiviteten av den foreslåtte strategi modellering. Vi simulerte 100 datasett fra følgende lineær regresjonsmodell, (13) der

ε

i

er

N plakater (0,

σ

2), og korrelasjonen mellom

x

l Hotell og

x

m

er 0,5

Legg att eit svar