PLoS ONE: Context Sensitive Modeling of Cancer Drug Sensitivity

Abstract

Nyere screening av narkotika følsomhet i store paneler av kreft cellelinjer gir en verdifull ressurs til å utvikle algoritmer som predikerer legemiddelrespons. Siden flere prøver gir økt statistisk styrke, tilnærminger mest til prediksjon av narkotika følsomhet basseng flere krefttyper sammen uten forskjell. Imidlertid kan pan-kreft resultatene være misvisende på grunn av konfunderende effekter av vev eller kreft subtyper. På den annen side er uavhengig analyse for hver krefttype hemmes av liten prøvestørrelse. For å balansere denne avveiingen presenterer vi CHER (kontekstuell Heterogenitet aktivert regresjon), en algoritme som bygger prediktive modeller for narkotika følsomhet ved å velge prediktiv genomisk funksjoner og avgjøre hvilke som bør-og bør ikke-deles på tvers av ulike kreftformer, vev og narkotika . CHER gir betydelig mer nøyaktige modeller av narkotika følsomhet enn sammenlign elastisk-net-baserte modeller. Dessuten gir CHER bedre innsikt i de underliggende biologiske prosesser ved å finne en sparsom sett av felles og typespesifikke genomiske funksjoner

Citation. Chen BJ, Litvin O, Ungar L, Pe’er D (2015) Context sensitive Modeling of Cancer Drug sensitivitet. PLoS ONE 10 (8): e0133850. doi: 10,1371 /journal.pone.0133850

Redaktør: Julio Vera, Universitetet i Erlangen-Nürnberg, Tyskland

mottatt: 04.02.2015; Godkjent: 03.07.2015; Publisert: 14. august 2015

Copyright: © 2015 Chen et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Data Tilgjengelighet: Dataene er hentet fra Kreftcellelinje Encyclopedia prosjekt (https://www.broadinstitute.org/ccle/home), og er tilgjengelig etter brukerregistrering på nettstedet

Finansiering:. Denne forskningen ble støttet av Stand Up To Cancer Innovative forskning Grant (IRG08), National Institutes of Health (R01CA164729) og National Centers for Biomedical Computing Grant 1U54CA121852-01A1. D.P. har en Packard Fellowship for realfag og ingeniørutdanning

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Med de siste fremskritt innen neste generasjons sekvense teknologier, utsiktene til personlig helsetjenester ser lysere enn noen gang [1]. Bruk av genomforskning for å lede klinisk omsorg er kanskje mest utbredt i kreft [2, 3]. Mange pioner studier har vist hvordan man kan bruke signaturer av genuttrykk å forutsi klinisk utfall for den enkelte pasient [4-6]. Mer nylig to store samlinger av matchet narkotika-skjermer og genomikk profiler av kreft cellelinjer har blitt publisert [7, 8]. Disse dataene har blitt brukt til å bygge prediktive modeller av narkotika respons ved å knytte genomiske funksjoner med narkotika følsomhet i kreftcellelinjer [9-12]. I tillegg kobler narkotika følsomhet for bestemte genomisk funksjonene kan hjelpe belyse mekanismene for narkotika handling og belyse de underliggende årsakene til resistens mot behandlingen. Dermed disse dataene tilbyr muligheten til å utvikle metoder som kan brukes for personlig behandling.

En sentral utfordring i å knytte genetiske egenskapene til stoffet følsomhet er rollen til konteksten i biologiske systemer. For eksempel, har regulering av gen-ekspresjon er vist å ha mønstre er spesifikke for vev og celletyper [13-16]. I tumorgenese, har forskjellige mønstre av mutasjon, genekspresjon, og epigenetisk regulering også blitt observert hos kreftspesifikke eller vev-spesifikk måte [17, 18]. Denne sammenheng avhengighet spiller en viktig rolle for effektiviteten av behandlingen. For eksempel, PLX4732, en RAF hemmer rettet mot onkogene

BRAF

V600E

, er en potent behandling for melanom pasienter med mutasjonen [19]. Imidlertid, tykktarmskreftpasienter med den samme mutasjon ikke svare på PLX4732 [20]. Det er derfor viktig å ta hensyn til kontekst skapt av krefttyper når analysere genomikk av narkotika følsomhet.

Det er ingen overraskelse at prediktive modeller bygget ved hjelp av bare melanom data gi bedre prognose for melanom prøver enn de som bygges ved hjelp av data av blandede typer kreft [7]. Dette hevder at vi bør fokusere på en krefttype når du bygger modeller for narkotika følsomhet. Selv om en slik strategi tillater oss å unngå forvirrende påvirkning av sammenheng, det tvinger oss til et lite antall prøver. På grunn av utvalgsstørrelse, aktuelle datasett mangler statistisk styrke til å bygge separate modeller for hver kreft.

Vi utnytter felles mellom krefttyper og narkotika for å overvinne mangelen på data. Vi foreslår CHER (kontekstuell Heterogenitet aktivert regresjon), en algoritme som bygger prediktive modeller ved å velge genomisk funksjoner og avgjøre hvilke som er delt eller ikke mellom krefttyper, vev og narkotika. CHER er bemyndiget av to forutsetninger. Først foruts CHER tilsvarende krefttyper kan ha lignende mekanismer underliggende stoffet følsomhet. For eksempel, basal-lignende brystkreft og eggstokkreft deler mange molekylære signaturer [21]; Derfor er disse to typer kreft er sannsynlig å dele lignende prediktive genomiske egenskaper for medikamentsensitivitet. For det andre forutsetter CHER at hvis to stoffene indusere lignende svar, deres prediktive modeller er sannsynlig lignende. Disse forutsetningene tillate CHER å øke sin makt for å avdekke biomarkører prediktive for narkotika følsomhet ved å dele informasjon mellom kreft og narkotika.

Vi søkte CHER til tre datasett fra Kreftcellelinje Encyclopedia (CCLE) [7] og viser at CHER gir betydelig mer nøyaktig modellering av medikamentsensitivitet i disse datasettene i forhold til andre metoder. I motsetning til tidligere metoder som antar alle prøvene har de samme prediktive egenskaper, Cher eksplisitt lærer som prediktive egenskaper bør deles eller ikke mellom kreft eller subtyper. For data med flere undergrupper av prøver, Cher identifiserer også relevant subtype som tilsier sammenhengen spesifisitet, og tilbyr muligheten til å kaste lys på mekanismene bak pharmacogenomics.

Nedenfor vi først presentere motivasjon og begrepet Cher, etterfulgt av resultatene fra programmet til CCLE data. Vi deretter sammenligne CHER prestasjoner med andre metoder og demonstrere Chers overlegen ytelse. Eksempel modeller fra CHER blir vist frem og diskutert. Detaljer om CHER algoritmen blir så presentert i Materialer og Metoder og S1 tekst.

Resultater

Kontekst Heterogenitet Aktivert Regresjon

Vi bruker data fra Kreftcellelinje Encyclopedia (CCLE) [ ,,,0],7] for vår analyse. Den CCLE kohorten inkluderer 36 forskjellige krefttyper som vanligvis sammenslåtte sammen for analyse med noe skille mellom typer [7]. Men effekten av vev på narkotika følsomhet er tydelig (S1 figur).

En måte å takle dette problemet er å regress ut at effekten av vev gjennom multivariate variansanalyse (MANOVA) og deretter modellere rester av alle prøvene sammen [8]. Men dette betyr ikke ta vare på den kontekstuelle effekt. Det vil si at effekten av vev-gen-interaksjoner. For eksempel

MDM2

overekspresjon er kjent for å være forutsigbare for sensitivitet til Nutlin-3 i akutt myelogen leukemi [22] og akutt lymfatisk leukemi [23]. Men sammenhengen mellom

MDM2

uttrykk og følsomhet for Nutlin-3 varierer mellom vev (Pearsons korrelasjonskoeffisient r: -0,01 ~ -0,53). S2B Fig viser sammenhengen mellom

MDM2

uttrykk og følsomhet for Nutlin-3 i ulike vev. Selv om denne foreningen kan oppdages ved hjelp av alle prøvene (r = -0,38, p 5e-8), er misvisende slik forening, som

MDM2

uttrykk ikke har noen prediktiv kraft for vev som sådan lunge eller bukspyttkjertel (S2B fig). Dessuten, hvis vi forkaste prøver fra de vev hvor foreningen er fraværende, kan vi se økt forening (S2A figur) og en økning i

MDM2 sin

prediktiv kraft i disse vev. Som hvert vev kan ha ulike grader av tilknytning mellom

MDM2

uttrykk og følsomhet for Nutlin-tre slike vevsspesifikke genet effektene vil bli

vev-genet samspilleffekter

når alle prøvene er samlet sammen for analyse. Ved hjelp av Manova å bare regress ut den gjennomsnittlige effekten av hvert vev vil ikke løse slike vev-spesifikke gen virkning.

Ideelt sett ville begrense analysen til en krefttype om gangen, men dessverre den resulterende prøve størrelse er for tiden for liten. De tilgjengelige narkotika følsomhet data i Clle inneholder færre enn 40 prøver for de fleste kreftformer, med unntak av lungekreft (n = 91), kreft stammer fra hematopoetiske og lymfoide vev (n = 70), og hudkreft (n = 40) (S3 fig) og selv disse utvalgsstørrelsene er relativt små. Mangelen på statistisk styrke på grunn av liten utvalgsstørrelse er ytterligere forverret av størrelsen og kompleksiteten av det menneskelige genom.

For å få statistisk styrke og fortsatt står for sammenheng spesifisitet vi utviklet

CHER plakater (Kontekst heterogenitet Aktivert regresjon), en algoritme basert på overføring læring [24] som velger prediktiv genomisk funksjoner og bygger regresjonsmodeller for narkotika følsomhet. I motsetning til andre algoritmer, har som mål CHER å avdekke prediktive egenskaper som deles på tvers av kontekster, samt funksjoner som er prediktiv bare i visse sammenhenger. En sammenheng kan være en krefttype, vevstype, eller kreft subtype. Vi viser til denne sammenhengen som

relevant subtype

, eller

split

, som skiller enkeltpersoner i to grupper hvor den prediktive program for narkotika følsomhet kan være forskjellige.

CHER samtidig oppnår to mål: CHER eksplisitt utfører sparsom funksjonsvalg mens optimalisere ytelsen til prediksjon av narkotika følsomhet. Mens optimalisere prediksjon av narkotika følsomhet prediksjon er avgjørende for presisjon medisin, gjør sparsom funksjonen utvalg for biologisk tolkning av de resulterende modeller. Sistnevnte er spesielt viktig fordi det kan gi en forståelse av legemiddelresistens som kan belyse måter å forbedre narkotika utvikling eller kombinatorisk behandling.

Vår algoritme er inspirert av overføring læringsteori [24]. Vi øker makt ved å dele informasjon mellom kreft og mellom narkotika. Først lærer vi modeller fra lignende kreft, i hovedsak dele informasjon mellom kreft ved å anta at de kan dele de samme genomiske funksjonene ansvarlig for legemiddelsensitivitet (fig 1A). Ved å samle prøver av lignende kreft, øke vi kraft til å lære prediktorer felles for dem. Hvis du vil vite kontekstspesifikke, eller kreft-typespesifikke prediktorer, innfører vi en

split

variabel som representerer typer /undertyper av kreft. Dette split variable forholdene prediktive effekten av kontekstspesifikke funksjoner via interaksjon vilkår mellom splitten variable og prediktorer i modellen (for eksempler, gen A og mutasjon M i melanom, fig 1A). Merk, valg av split er en del av optimaliseringsproblem. CHER lærer å skille prøvene inn i to grupper, når en slik separasjon av prøvene øker prediktiv kraft. På dette stadiet, har CHER lært en innledende modell som kan inneholde både prediktorer som deles mellom kreft eller spesifikke for en av dem.

A. Eksempel på en modell lært av Cher, hvor de medikamentsensitivitet av melanomprøver kan forutsies ved mutasjon av M og genekspresjon av A og S, mens det i gliom, ekspresjon av genet S og B er prediktorene. CHER utnytter pooling prøvene sammen for å få statistisk styrke, identifisere både felles (genet S) og kontekstspesifikke funksjoner (A, B og M). I tilfeller der det er relevant sammenheng er ukjent, algoritmen søker etter den beste «split», om noen, til separate prøver i to grupper. Yi representerer narkotika følsomheten til ith prøven, xi er de tilsvarende funksjonene i ed prøven, zit = 1 presenterer den it prøven er melanom, og jeg (.) Er en indikator funksjon. B. iterativ læringsplanen av Cher. CHER opprinnelig lærer modeller med uniform før (som betyr hver genomisk funksjonen har samme sannsynlighet for å bli inkludert i modellen). Under hver iterasjon, tog Cher regresjonsmodeller med bootstrapping, som tillater algoritmen for å etablere frekvensen for hver funksjon som er valgt. Deretter CHER justerer priors henhold til fordelingen av frekvens og likheten mellom fenotyper.

Deretter øker vi CHER læring ved å overføre informasjon mellom legemidler (fig 1b). Vi antar at hvis to medikamenter indusere en lignende reaksjon, deres prediktive modeller er sannsynlig lignende i tillegg. For eksempel, hvis to legemidler indusere høyt korrelert svar og vi har observert genet

En

som en prediktor for følsomhet for ett medikament, er det mer sannsynlig genet

En

er også logisk for andre rusmiddel . Dette gir oss muligheten til å justere vår tro for hver funksjon å være prediktive for narkotika følsomhet ved å sammenligne modeller avledet for lignende stoffer. Fra Bayesiansk perspektiv, er første modellene av narkotika følsomhet lært å anta hver funksjon har lik sannsynlighet for å bli valgt (uniform før), og den påfølgende deling av modeller mellom legemidler tillater oss å lære en funksjon utvalg tidligere for hvert medikament. Dette iterativ deling mellom narkotika er sentral i å lære kraften i Cher.

Under hver iterasjon vi utnytte L0-norm ordnet regresjon for å velge prediktive funksjoner for følsomhet for hvert medikament. I L0-normen ordnet regresjon, er en straff brukes proporsjonal med antall funksjoner lagt til modellen, som i klassiske stegvis regresjon metoder, men de funksjonene som er lagt til modellen er ikke krympet som i lasso [25] eller elastisk-net [26]. L0-norm regularisering har flere fordeler. Først er regularisering begrep i regresjon nonparametric, siden den sparsomme utvalg av prediktorer i L0-norm regularisering er styrt av minimums beskrivelse lengde (MDL), hvor valg av hver funksjon er kodet som en

kostnaden

eller straffen som sikrer sparsity av modellen (Materialer og metoder). For det andre, korrespondansen mellom MDL og Bayesiansk statistikk tillater oss å iterativt justere vår tro ved å sette kostnadene for hver funksjon i henhold til sannsynligheten for at funksjonen blir valgt. Ved hver iterasjon, bruker vi L0-norm ordnet regresjon med bootstrapping til å bygge en sannsynlighetsfordeling (tidligere) for hver funksjon basert på antall ganger det ble valgt. Dette før fordeling er ytterligere justert ved å dele informasjon mellom narkotika, konstruere en straff for funksjonsvalg i neste iterasjon (fig 1B). Tredje, bruker vi en grådig algoritme for å effektivt bygge en L0-norm normalisert regresjon; modellene som følge av dette søket har vist seg å ha god ytelse [27]. Hensynet til kontekstuelle prediktorer krever at leteområdet omfatter samspillet mellom genomiske funksjoner og sammenhenger. Mens en slik stor funksjon plass kan være en utfordring for mange algoritmer, den grådige-søk kan CHER å effektivt søke relevante prediktorer i denne stor funksjon plass.

For å evaluere CHER ytelse, tester vi det på en syntetisk datasett som er simulert fra de virkelige data (S1 tekst). Vi sammenligner CHER til elastisk nett algoritmen tidligere brukt for disse dataene og vurdere tre beregninger: presisjon, husker, og F-måler (S1 Tekst, bilde 2). F-måler scorer harmoniske middelverdien av presisjon og tilbakekalling og representerer generelle ytelsen til de to algoritmer. CHER handler av noen tilbakekalling for å produsere høyere presisjon i forhold til den elastiske nettet. I biologiske anvendelser presisjon er ofte foretrukket å huske, siden minimerer falske positiver sparer fremtidige kostbare eksperimentelle valideringer. Dermed presisjon og F-måler score i sluttiterasjoner tyder den generelle overlegenhet CHER identifisere riktige prediktorer (S1 Tekst og S4-S6 Fiken).

bootstrapped elastisk nett (EN) er i forhold til bootstrapped Cher. En terskel på 0,3 og 0,5 er brukt på den aktuelle frekvens (

τ

) for å bestemme robuste funksjoner i Cher og elastisk, henholdsvis. Presisjonen, husker, er F-mål på hver fenotype fra EN (x-aksen) plottet mot at fra CHER (y-aksen). Den første raden viser resultatene av CHER fra første iterasjon og andre rad resultatene av CHER fra 10

th iterasjon. Hver prikk representerer en fenotype, farget av støynivået til.

Bruk av CHER til CCLE datasett

CHER utnytter pooling prøver fra lignende kreft å øke makten. Vi konstruerte test datasett basert på tidligere kjennskap til kreft likhet og antallet tilgjengelige sampler fra hver krefttype (S3 figur), som i stor grad begrenset utvalget. Vi samlet blod og lymfoide kreftcellelinjer (n = 70, CCLE-Blood) basert på vev opprinnelse. Vi samlet bryst (n = 27) og eggstokk (n = 25) kreftprøver (CCLE-BreastOvary) på grunn av genomiske likheter mellom basal-lignende brystkreft og høyverdig serøs eggstokkreft [28]. Til slutt, blant alle tilgjengelige CCLE data, vi videre gruppert sammen melanom (n = 38) og gliom (n = 25) (CCLE-SkinGlioma) fordi melanocyttene og gliacelle er begge embryologically avledet fra ektoderm. Delte tumorassosierte antigener [29] og feilregulert trasé [30] er blitt rapportert i melanoma og glioma. I tillegg observerte vi høy likheten mellom prøver av sentralnervesystemet og hudvev, slik det er vist i projeksjonen av prøvene på hovedkomponenter som stammer fra genekspresjonsprofiler (S7) Fig. Derfor er det mulig at disse to kreft dele noen biologiske pathways eller genomisk funksjoner som bidrar til narkotika følsomhet.

Hver datasettet inneholder forskjellig antall mulige delte variabler for å angi potensielle kontekstuelle påvirkninger. I CCLE-SkinGlioma, er bare en mulig splittet lov: om en prøve er glioma eller ikke. I CCLE-BreastOvary, er to mulige splitt vurderes: vi kan skille prøver av vev opprinnelse (bryst vs eggstokk) eller patologi (luminal brystkreft vs. basal-lignende brystkreft og eggstokkreft). Endelig er syv potensielle splittelser vurderes i Clle Blods undergruppe, som representerer krefttyper med ulik avstamning opprinnelse (S1 Table). To beregninger brukes for å representere følsomhet for hvert medikament: den konsentrasjon som inhiberer 50% av proliferasjon (IC50) og aktivitetsområdet over kurven tilpasset fra den medikamentrespons-data (ACT). Målene for CHER er å (1) identifisere de beste split, om noen, (2) velg prediktiv genomisk funksjoner som er felles eller kontekstspesifikk (definert av den valgte splitt) for hvert medikament følsomhet fenotype, og (3) lære regresjonsmodell å forutsi narkotika følsomhet.

på grunn av den lille størrelsen på utvalget, vi ytterligere begrense de mulige funksjoner for å redusere søke plass og dermed øke makten. Vi utarbeidet lister over gener assosiert med hver kreft fra litteratur og sykdom databasen [31]. Bare mutasjon, kopiantall og genekspresjon av gener assosiert med de analyserte kreftformer inngår som potensielle prediktorer. S2 tabell oppsummerer antall fenotyper, funksjoner og tilgjengelige prøver i hvert datasett.

Vi evaluerer CHER ytelse på CCLE datasett med ti-fold kryssvalidering (Materialer og metoder). Pearson og Spearman korrelasjonskoeffisientene er vant til å evaluere resultatene. Den elastiske nettet algoritmen [26] blir også anvendt på CCLE undergrupper for sammenligning, som det har blitt brukt til å identifisere genomiske funksjoner for medikamentsensitivitet i [7, 8, 32]. Elastisk netto regresjon kan man velge prediktiv genomikk funksjoner basert på L1 og L2-normer; den sistnevnte er egnet for sterkt korrelerte genekspresjon egenskaper [32]. Imidlertid ikke naive elastisk nett algoritme ikke tillate kontekstuelle prediktor, og derfor er hver valgt genomisk funksjon som brukes for å forutsi medikamentsensitivitet av hver prøve, uavhengig av sammenhengen. Anvendelsen av elastiske nettet her er den samme som den innstilling i [7], hvor ingen kontekstuelle egenskaper ble vurdert. For å supplere mangel på kontekstuell modellering i elastisk nett, blir de delt variablene i CHER også inkludert som binære funksjoner i funksjonen bassenget for elastisk nett.

Figur 3 sammenligner resultatene for CHER og elastisk nett (Materials og metoder). Som vist i figur 3A, elastisk nettmodeller bedre enn de fra den første iterasjon av Cher. Men etter ti gjentakelser av deling mellom modeller (figur 3B), viser CHER betydelig forbedring i forhold elastisk nett. Dette er fordi den ensartede tidligere anvendt i den første iterasjon ikke klarer å gi modeller for mange fenotyper. Imidlertid er ytelsen forbedret gjennom flere iterasjoner, som informasjon utveksles mellom modeller med lignende fenotyper og priors funksjoner justeres. Effekten av overførings læring kan allerede være observert i andre iterasjon (S8 og S9 figur), viser nytten av overføring læring mellom narkotika av lignende svar, som legemidler som deler samme mål ofte fremkalle lignende følsomhet (S10 figur).

Pearsons korrelasjonskoeffisienter mellom prediksjon og de sanne følsomhet data er beregnet for hver algoritme og plottet mot hverandre (x-aksen: elastisk nett, y-akse: CHER). Hver prikk representerer en fenotype. A. Spådommer for melanom og glioma prøver fra den første iterasjon av CHER algoritme blir sammenlignet med de fra elastisk nett. B. Spådommer for melanom og glioma prøver fra CHER etter ti iterasjoner er sammenlignet med de fra elastisk nett. C., D. På lignende måte, men for bryst- og eggstokk-kreft prøver. E. F. På lignende måte, men for blodprøver.

Ved slutten av den iterative læringsprosessen, gir CHER bedre forutsigbar ytelse (Pearson korrelasjonskoeffisienter, se Materialer og Metoder) enn elastisk-net for 60% (70/116) av de medikamentsensitivitet fenotyper i alle tre datasett (p 6e-6, en hale paret t-test, for sammenligning av Pearson korrelasjon; p 2e-7 for å sammenligne Spearman korrelasjon, fig 3, S8 og S9 figurene). Videre, for disse 70 fenotyper, forbedring av CHER spådommer i løpet av elastisk nett er stor, med en gjennomsnittlig økning på 0,24 i Pearson korrelasjon (S11 fig). Elastisk netto utkonkurrerer CHER på bare 46 fenotyper med gjennomsnittlig økning på 0,12.

Sammenligning av funksjoner valgt av CHER og elastisk-net

For å få innsikt i de modellene CHER produserer, sammenligner vi de funksjonene valgt av CHER og elastisk nett. Begge algoritmer brukes på alle prøver i hvert datasett med bootstrapping. Bare funksjoner som er robust valgt via bootstrap er beholdt i den endelige modellen (Materialer og metoder). Merk at det er mange fenotyper hvor elastisk nett ikke klarer å velge noen funksjon fordi ingen funksjoner er valgt «ofte nok» blant bootstrap kjøres, noe som indikerer en manglende robusthet i elastisk netto funksjonsvalg. For eksempel klarer elastisk-net for å velge noen robuste funksjoner for de fleste fenotyper (35 av 39) for CCLE-BreastOvary, mens CHER bare mislykkes på en fenotype. Derfor er CCLE-BreastOvary falt fra sammenligning. For de to andre datasett, er sammenligninger gjort for en fenotype bare når den elastiske-net har også valgt robuste funksjoner følgende bootstrap.

Først sammenligner vi antall funksjoner valgt av hver algoritme (fig 4A). Sammenlignet med Cher, elastisk-net velger ofte mange flere funksjoner, sannsynligvis på grunn av elastisk netto L2-norm regularisering, som favoriserer velge korrelerte egenskaper. Vi sammenligner de overlappende og unike funksjoner mellom de to algoritmene ved å skille dem inn i fem kategorier: (1) funksjoner som er valgt av begge algoritmer (

overlapper men CHER-delte

i figur 4A), (2) funksjoner som velges ved begge, men er bare logisk for en subtype av prøver i Cher (

overlapp men CHER-kontekstuell

), (3) funksjoner som kun utvalgte av CHER og er forutsigbar for alle prøvene (

CHER -bare delt

), (4) funksjoner som kun utvalgte av CHER og er prediktiv bare for en undertype av prøver (

CHER-bare kontekstuell

) og (5) funksjoner som bare valgt av elastisk nett (

EN-bare

).

A. Antall valgte funksjoner av begge og individuelle algoritmer for hver fenotype. For hver fenotype (x-aksen), er antall funksjoner valgt av Cher representert i den positive y-aksen, mens de som er valgt av elastisk nett som er representert i den negative y-aksen. Funksjonene er delt inn i fem grupper, svarende til valgte funksjoner av begge algoritmer eller ved spesifikke for de enkelte algoritmer. Fenotype 1-14 er fra CCLE-SkinGlioma og resten er fra CCLE-Blood. B. Justert R

2 av CHER og elastiske netto modeller ved hjelp av funksjonene som er valgt av både algoritmer (funksjonene i de to første kategoriene i A). C. Som B, men alle funksjonene valgt ved hver algoritmen blir brukt. Fenotyper i alle tre tallene er sortert etter forskjellen på R

2 mellom CHER og elastisk nett fra C.

Fra dette nedbryting, finner vi at 40/45 fenotyper har minst en funksjon som er valgt av både CHER og elastisk nett. Ved hjelp av bare disse funksjonene, vi estimere variansen forklart (justert R

2) ved CHER og elastisk nett (Fig 4B). For CCLE-SkinGlioma (Phenotype 1-14 i figur 4B), justert R

2 s er lik mellom CHER og elastisk nett. Dette skyldes at det bare er to subtyper av prøver i dataene, og det kan kodes som en binær funksjon i det elastiske nett. Men når undertyper av prøvene blir mer komplisert som i CCLE-Blood, fortjeneste av Chers modeller manifesterer i gevinst på R

2 (Phenotype 15-45 i figur 4B). Selv med det samme settet av utvalgte funksjoner (kategori 1 og 2 ovenfor), forklarer CHER mer varians enn elastisk netto for 12 fenotyper ved å vurdere kontekstuelle effekter av funksjonene.

Når du vurderer alle funksjonene som er valgt av hver algoritme, vi se CHER oppnår bedre justert R

2 enn elastisk nett for 29/45 fenotyper (p 0,007, én hale paret t-test, fig 4C), selv om Chers modeller ofte inneholder færre funksjoner enn elastisk nett. Chers gevinster i R

2 er også mer betydelig enn det elastiske nettet: CHER gevinster 0,2 R

2 over elastisk nett for 11/29 fenotyper, mens elastiske netto gevinster 0,2 R

2 over CHER for 2/14 fenotyper. Sammen resultatene tyder Chers endelige modeller forklare mer varians i dataene, sannsynligvis oppnås gjennom modellering av sammenhengen.

Sammenligning med flere metoder

I tillegg til elastisk nett, også sammenlignet vi ytelsen CHER til Multiple inkluderings Criterion (

MIC

) [27], multi-oppgave lasso (

MTLASSO

) [33], elastisk nett med alle kontekst genet interaksjon funksjoner (

eN-INT

), og Bayesiansk multi-oppgave multi-kernel regresjon (

BMKL

) som nylig vant NCI-DREAM narkotika følsomhet prediksjon utfordring [34]. MIC er en algoritme som velger funksjoner via L0-normen og har vist gode resultater i funksjon utvalg og prediksjon oppgaver. Det er forgjengeren til Cher, som CHER strekker MIC ved å legge overføring læring og kontekst (Materialer og metoder). MTLASSO er en forlengelse av lasso som pålegger den sparsity begrensning på alle læringsoppgaver på en gang. Den deler i hovedsak funksjoner mellom alle fenotyper. I motsetning BMKL er en metode som først bruker flere kjerner for hver datatype (for eksempel mutasjon eller genekspresjon) for å oppsummere likheten mellom prøvene, og deretter bruker bayesiansk slutning å lære regresjon vekter på disse for å forutsi narkotika følsomhet [34]. En fordel med BMKL er at regresjonsmodeller kan være ikke-lineær via kernel beregninger. Til slutt legger vi alle krefttypen og genet interaksjons vilkår (kontekstuelle funksjoner) inn i funksjonen plass og bruke elastisk nett med interaksjoner (EN-INT). Det vil si, vi inkluderer i funksjons bassenger binære variabler som angir krefttyper og kreft-type spesifikke funksjoner (f.eks. Produkter av binære variabler og genomiske funksjoner) for EN-INT. Merk alle delte variablene som brukes i Cher er også inkludert som binære funksjoner i funksjonen bassenget for alle metoder.

Vi gjelde alle metoder til CCLE datasett og sammenlign resultatene deres i en ti-fold kryssvalidering (Materials og metoder). Figur 5 og S12 figur viser den generelle ytelsen til hver metode. På tvers av alle tre datasett, utkonkurrerer CHER fleste metoder og utfører sammenlignbare med BMKL. Nærmere bestemt, gir bedre resultater enn CHER NO (s 6e-6, en hale paret t-test, for sammenligning av Pearson korrelasjon; p 2e-7 for å sammenligne Spearman), MTLASSO (p 6e-5 for Pearson, s 2e-8 for Spearman), EN-INT (p 1e-3 for Pearson, p 3e-7 for Spearman) og MIC (p 3e-19 for Pearson, p 3e-24 for Spearman). CHER utkonkurrerer BMKL i CCLE-SkinGlioma (p 0,05 for Pearson, p 4e-3 for Spearman)., Har tilsvarende ytelse som BMKL i CCLE-BreastOvary, men BMKL utfører bedre enn CHER i CCLE Blods

Pearson korrelasjonskoeffisienter mellom prediksjonen og følsomhets data beregnes for hver algoritme. Korrelasjonskoeffisientene fra hver algoritme (x-aksen) er sammenlignet med dem fra Cher (y-aksen). Hver prikk representerer prediksjon ytelse for ett medikament følsomhet. Metode forkortelse: EN, elastisk nett, MIC, multippel inklusjonskriterium; BMKL: Bayesian multi-oppgave multi-kernel regresjon; MTLASSO: multi-oppgave lasso; EN-INT: EN med kontekst-genet interaksjoner. P-verdiene viser betydningen av CHER spådommer i forhold til andre metoder (én hale t-test).

Disse sammenligningene fremheve fordelene med Cher. Først utkonkurrerer CHER EN-INT selv om alle kontekstuelle funksjonene er gjort tilgjengelig for elastisk nett. Dette viser CHER overlegne funksjonsvalg, sannsynligvis drar nytte av overføring av informasjon mellom flere fenotyper. For det andre kontekstuelle egenskaper er viktige som CHER utkonkurrerer MIC selv om CHER og MIC bruker samme metode for funksjonsvalg.

Til tross for den tilsvarende ytelse mellom CHER og BMKL, Cher gir også interpretability for forholdet mellom genomiske funksjoner og narkotika følsomhet. I de tre datasettene, identifiserer CHER mange prediktive egenskaper som enten er direkte mål av narkotika eller liknende baner, noe som tyder på forholdet mellom disse funksjonene og narkotika følsomhet. For eksempel, identifiserer CHER BRAF som en prediktor for følsomhet for RAF hemmer PLX4720 og MEK-hemmere (AZD6244 og PD-0325901) i CCLE-SkinGlioma; ErbB2 som en prediktor for følsomhet for Lapatinib (EGFR og ErbB2 hemmer) i CCLE-BreatOvary; ABL1 for følsomhet for ABL1 hemmere (AZD0530, Nilotinib) i CCLE-Blood (S3-S5 Tables). Dette understreker CHER evne til å utlede modeller som ikke bare er prediktive for narkotika sensitivitet, men hjelper også belyse virkningsmekanismen.

A Case Study of Følsomhet for paclitaxel i melanom og gliom cellelinjer

For

Legg att eit svar