PLoS ONE: Temporal Bestilling av kreft mikroarray data gjennom en forsterkende læring Based Approach

Abstract

Temporal modellering og analyse, og mer spesifikt, tidsmessige rekkefølgen er svært viktige problemer innen fagområdene bioinformatikk og beregningsorientert biologi, som tidsmessig analyse av hendelsene som karakteriserer en viss biologisk prosess vil kunne gi betydelige innsikt i utvikling og progresjon. Spesielt i tilfelle av kreft, forstå dynamikken og utviklingen av denne sykdom vil kunne føre til bedre metoder for prediksjon og behandling. I denne artikkelen takler vi, fra en beregningsperspektiv,

temp bestilling

problem, som refererer til å bygge en sortert samling av multi-dimensjonale biologiske data, samling som gjenspeiler en nøyaktig tidsmessig utvikling av biologiske systemer. Vi introduserer en ny tilnærming, basert på forsterkende læring, mer presist, på

Q-læring

, for det biologiske time bestilling problem. Den eksperimentelle Evalueringen er utført ved hjelp av flere DNA microarray datasett, hvorav to inneholder kreft genuttrykk data. De oppnådde oppløsninger er korrelert enten til den gitte riktige rekkefølgen (i de tilfeller der dette er gitt for validering), eller til den totale overlevelsestiden for pasientene (i tilfelle av kreft datasett), noe som bekrefter en god ytelse av foreslåtte modellen og indikerer potensialet i vårt forslag

Citation. Czibula G, Bocicor IM, Czibula IG (2013) Temporal Bestilling av kreft mikroarray data gjennom en forsterkende læring Based Approach. PLoS ONE 8 (4): e60883. doi: 10,1371 /journal.pone.0060883

Redaktør: Frank Emmert-Streib, Queens University Belfast, Storbritannia

mottatt: 25 desember 2012; Godkjent: 04.03.2013; Publisert: 02.04.2013

Copyright: © 2013 Czibula et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble delvis støttet av sektor Handlingsprogrammet for Human Resources Development 2007-2013, delfinansiert av European Social Fund, under prosjektnummer POSDRU /107 /1,5 /S /76841 med tittelen «Moderne doktorgradsstudier: Internasjonalisering og Tverrfaglighet» . Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

de utvikler seg fra de siste tiårene innen biologi har resultert i en eksponentiell økning i mengden av biologisk informasjon. Avhengig av type og hensikten med biologiske eksperimenter, kan de innsamlede dataene varierer fra nukleotid- eller proteinsekvenser, konstruksjoner eller funksjoner, til molekylære interaksjoner og metabolske veier. Analyse av disse data avslører viktig innsikt i forskjellige biologiske prosesser og til slutt fører til en bedre forståelse av levende organismer.

Biologiske prosesser er for det meste dynamisk og derfor, for å nøyaktig karakterisere dem, trenger forskere dynamisk informasjon. Imidlertid er de fleste eksisterende data statisk, fordi det er ofte vanskeligere og vanskeligere å følge en viss prosess i sin fulle utvikling. For eksempel, i tilfelle av en sykdom, i visse situasjoner er det bare mulig å trekke ut data fra en strøm pool av pasienter, heller enn å følge de samme pasienter over hele sykdomsforløpet. Derfor, behovet for å trekke ut dynamisk informasjon fra statiske data vises og en mulig måte å oppnå dette målet vil være å slutte timeorde til disse dataene.

I denne artikkelen vi takle, fra et beregningsperspektiv, den biologiske

temp bestilling (TO) problem

, som refererer til å bygge en sortert samling av multi-dimensjonale biologiske data, samling som gjenspeiler en nøyaktig tidsmessige utviklingen av en viss biologisk prosess. Celledeling og vekst, utvikling, celle avstamning, metabolisme, eller, mer spesielt, visse klasser av sykdommer (som kreft) er bare noen eksempler på slike dynamiske biologiske prosesser. Den multi-dimensjonale inngangsdata kan være et resultat av ulike biologiske eksperimenter: protein uttrykk, DNA-mikromatriser, SNP arrays, kromosomkopitall endringer, komparativ genom hybridisering. I dette arbeidet, begrenser vi vurderer datasett som består av prøver som stammer fra microarray gene expression eksperimenter.

temp bestilling problem

omtalt i denne artikkelen vil bli definert i det følgende, og betydningen av problemet vil bli vektlagt. Vi presenterer også flere relaterte tilnærminger for å løse TIL problem, allerede eksisterende i litteraturen.

Problemet erklæringen og Relevans

Temporal modellering og analyse, og mer spesifikt, er timelig bestilling et viktig forskningsretning innenfor flere felt. Fra en maskin læringsperspektiv, i mange situasjoner, bestiller et gitt datasett tilfeller i tid gir mer vesentlig informasjon enn å plassere dem i enkelte klasser. Derfor det generelle problemet med time bestilling er sammenlignbare, som betydning, til klassifiseringen problemet [1].

Innenfor bioinformatikk og beregningsorientert biologi rammeverk, kan tinning bestilling problem uttrykkes i ulike former. En definisjon av dette problem viser til bestemmelse og beskrive rekkefølgen av hendelser som karakteriserer en biologisk prosess. Dersom den aktuelle prosess er kreft, for eksempel, er målet å finne en tidsmessig rekkefølge for de genetiske og sti forandringer som oppstår under dannelsen og utviklingen av denne sykdom. Det er kjent at de fleste svulster utvikler på grunn av funksjonsfeil i de komplekse signalnettverk, som er et resultat av mutasjoner som vises i visse viktige gener (onkogener eller tumorsuppressorgener) [2]. Derfor studere i hvilken rekkefølge disse mutasjonene skje kan føre til en bedre forståelse av utviklingen av kreft. Flere verker finnes i litteraturen som nærmer tinning bestilling problem som det ble beskrevet ovenfor, og disse vil bli presentert i avsnittet nedenfor.

Den midlertidige bestilling problemet kan også formuleres som problemet med å bygge en sortert samling av multi-dimensjonale biologiske data, samling som reflekterer en nøyaktig tidsmessige utviklingen av en viss biologisk prosess. Det endelige målet er å finne visse mønstre i inngangsdataene som varierer over tid, og bruke dem effektivt for å kunne tilby en riktig karakterisering av den aktuelle prosess. I hva som opptar denne retningen av studien, er det i hovedsak to verk som har nærmet seg dette problemet og disse vil også bli diskutert i neste ledd. Vi nevner at vi takle den time bestilling problem, formulert i denne andre måten.

En av de mest betydningsfulle anvendelser av dette problemet er innen kreftforskning. Flertallet av humane cancer eksperimenter gir data uten noen tidsmessig informasjon, fordi ofte er det også vanskelig, eller til og med umulig, å følge de samme pasienter over den fulle utvikling av sykdommen. I stedet er eksperimentelle prøver samlet inn fra dagens bassenger av pasienter, hvis sykdommer er på ulike stadier av utvikling og dermed hver prøve reflekterer en annen grad av kreft progresjon. Konstruksjonen av en korrekt tidsbestemte serie av disse prøvene kan, på den ene side, gir meningsfull informasjon om den komplekse prosessen med kreft evolusjon. På den annen side, kan den tidsmessige rekkefølge benyttes til forutsigelse av overlevelsestider av nylig diagnostiserte pasienter: forutsatt at for pasientene i de første inngangsdatasettet overlevelsestider ville bli gitt, når nye pasienter, med ukjente overlevelsestider blir satt til datasettet, den gjentime for hele settet med prøver (inkludert de nylig lagt seg) kan gi informasjon om de overordnede levealder av de nye pasientene.

Litteraturgjennomgang

den generelle å problemet er kjent for å være NP-komplett [1], noe som betyr at eksakte løsninger er svært vanskelig å få tak i og derfor ulike heuristiske metoder har blitt brukt for å løse det. Det generelle problemet har stort sett blitt kontaktet av forskere av kunstig intelligens samfunnet (maskinlæring, data mining) [1], [3]. Innenfor data mining-feltet, er det mange studier som utvinner tidsmessige informasjon fra ulike typer tekster (generell, medisinsk, avisartikler) [4] – [7]. Andre bruksområder er sortering bilder av byene for å observere deres utvikling over tid [8] eller bygge arkeologiske kronologier fra ulike gjenstander [9].

Fra synspunkt av bioinformatikk og beregningsorientert biologi, ulike former for tIL problem har blitt studert og et betydelig antall forskere fokusere på ulike former for kreft. På grunn av det faktum at denne sykdommen er en utviklingsprosess, som drives av mutasjoner og endringer av celle oppførsel [10], en viktig linje av arbeid for å utvikle modeller og dedusere tidsmessige ordre om å beskrive forandringer i kreftceller DNA, så vel som til bestemme rekkefølgen genmutasjon hendelser og sti variasjoner skje i løpet av utviklingen av kreft.

Flere sannsynlighetsmodeller har blitt foreslått for å hente tidsmessig og uformell rekkefølgen mutasjoner skje på nivået av gener og stier , i løpet av kreft progresjon [10] – [12]. I arbeidet med Hjelm

et al.

[11], er målet å studere kromosom utviklingen i kreftceller ved å innføre og bruke grafiske generative sannsynlighetsmodeller. Gerstung

et al.

[10] foreslår en sannsynlighetsmodell basert på Bayesiansk nettverk, mer spesifikt på en klasse av grafiske modeller som heter skjulte konjunktiv Bayesian Networks (H-CBNs), som tidligere ble foreslått å studere akkumulering av mutasjoner og deres avhengighetsforhold i kreft progresjon [12]. Forsøkene ble foretatt på datasett inneholdende tverrsnittsmutasjons data som tilhører forskjellige typer kreft (kolorektal, bukspyttkjertel og primære glioblastom) og konklusjonene er at disse H-CBNs tilveiebringe en intuitiv modell av tumorigenesis [10].

En annen tilnærming til dette problemet er basert på builduing tre modeller av mulige genmutasjon hendelser [13] – [17]. Desper

et al.

[13], [14] foreslår et tre modell for onkogenese og ved hjelp av komparativ genom hybridisering data de viser at, under visse forutsetninger, utleder sin algoritme riktig tre av hendelser (der en hendelse blir sett på som et tap eller en gevinst på en bestemt kromosom arm). Deres tilnærming er basert på ideen om en maksimal vekt forgrening i en graf. Denne foreslåtte metodikken ble videreutviklet av Beerenwinkel

et al.

, Som modellen inkluderer flere oncogenetic trær, tilsvarende flere time sekvenser av hendelser som kan føre til kreft [15], [16]. Pathare

et al product: [17] analysere oral cancer progresjon ved hjelp av begge modellene.. Avstand trær introdusert av Desper

et al product: [14], og blandingen av oncogenetic trær introdusert av Beerenwinkel

et al.

[15], [16].

matematiske tilnærminger har også blitt foreslått å takle problemet med å identifisere den timelige sekvens av mutasjoner som fører til kreft progresjon [18], [19]. Attolini

et al.

[18] innføre en evolusjonær matematisk tilnærming kalt tilbake gjennom den evolusjonære trinn i Cancer (RESIC), for å identifisere den tidsmessige rekkefølgen av genmutasjoner i kreftutvikling, og de teste det på flere tykktarmskreft , glioblastom og leukemi-datasett. Denne metoden ble videreutviklet i [19] for å innlemme, foruten genetiske endringer, modifikasjoner av de molekylære signalveier der kreften utvikler seg.

Et annet viktig forskningsretningen fokuserer på en annen formulering av TO problem. Innenfor denne type arbeid, er problemet å konstruere en sortert samling av multi-dimensjonale biologiske data som gjenspeiler en nøyaktig tidsmessige utvikling av en biologisk prosess. Vi takle TIL problemet fra synspunkt av denne andre definisjonen. Så vidt vi vet, er det i hovedsak to verk som nærmer biologiocal TIL problem som formulert ovenfor, både av dem ved hjelp av genuttrykk data fra microarray eksperimenter. Disse vil bli kort presentert i det følgende.

Den første teknikken, som bruker kreft genekspresjonsdata, innføres ved Gupta og Bar-Joseph [20]. Forfatterne formelt bevise at under visse biologiske forutsetninger på inngangsdatasettet, det unike løsning av handelsreisende problemet (TSP) representerer den korrekte tidsmessig bestilling, med en høy sannsynlighet. TSP er definert ved hjelp av prøvene som utgjør inngangsdatasettet, som er preget av multi-dimensjonale genuttrykk data, som hjørner og avstanden mellom dem er beregnet ut fra Manhattan () beregning. Fremgangsmåten anvendes på et datasett av 50 glioma pasientene og resultatene viser en god korrelasjon med overlevelse varigheten av pasientene. Videre, en klassifikator som bruker den oppnådde bestilling er definert, som viser seg å gi bedre resultater andre klassifiserere som er utviklet for det betraktede oppgave og nøkkelgener som er knyttet til kreft er identifisert.

Den andre studien som nærmer seg denne form for den biologiske Å problemet er innført av Magwene

et al.

[21] og den foreslåtte metoden er basert på minimum strekker seg over trær og PQ-trær. Den minste spenntre algoritme brukes på en vektet, urettet graf, der hver node er representert ved en forekomst av datasettet, representert ved multi-dimensjonale microarray data. Effekten av denne metoden er bevist ved å teste algoritmer på kunstige datasett, samt på gang-serien genuttrykk datasett avledet fra DNA microarray eksperimenter.

Det viktigste bidraget fra denne avhandlingen er at det introduserer en ny tilnærming til problemet TO, formulert som problemet med å konstruere en sortert samling av multi-dimensjonale biologiske prøver, basert på forsterkning læring. Armering læring [22] er en tilnærming til maskin intelligens som en agent [23] kan lære å oppføre seg på en bestemt måte ved å motta straff eller belønning på sine utvalgte handlinger. Så langt vi kjenner til, har den TO problemet ikke er løst i litteraturen bruker forsterkende læring, så langt. Flere eksperimenter utført på ulike DNA microarray datasett viser at den foreslåtte forsterkning læringsbasert tilnærming vellykket identifiserer nøyaktige tidsmessige orden som de gitte biologiske prøver.

Metoder

I denne delen introduserer vi vår forsterkning læring basert forslag for å identifisere en tidsmessig rekkefølge på en serie av biologiske prøver. Selv om det i denne studien vi begrense til genekspresjon data oppnådd fra microarray eksperimenter, anvendelse av vår fremgangsmåte er mer generell og den kan brukes sammen med forskjellige typer av multidimensjonale biologiske data.

Vi starter med å presentere grunnleggende av

forsterkning læring

, så vi detalj vår tilnærming.

armering læring. Bakgrunn

Målet med byggesystemer som kan tilpasse seg sine omgivelser og lære av deres erfaringer har tiltrukket seg forskere fra mange områder, inkludert informatikk, matematikk, kognitive vitenskaper [22].

Armering Learning plakater (RL) [24] er en tilnærming til maskin intelligens som kombinerer to disipliner for å kunne løse problemer som verken disiplinen kan ta individuelt:

Dynamisk programmering Hotell og

Veiledet læring

. I maskinlæring litteraturen, er RL anses å være den mest pålitelige type læring, som det er mest lik den humane læring.

forsterkende læring omhandler problemet med hvordan en autonom middel som oppfatter og virker i omgivelsene kan lære å velge optimale tiltak for å nå sine mål [25]. Feltet av

intelligente agenter product: [26] er en viktig forskning og utvikling område i kunstig intelligens feltet, agenter vurderes nye viktige virkemidler i konseptualisering og gjennomføring av komplekse programvaresystemer. En agent er en beregningsenhet som et programvaresystem eller en robot, som ligger i en viss environnment, som er i stand til å oppfatte og handle på sine omgivelser og er i stand til å handle autonoumously for å møte sine design mål. Agenter opptrer i vegne av brukerne, er

fleksibel product: [27], noe som betyr at de er

reaktiv product: (i stand til å svare på endringer som skjer i deres miljø),

pro-aktiv product: (i stand til å fremvise mål rettet atferd), og har også et

sosial evne plakater (er i stand til å kommunisere med andre agenter).

Armering læring er nyttig i en rekke praktiske problemer, for eksempel lære å kontrollere autonoumous roboter [28], lære å optimalisere operatons i fabrikker eller lære å spille brettspill. I alle disse problemene, har en kunstig middel til å lære (ved forsterkning) for å velge optimale tiltak for å nå sine mål.

I en forsterkning læring scenario, velger læringssystemet handlinger som skal utføres i miljøet og får

belønning

(eller

forsterkninger

) i form av tallverdier som representerer en evaluering av de valgte handlingene [29]. I RL, er datamaskinen bare gitt et mål å oppnå. Datamaskinen lærer hvordan man skal oppnå dette målet ved prøving og feiling samhandling med sine omgivelser. Armering læring er å lære hva du skal gjøre – hvordan å kartlegge situasjoner til tiltak – slik som å maksimere en numerisk belønning. Eleven ikke fortalt hvilke handlinger som å ta, som i de fleste former for maskinlæring, men i stedet må finne ut hvilke handlinger gir høyest belønning ved å prøve dem. I en forsterkende læring problem, agenten mottar belønning som en tilbakemelding fra miljøet; belønningen er mottatt på slutten, i en terminal tilstand, eller i noen annen stat, der agenten har korrekt informasjon om hva han gjorde det bra eller galt. Agenten vil lære å velge handlinger som maksimerer fått belønning.

Agenten mål, i en RL oppgave er å maksimere summen av forsterkningene mottatt når du starter fra noen innledende tilstand og går videre til en terminal tilstand.

En forsterkning læring problem har tre grunnleggende deler [22].

miljø

er representert ved «tilstander». Ved interaksjon med miljøet, vil en RL system lære en funksjon som tilordner statene til handlinger.

Armer funksjon

. Målet med forsterkende læring systemet er definert ved hjelp av konseptet med en forsterkning funksjon, som er funksjonen til forsterkninger agenten prøver å maksimere. Denne funksjonen tilordner state-action parene til forsterkninger. Etter en handling utføres i en bestemt tilstand, vil agenten mottar en evaluering av virkningen i en form av en skalar belønning. Agenten vil lære å utføre de handlinger som vil maksimere den totale mengden av belønning mottatt på en sti fra den opprinnelige tilstanden til en endelig tilstand [30].

Verdien (utility) -funksjonen

er en kartlegging fra stater til statlige verdier. Verdien av en stat indikerer ønskeligheten av staten og er definert som summen av belønninger mottatt på en sti fra staten til en endelig tilstand. Agenten vil lære å velge handlinger som fører til stater som har en maksimal nytte [30]

En generell RL oppgave er preget av fire komponenter:.

a

tilstands

som angir alle mulige konfigurasjoner av systemet,

en

handling plass

som viser alle tilgjengelige handlinger for læringsmiddel for å utføre;

a

overgang funksjon

som angir muligens stokastiske utfall av å ta hver handling i noen stat,.

a

belønning funksjon Hotell som definerer mulig belønning for å ta hver av de handlingene

på hvert tidsskritt, mottar læringssystemet noen representasjon av miljøets tilstand, det tar en handling og ett skritt senere den mottar en skalar belønning og befinner seg i en ny tilstand. De to grunnleggende konseptene bak forsterkende læring er prøving og feiling, søk og forsinket belønning [31]. Agenten oppgave er å lære en kontrollpolitikk, som maksimerer den forventede summen av de mottatte belønninger, med fremtidige belønninger nedsatte eksponentielt med sin forsinkelse, der er definert som (er diskonteringsfaktoren for fremtidige belønninger).

Et viktig aspekt i forsterkende læring er

leting

. Agenten må være i stand til å utforske sine omgivelser, ved å prøve nye tiltak (kanskje ikke den optimale seg) som kan føre til bedre fremtidige handlings valg [32]

Det er to grunnleggende RL design å vurdere:.

agenten lærer en

nyttefunksjon product: (

U

) på stater (eller stater historier) og bruker den til å velge handlinger som maksimerer forventet nytte av deres resultater.

agenten lærer en

action-verdifunksjonen product: (

Q

) gir forventet nytte av å ta en gitt handling i en gitt tilstand. Dette kalles

Q-læring

.

En agent som lærer nyttefunksjoner [33] må ha en modell av miljøet for å ta beslutninger, som det har å vite stater som sin handling vil føre. I en

Q-læring

scenario, hvor agenten lærer en action-verdi funksjon, er det ikke nødvendig å ha en modell av miljøet.

Vår tilnærming. Metodikk

La oss se, i det følgende, som er inngangsdatasettet, som består av () flerdimensjonale prøver:, hver prøve blir identifisert av et sett med funksjoner. For det betraktede type data, er hver egenskap representeres av ett gen og har en verdi som et reelt tall, å måle ekspresjonsnivået av genet det er snakk om. . Derfor kan hver sample kodes av en dimensjonal vektor, hvor er uttrykket nivået av genet for prøven

Vår tilnærming består av to trinn:

1. Data pre-prosessering.

2.

RL

oppgave design.

I det følgende vil vi beskrive disse trinnene.

Data pre-prosessering.

DNA-mikromatriser tillater måling av tusenvis av genuttrykk nivåer for hver prøve, dermed dimensjonalitet inngangsdata kan være ekstremt høyt. Foruten det faktum at det kan føre til ineffektivitet i beregnings tid og rom, i de fleste tilfeller, kan mange gener være irrelevant for bestilling oppgave, og kan til og med øke mengden av støy i dataene, noe som fører til en reduksjon i utførelsen av den temporale bestiller systemet. Derfor er målet for pre-prosessering trinn er eliminering av genene som tilbyr ingen vesentlig informasjon, eller, tilsvarende, valg av de gener som er viktigst for en nøyaktig time bestilling.

Som siste mål består i å analysere og timelig bestilling av datasett som omfatter prøver ekstrahert fra kreftpasienter, i det følgende, beskriver vi en pre-prosesseringsmetode rettet mot disse spesielle typer datasett. Slike datasettene har vanligvis en serie av informasjon for hver prøve, foruten selve genet ekspresjonsvektorer. En av disse ekstra biter av informasjon som regelmessig er funnet i kreft datasett er samlet overlevelse, noe som betyr overlevelsestiden for pasientene, etter det øyeblikk hvor prøvene ble tatt. Starter fra intuisjon at i det generelle tilfellet, to pasienter med like overlevelsestider vil også være relativt tett i tinning bestilling, bestemte vi oss for å bruke denne opplysning for å identifisere en undergruppe av gener som er relevante for bestilling oppgaven.

Under pre-prosesstrinn, er en statistisk analyse utført på datasettet for å finne en undergruppe av funksjoner (gener) som er relevante for den anses oppgaven. Den statistiske analysen på funksjonene utføres for å redusere dimensjonalitet inndata, ved å eliminere funksjoner som ikke er korrelert med den valgte ekstra biologisk informasjon for den gitte datasettet. Mer nøyaktig tar vi sikte på å identifisere gener som ikke vesentlig påvirker time bestilling identifikasjon.

For å bestemme avhengigheter mellom funksjonene og gitt ytterligere biologisk informasjon er Pearson korrelasjonskoeffisient brukes [34]. Pearsons korrelasjon er et statistisk mål på den lineære korrelasjon mellom to tilfeldige variabler som angir hvor sterkt korrelert variablene er. En Pearson korrelasjon på mellom to variabler, og angir at det ikke er noen lineær sammenheng mellom variablene. En Pearson korrelasjon av eller oppstår når de to variablene som sammenlignes er lineært monotont relatert. En korrelasjon Pearson [35] av innebærer at en lineær likning beskriver forholdet mellom og, med alle datapunkter som ligger på en linje som øker som øker. En korrelasjon på innebærer at alle datapunktene ligge på en linje som synker som øker.

Som nevnt før, er målet med dette trinnet er å fjerne fra funksjonene disse funksjonene (gener) som er meget svakt korrelerte med den valgte tilleggs biologisk informasjon (som er, i tilfelle av kreft datasett, overlevelsestiden). Følgelig beregner vi Pearson korrelasjonskoeffisient mellom hvert gen og overlevelsestiden og vi beholde bare de gener som har den absolutte verdi av korrelasjonen er større enn en viss terskelverdi (er valgt slik at det sikres en radikal reduksjon av dimensionality).

den foreslåtte

RL

oppgave for tIL problem.

som antydet ovenfor, TO problemet består i å bestemme en nøyaktig time bestilling av inngangs prøvene, som ville reflektere den timelige utviklingen og utvikling av en viss dynamisk biologisk prosess (for eksempel kreft). Fra et beregningssynspunkt kan det på problemet bli sett på som problemet med å generere en permutasjon av som maksimerer den generelle likhet Sim av sekvensen av prøver som ble vurdert i rekkefølge: (). Den generelle likhet Sim vi anser i dette papiret summerer likheter i løpet av alle tilstøtende sampler, og det må være maksimert.

den totale likhets Sim for sekvensen av prøver er definert som i ligning (1) 🙁 1) hvor betegner likheten mellom de dimensjonale vektorer og og er definert som. . Her ved vi betegne euklidske avstand og er en stor konstant

Vi definerer RL oppgave knyttet til dette på problemet som følger:

Staten plass (agentens miljø) vil bestå av stater , dvs .

opprinnelige tilstand

av midlet i miljøet er. En tilstand nås med agenten på et gitt tidspunkt etter at den har besøkt stater og har valgt handlinger er en

terminal plakater (endelig eller mål) tilstand hvis antallet stater besøkt av agenten i rekken er (dvs. ) og alle de valgte handlingene er forskjellige, altså.

handlingen plass består av handlinger tilgjengelig til problemløsning agent og svarer til de mulige verdier som brukes til å representere en løsning (permutasjon av), det vil si hvor.

overgangen funksjon mellom statene er definert som i formel (2). (2) der. Dette betyr at, ved et gitt tidspunkt, fra en tilstand midlet kan bevege seg i etterfølgende tilstander, ved å utføre en av de mulige handlinger. Vi sier at en stat som er tilgjengelig fra staten, dvs. at

nabo product: (

etterfølger

) tilstand.

Overgangene mellom statene er equiprobable

s Hotell og hver nabo tilstanden er overgangen sannsynlighet mellom en tilstand lik, som hver stat fra har mulige etterfølger stater (se formel (2)).

belønningen funksjonen vil være definert nedenfor (formel (3)).

La oss vurdere en bane i ovennevnte definert miljø fra første til en endelig tilstand, hvor og staten er en

nabo

av tilstand (). Tatt i betraktning den RL oppgave er definert ovenfor, kan miljøet bli visualisert som et tre. I denne tre-lignende miljø, en bane består av forskjellige hjørner (stater) hvor hvert tilstøtende par av hjørnene er knyttet sammen av en bue (handling).

sekvens av handlinger oppnådd etter overgangene mellom de suksessive tilstander fra banen vil bli merket med der. Sekvensen vil bli referert til som

handling konfigurasjon

knyttet til banen.

handling konfigurasjon

knyttet til en bane gir en sekvens av prøvene.

En sti kalles

gyldig

hvis alle handlinger innenfor sin

handling konfigurasjon

er forskjellige og hver prøve fra sekvensen er mer lik den prøven som følger umiddelbart etter det i ordnet rekkefølge enn til noen annen prøve, det vil si og.

handling konfigurasjon

knyttet til en

gyldig

banen kan bli sett på som en mulig rekkefølge for inngangs prøvene, dvs. en permutasjon som gir den tidsmessige rekkefølgen av de vurderte prøvene, som skal være til en viss grad, korrelert med overlevelsestiden i tilfellet når prøvene er representert ved data hentet fra kreftpasienter. Derfor kan vi knytte til en

gyldig

banen, en verdi angitt ved å representere den generelle likheten (se ligning (1)) i sekvensen.

Å problem formulert som et RL problem vil bestå av trening middel for å finne en bane fra den første til den endelige tilstand med maksimal forbundet generelle likhet. Etter forsterkning læringsprosess, vil agenten lære å utføre disse overgangene som maksimerer summen av belønninger mottatt på en bane fra det første til en endelig tilstand.

Vi tar sikte på å oppnå en

gyldig

bane som har den maksimale total likheten av sekvensen av sampler som tilsvarer den tilhørende handling konfigurasjon, derfor definerer vi forsterkning funksjon som følger (formel (3)) 🙁 3) der ved vi betegner belønning mottas av midlet i tilstand, etter sin historie i miljøet er.

agenten får en negativ belønning på stier som ikke er gyldige, derfor vil det lære å utforske eneste gyldige baner. Tatt i betraktning den belønning definert i formel (3), som læring mål er å maksimere den totale mengden av belønninger mottatt på en bane fra den første til en endelig tilstand, kan det vises at midlet er trent til å finne et gyldig bane som maksimerer den generelle likheten av den tilhørende bestilling.

læringsprosessen.

Under treningen trinn i læringsprosessen, vil agenten bestemme

optimal politikk

i miljøet, dvs. kartlegging fra statene til handlinger som maksimerer summen av de mottatte premier.

for å trene

Megler

, foreslår vi en læring tilnærming, der agenten lærer en handling verdi

Legg att eit svar