PLoS ONE: Integrative Network Biology: Graph Prototyping for Co-Expression Cancer Networks

Abstract

Nettverksbasert analyse har vist seg nyttig i biologisk orienterte områder, for eksempel, for å utforske dynamikken og kompleksiteten i biologiske nettverk. Gransker et sett av nettverk kan utlede generell kunnskap om de underliggende topologiske og funksjonelle egenskaper. Den integrerende analyse av nettverk kombinerer typisk nettverk fra ulike studier som undersøker samme eller lignende problemstillinger. For å kunne utføre en integrerende analyse er det ofte nødvendig å sammenligne egenskapene til samsvarende kanter på tvers av datasettet. Denne identifikasjonen av felles kanter er ofte tung og beregningskrevende. Her presenterer vi en tilnærming som er forskjellig fra dedusere et nytt nettverk basert på fellestrekk. I stedet velger vi ett nettverk som en graf prototype, som deretter representerer et sett med sammenliknbare objekter, som det har minst gjennomsnittlig avstand til alle andre nettverk i det samme settet. Vi demonstrerer nyttigheten av den kurve som prototyper tilnærming på et sett av prostatakreft-nettverk og et sett av tilsvarende godartede nettverk. Vi viser videre at avstander innen kreft gruppen og godartet gruppen er statistisk forskjellig avhengig av den benyttede avstandsmål

Citation. Kugler KG, Mueller LAJ, Graber A, Dehmer M (2011) Integrative Network Biology: graf Prototyping for Co-Expression Cancer Networks. PLoS ONE 6 (7): e22843. doi: 10,1371 /journal.pone.0022843

Redaktør: Dongxiao Zhu, University of New Orleans, USA

mottatt: 22 mars 2011; Godkjent: 30 juni 2011; Publisert: 29.07.2011

Copyright: © 2011 Kugler et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette prosjektet ble støttet av Tiroler Zukunftsstiftung og Tiroler Wissenschaftsfonds. Dette arbeidet ble også finansiert av COMET Senter ONCOTYROL og finansiert av den føderale departementet for Transport Innovation and Technology (BMVIT) og Federal Ministry of Economics og Labour /Federal Ministry of Economy, Family and Youth (BMWA /BMWFJ), Tiroler Zukunftsstiftung (TZS) og staten Steiermark representert ved Steiermark Business Promotion Agency (SFG). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

for mange sykdommer ikke lenger enkeltgener virke som markør, men et sett av samvirkende gener som kan anvendes for å karakterisere eller diagnostisere en patologisk prosess [1]. Drevet av at rasjonelle en mengde nye data analysemetoder dukket opp de siste årene, som behovet for metoder som er i stand til å fange opp de relaterte komplikasjoner oppsto. Et enkelt eksempel er å lete etter gjenstander som er sterkt knyttet til andre objekter, og kan derfor spille en sentral rolle i regelverksprosesser. Den nettverksbasert analyse [2] av biologiske data er en beslektet felt i systembiologi [3]. Mens klassiske dataanalysen ble drevet av en reduksjonistisk synspunkt, tar sikte på moderne nettverk biologi ved oppfatte data helhetlig [3]. Ved hjelp av nettverk gjør later den statiske utforskning av en funksjon om gangen, og muliggjør en undersøkelse av de mer realistiske dynamikken i biologiske og medisinske data. Dynamikken ligge i flere dimensjoner, som systemer endrer seg over tid [4], reagere på forstyrrelser [5] eller ganske enkelt består av biologiske funksjoner som er lenket sammen til komplekse kaskader [6]. Samtidig kombinere ulike datakilder har blitt en standard prosedyre i moderne beregningsorientert biologi. Det være seg ved hjelp av dataintegrasjon eller klassisk meta-analysen, er mye arbeid fortsatt blir satt i standardisere metoder som gjør det mulig en integrerende analyse [7]. Integrative tilnærminger tillate å øke kunnskapsgrunnlaget for nye funn ved å kombinere informasjon fra ulike kilder. I en klassisk visning data integrasjon refererer til integrering av data av forskjellig art (f.eks genekspresjon og proteomikk). I denne dagens papir, vi også henvise til integrering av samme type data som data integrasjon

Forskning for å kombinere nettverk biologi og integrerende dataanalyse har blomstret de siste årene [8] -. [10]. Dette gjør utlede generaliseringer fra et sett av ulike nettverk som undersøker de samme eller lignende problemstillinger. Slike generelle funnene kan brukes til å besvare biologiske spørsmål eller for å skape ny hypotese om underliggende prosesser. Måling av likheten mellom nettverk har vist seg nyttig for å vurdere systematiske effekter av tidsforløp for metabolske nettverk [8], matchende regulatoriske interaksjoner [9] eller for identifisering av lignende subgraphs i par av nettverk [10]. En annen anvendelse av komparativ nettverksanalyse er en systematisk sammenligning av to foreningens nettverk som ble trimmet for delvis korrelasjon [11]. Likevel, oppdage og dedusere kunnskap om felles egenskaper for et sett av nettverk er en utfordrende oppgave siden sammenligne nettverk avhenger av definisjonen av den underliggende likheten tiltaket. Imidlertid er likheten mellom hvilke som helst gjenstander ikke entydig definert, siden mangesidig aspekter som struktur, funksjon og semantikk som er involvert [12]. Derfor er det nødvendig å finne sammenlignbare egenskaper i biologiske nettverk. Ofte er dette gjort ved å detektere felles kanter eller topp-punkt, og sammenligner dem eller deres fordelinger [13], [14]. For å ta opp spørsmålet om menings sammenligne biologiske nettverk for mange metoder har blitt utviklet. Vi kan her bare presentere et lite utvalg av disse metodene og deres applikasjoner. Piruzian et al. ansatt topologisk informasjon for å integrere transcriptomic og proteomikk data i en rang-basert tilnærming [15]. En generalisert form av graden fordeling, den såkalte graphlet grad distribusjon, kan brukes for å bestemme nettverk likhet [16]. Graphlets ble også brukt til å justere PPI nettverk fra menneske og gjær [17]. En statistisk metode for å sammenligne store sykdoms nettverk utledes fra livmorhalskreft ved hjelp av en tre dekomponering og innretting teknikk ble også foreslått i [18]. Her fokuserer vi på anvendelse av sammenligner nettverk, som er utledet fra samme type data og brukes som representasjoner for en klasse av prøven. Derfor analyserer vi et sett av foreningens nettverk avledet fra prostatakreft genuttrykk data. Ved å gjøre bruk av denne kombinasjon, er det mulig å utlede generell informasjon om nettverksbaserte funn relatert til visse sykdommer eller utviklingsland. En vanlig tilnærming til problemet med å analysere nettverksegenskapene ved hjelp av meta-analyse er å sammenligne overlapping av kantene i forskjellige nettverk. Vi demonstrerte sin nytte for en nettverksbasert integrasjon i en tidligere studie [19]. Et tilsvarende opplegg for felles kanter ble gitt av Cootes et al. [10]. En alternativ metode ble presentert av Wang et al., Som utnyttet informasjon om effektstørrelsen for å kombinere informasjon fra et sett av nettverk [20]. Imidlertid krever denne tilnærmingen informasjon om effektstørrelsen skal være tilgjengelig. Oppdager vanlige kanter i et nettverk er en utfordrende oppgave hvis ingen skikkelig mapping mellom toppunktet etikettene er tilgjengelig. Når du vurderer co-uttrykk nettverk, toppunktet navnene refererer til genet navn. For å generere et felles navn plass på tvers av ulike nettverk, er det derfor nyttig å kartlegge studiespesifikke, plattform-avhengig genet identifikatorer til andre identifikatorer, f.eks Entrez genet identifikatorer.

I denne artikkelen viser vi en alternativ tilnærming for dedusere vanlige topologiske egenskaper for et sett av nettverk. Her kan graf prototyping forstås som en metode som velger et eksisterende nettverk fra et sett med nett som en representant for den komplette settet, med hensyn til en underliggende graf avstandsmål [21]. Dette betyr at det strukturelle grafen prototypen representerer de topologiske egenskaper til et komplett sett av nett, avhengig av valget kriterium som er definert ved grafavstands tiltak. En skjematisk illustrasjon for å velge en graf prototyp er gitt i fig. 1. Merk at andre definisjoner av graf prototyper som såkalte konsensus treet [22] har også utforsket. Men de vil ikke bli diskutert i denne artikkelen. Således kan denne prototypen nettverket deretter bli brukt for å utføre en topologisk analyse og dedusere ny kunnskap, ettersom den representerer egenskapene til alle andre nettverk fra samme settet. En sterk-punkt ved denne metode er at deteksjons felles kanter eller nodene kan bli unødvendig, avhengig av de anvendte grafavstands tiltak. Da er det avgjørende å bruke en graf avstandsmål som beregningskompleksitet er polynomet. Å implementere grafen prototyping, velger vi riktig graf avstand tiltak som er i stand til menings kvantifisere avstanden mellom to nettverk. Som en del av vårt bidrag beskriver vi fire avstands tiltak som er basert på sannsynlighetsfordelingene av nettverksegenskaper. Dette er en annen sterk poenget med denne metoden, så det kan bli endret for å gjøre bruk av andre, tilpasset graf avstand tiltak. For å demonstrere valget av en graf prototype [21], [23] vi gjøre bruk av prostatakreft genuttrykkstudier. 25% av nydiagnostiserte mannlige kreft i USA er prostatakreft [24], noe som gjør det til et attraktivt mål for pågående biomedisinsk forskning. Et bredt spekter av studier har vært gjennomført de siste årene, og mye av det tilsvarende data er tilgjengelig på fellesregistre [25] – [27]. Vi bruker vår metode på et sett av syv prostata kreft studier [28-24], som består av kreftprøver og prøver fra godartet eller friskt vev. Vi forventer en todelt resultat: Først, forventer vi å se betydelige strukturelle forskjeller mellom godartede og studier av kreft ved å gjøre bruk av topologiske tiltak. Dernest, forventer vi å se betydelige forskjeller mellom avstandene innenfor kreft datanettverk og avstandene innenfor godartet datanettverk. Dette kan vise at ikke bare de nettverkene selv forskjellig, men at selv likhetene mellom de to gruppene skiller seg. Hvis ja, de patogene prosesser som er forårsaket av kreft er mest sannsynlig ansvarlig for å forklare disse observasjonene. Basert på tidligere arbeid [19] vi forventer å observere høyere likheter innenfor kreft gruppen. Mer presist, forventer vi avstander innenfor datasett fra en kreft gruppe til å være mindre enn de fra en godartet sett.

Denne figuren viser skjematisk avledning av grafen prototype.

papiret er organisert som følger: i «data og Metoder delen presenterer vi de utbyttede datasett og den slutning prosessen av nettverkene. Deretter beskriver vi grafen prototyping tilnærming og de anvendte grafen avstand tiltak i detalj. I avsnittet «Resultater» oppsummerer og beskriver oppnådde resultater. I avsnittet «Diskusjon og Outlook» avslutter papir med å diskutere våre resultater og etterfølges av noen endelige merknader.

Materialer og Metoder

Prostate Cancer data

Vi viser grafen prototyping tilnærming ved hjelp av et sett av prostata kreft studier. Siden denne kreftformen har blitt grundig undersøkt for de siste årene, er et større antall av genekspresjon data på hånden gjennom offentlige repositories. For den presenterte studien en undersøkelse på repositories NCBI GEO [25], EBI Arrayexpress [26] og Oncomine [27] ble gjennomført. For inkludering i våre analyse studier har til å rapportere genuttrykk nivåer fra prostatakreft og godartet prøven ved hjelp av mikromatriser. Godartede prøven er enten prøver fra normalt vev ved siden av svulster eller friske menn. Vi expurgate metastatiske skjemaer fra kreftprøver for denne studien for å redusere heterogenitet i nettverkene. Cellelinje uttrykk data ble også ekskludert. . For å redusere data forberedelse og kartlegging innsatsen vi bare inkluderer Affymetrix microarray plattformer i denne studien

For å gjennomføre denne analysen velger vi syv datasett [28] – [34] fra data bassenget som er oppført i tabell 1. for å undersøke effekten av utvalgsstørrelsen innenfor studier på våre resultater et bredt spekter av utvalgsstørrelser (fra små studier til større) er tillatt. Etter valg av studier for å være med, vi re-utføre microarray forbehandling. De oppgitte utvalgsstørrelser i tabell 1 refererer til etter kvalitetskontroll tilstand. For å aktivere inter-studie sammenligning av genene, blir de opprinnelige identifikatorer tilordnet Entrez genet identifikatorer ved hjelp av biomaRt pakken [35] for Bioconductor [36]. Uansett hvor flere probesets kart til en Entrez gen identifikator, beholder vi målingen med høyest varians. Etter denne kartleggingen 8906 gener felles innenfor alle syv studier er igjen for videre analyse. For å utlede et passende nettverk representasjon av dataene, ble dannelsen av assosiasjonsnettverk valgt. Men metodene som presenteres nedenfor gjelder for en rekke andre typer nettverk også, hvis vedtatt riktig.

Nettverk Inference

For å antyde et skikkelig nettverk representasjon av den underliggende data er en viktig utfordring innen nettverksbasert forskning [37] – [39]. Et bredt spekter av nettverks representasjoner for biologiske data finnes [39] – [41], og grafen prototyping metode presenteres heretter kan brukes for de fleste av dem. Her bruker vi informasjon om sammenhengen mellom to gener. De resulterende nettverk kalles derfor foreningen nettverk. For å utlede og analysere genuttrykk data som foreningen nettverk, co-uttrykk relasjoner er ofte benyttet [42]. Merk at foreningen ikke nødvendigvis viser en kausal sammenheng. En måte å løse dette problemet er å bruke begrepet årsaks medlemskap [43], hvor gener er funksjonelt kategorisert.

Her bruker vi gjensidig informasjon som et mål for foreningen, som beskrevet i [39 ]. For dedusere nettverkene fra genuttrykk data, gjør vi bruk av MRNETB algoritme [38]. For å sette opp datasettene for å velge en graf prototype, antyde vi to nettverk fra hver studie. Ett nettverk som er basert på opplysninger fra godartede prøvene i en undersøkelse, og en nettverk fra kreftprøvene i den samme studien. Dette fører til 6 godartede nettverk, og 7 kreft nettverk, som vi fjerner godartet nettverket fra Wang data. Dette gjøres på grunn av den lille utvalgsstørrelsen () siden vi anser inferred nettverk som lite pålitelighet. Generelt inferring et nettverk for hver pasientgruppe separat lar utføre topologiske sammenligninger og dermed utlede ny innsikt på de underliggende funksjonelle forskjeller.

Valg av en graf Prototype

For å generalisere grafen likheten problem [ ,,,0],21], er det blitt vist av Dehmer et al. at en kurve som kan brukes til å representere et sett av andre sammenlignbare diagrammer [21]. Oppgaven med å bestemme denne såkalte grafen prototype kan løses ved å bruke avstands eller likhet tiltak [21], [44]. La vær et nettverk, og være en graf avstand tiltak. Etter å ha et sett med nett, kan diagrammet prototypen bli uttrykt ved [21], [23], [45] 🙁 1) Vi ser at i ligning. 1 gir den gjennomsnittlige avstanden fra nettverk til alle andre nettverk i. Vi betegner dette som. Vårt mål i dagens papir er å bruke et utvalg av graf avstand tiltak for å velge grafen prototyper fra et sett med prostatakreft nettverk og et sett med tilsvarende godartede nettverk. Bruk av ulike grafiske avstands tiltak gjør at vi kan dekke ulike aspekter av strukturelle likhet. Generelt er det et fortsatt utestående problem hva aspekt av strukturell likhet et underliggende mål fanger [44]. Hvis ulike grafiske avstands tiltak velge det samme nettverket som en graf prototype for et sett av nettverk, øker dette gyldigheten av valget. Med hensyn til den ansatt avstandsmål grafen prototypen representerer de topologiske egenskaper av de andre nettverkene fra samme settet. Det kan derfor brukes for å utføre et topologisk og funksjonsanalyse.

Graf Avstand Tiltak

For å kunne utføre grafen prototyping er det nødvendig å menings måle avstanden mellom to nettverk. I dette ledd presenterer vi to tilnærminger for å oppnå denne oppgaven. Den første tilnærmingen er basert på bruk unøyaktig graf matching. Spesielt velger vi den såkalte grafen redigere avstand (

GED

) [46]. Den andre tilnærmingen er basert på å sammenligne to diskrete sannsynlighetsfordelinger [47], som er inferred ved å utlede strukturelle trekk ved nettverkene.

GED

er den minste kostnaden av en sekvens for å transformere en grafen til en annen graf ved hjelp av redigeringsoperasjoner (sletting og innsetting av kanter eller slette, sette inn, og erstatte hjørner) [46]. Det underliggende problemet (for å sammenligne to grafer strukturelt) kan ses på som en generalisering av Levenshtein metode [48] for å sammenligne strenger. Vanligvis beregning av

GED

for (umerkede) grafer er beregnings krevende, så det er NP komplett [49]. For vårt formål kompleksiteten kan reduseres på grunn av tre fakta [50]: i) Alle våre nettverk har samme antall (usammenhengende) hjørner, ii) alle hjørnene er merket unikt, og iii) ved å velge bare de genene som er til stede i alle studier, alle nettverkene har samme sett av hjørnene, noe som frigjør oss fra å slette, sette inn eller erstatte eventuelle toppunkter. Således redusere beregningskompleksiteten til [49]. For å måle avstander mellom to nettverk, ansetter vi en normalisert form, som er gitt ved den prosent

GED product: (

pGED

) [51] 🙁 2) der er antall størst mulig kanter i, og faktoren refererer til ikke-adresserte natur av kantene. Vi vekte alle gjenværende redigere transformasjoner (sette inn, slette) like ved å tildele en vekt på.

En informasjonsteoretisk tilnærming for å kvantifisere avstander mellom grafer kan defineres basert på Kullback-Leibler divergens (

KLD

) [47]. Vi definerer to diskret sannsynlighetsfordeling, og slik at

KLD

er gitt som [47] 🙁 3)

KLD

er alltid definert positivt for avstanden mellom og. Noter det . Som

KLD

er asymmetrisk og ikke tilfredsstiller trekantulikheten, er det ingen metriske [52]. Deretter beregner vi grafen prototype ved å sette til

KLD

i Eq. 1. Numerisk stabilitet er sikret ved å sette sannsynlighetene for null til.

En typisk fordeling som ofte brukes i Systems Biology er graden distribusjon. I urettet nettverk, gir graden antall naboer for et topp-punkt. Hvis vi definerer å være antall hjørner med naboer, kan vi utlede en sannsynlighetsfordeling slik at: (4) der er det maksimale antall nabo hjørner i. Fig. 2 viser graden fordelinger av godartede og kreft nettverk. kan brukes til å karakterisere et nettverk [9], [42], [53] – [55], og har vist seg å være skala-fri og følge en kraft-loven fordeling av ulike typer biologiske nettverk [42], [ ,,,0],53] – [55]. Kraft-loven fordelinger av grader kan også sees i fig. 2. Her bruker vi til å beregne

KLD

, som vi derfor betegne som.

Graden distribusjoner for godartet data (øverst) og kreftdata (nederst). For å vise grunnene til at vi trimmet antall tellinger på 300.

Avstandene til stede en annen fremtredende nettverk invariant. For et toppunkt avstanden til alle andre hjørnene er gitt av (5) der er den korteste veien mellom punktene og. Hvis vi lar være kardinaliteten for alle avstander med lengden, da det ifølge avstand fordeling er gitt ved (6) der er antallet baner. Vi ser det. Legg merke til, er at diameteren av, som er den maksimale av de korteste veiene mellom alle par av topp-punkt. Avstands distribusjoner for nettverkene er presentert i fig. 3. Vi benytter avstandsfordelingene av de inkluderte nettverk for å kvantifisere avstanden mellom to nettverk, som er betegnet som.

Avstands distribusjoner for godartet data (øverst) og kreftdata (nederst).

Mens for de tre avstands tiltak som vi presentert over hele, usammenhengende nettverk ble analysert, kan vi nå presentere to avstands tiltak som virker på bare tilkoblede grafer. Dette betyr at vi må slutte den største sammenhengende sub-graf for hvert nettverk og bruke de to avstands tiltak for dem. Den tredje distribusjons at vi inkluderer i våre

KLD

-baserte avstand tiltak er basert på toppunktet sannsynlig [56]. En verteks sannsynlighet tildeler en sannsynlighetsverdi til et toppunkt ved å gjøre bruk av en såkalt topp-punkt funksjonell [56] 🙁 7) Vi ser at. I denne artikkelen bruker vi den følgende toppunktet funksjonell [56] 🙁 8) Et antall hjørner i den -te sfære er gitt for hvert topp-punkt som [56]. Vi ser at er basert på metriske egenskaper grafer [57]. Her, la vi vektfaktorene reduseres i en eksponentiell måte. Dette gir oss muligheten til å understreke punktene ganske nær, så de er trolig sterkere berørt av informasjon som sprer seg ut fra [56].

Til slutt bruker vi en fordeling som kan beregnes ved hjelp av topologiske informasjonsinnhold basert på issen baner [58], [59]. En bane inneholder topologisk ekvivalente ekser [58], og gir informasjon om antall noder som tilhører -te toppunktet bane [58]. Vi her bestemme en sannsynlighetsfordeling ved å summere opp antall baner som deler det samme antall hjørner innenfor et nettverk. La være antall baner som inneholder toppunkter. Hvis har toppunktet baner så vi får bane fordeling (9) Legg merke til at der er summen av antallet av baner inneholdende det samme antall hjørner. Den informasjon om fordelingen av topologiske tilsvarende topp-punkt i hvert av nettverkene kan deretter anvendes for å kombinere informasjonen for et sett med nett ved. Vi refererer til dette som.

Med hver av disse fire som presenteres sannsynlighetsfordelinger vi kan dekke ulike aspekter av topologiske egenskaper våre nettverk. Sannsynlighetsfordelingen for er basert på informasjon om hvordan forbundet genene i hvert av nettverkene er. Informasjon om kommunikasjons avstandene mellom gener blir reflektert av den fordeling som er brukt i. er basert på en sannsynlighetsfordeling som beskrives spredning av informasjon i et nettverk, mens sannsynlighetsfordelingen i gjenspeiler topologisk ekvivalens av toppunkter. Tabell 2 oppsummerer de sysselsatte avstand tiltak. Etter å ha introdusert vår formelle apparat, beregner vi avstander og grafen prototype for de to prøvegrupper (godartede og kreft). For beregninger og statistisk analyse bruker vi den statistiske programmeringsspråket R (https://www.r-project.org). Sannsynlighetsfordelingene til å beregne og er beregnet ut fra QuACN pakken [60].

Resultater

Tabell 3 gir en oversikt over gjennomsnittsavstander for de fem avstands tiltak og de to gruppene . Ved beregning av ser vi at den gjennomsnittlige avstanden for de seks nettverkene varierer fra til i godartet gruppen, og fra å for de sju nettverk i kreft gruppen. De gjennomsnittlige verdier er (godartet) og (kreft). Fig. 4 gir en illustrasjon av alle de enkeltdistanser fra ett nettverk til alle andre i samme gruppe. En forskjell mellom fordelingen av mellom kreft og godartet prøven kan bli sett. For godartet gruppen, er nettverket som er basert på data fra Yu valgt som grafen prototype, mens for kreft gruppen nettverket danner Wang data er valgt. Den midlere avstand for Yu data og for den Wang dataene. Nettverket spesifikke gjennomsnittsavstand fra områdene fra til for nettverkene fra godartede data, henholdsvis til for prostatakreft data. De gjennomsnittlige verdier er (godartet) og (kreft). Fig. 5 visualiserer resultatene. De valgte grafen prototyper er Yu (godartet) med en gjennomsnittlig avstand på og Wang (kreft) med en gjennomsnittlig avstand på. , Som er basert på avstanden fordelingen i et nettverk, velger nettverkene fra de Singh data (godartede) og Wang data (kreft) som graf prototyper. Grafen prototyper har en gjennomsnittlig avstand på (godartet) og (kreft). De gjennomsnittlige avstander fra ett nettverk til alle andre i de samme gruppene for hvert sett er (godartet) og (kreft). De detaljerte resultatene er vist i fig. 6. nettverk fra Yu (godartet) og Wang (kreft) er igjen valgt som graf prototyper ved bruk. Minimum er for godartet grafen prototypen, henholdsvis for kreft grafen prototypen. De gjennomsnittlige verdier er (godartet) og (kreft). Avstandene fra ett nettverk til alle andre nettverk innenfor samme gruppe er illustrert som boksplott i figur. 7. Sammen med dette representerer de to tilfellene, der avstanden innenfor kreft data er større enn i de godartede data. For den grad basert på banene avstandene mellom de grafiske prototyper er for det gunstige Yu-nettverket og for kreft nett som er basert på Wang-data. De midlere avstander er (godartet) og (kreft), som vist på fig. 8.

Denne figuren illustrerer avstander fra ett nettverk til alle andre nettverk, basert på normalisert Graph Rediger Avstand

pGED

. I venstre del viser det avstandene mellom en godartet nettverk og alle andre godartede nettverk, mens i høyre del det viser avstander for en kreft nettverk til alle andre kreft nettverk. Nettverkene som er valgt som graf prototyper er uthevet i forskjellige farger (godartet = blå, kreft = brun).

Her viser vi avstandene mellom ett nettverk og alle andre nettverk som boksplott, målt etter den Kullback-Leibler divergens, som var basert på graden distribusjon. I den venstre delen viser vi godartet data, og i den høyre delen avstandene fra Kreft data. Grafen prototyper er uthevet.

Denne figuren viser avstandene mellom nettverkene som boksplott. Avstandene er basert på fordelingen av avstander mellom toppunktene og Kullback-Leibler divergens. I den venstre delen er avstandene mellom godartede nettverk, og i den høyre delen avstandene mellom kreft nettverk.

Her viser vi avstandene basert på Kullback-Leibler divergens, basert på sfære toppunktet functionals. I den venstre delen viser vi godartet prøver og i høyre del avstander for kreftprøver. De valgte grafen prototyper er uthevet.

Denne figuren illustrerer Kullback-Leibler avvik for bane sannsynlighetsfordelinger. I venstre del viser det godartet prøvene, og i høyre del kreftprøver fra studiene.

Hovedhypotesen er at det er en betydelig forskjell mellom avstandene i gruppen av kreft prøver og avstandene i gruppen av godartede prøver. For å teste denne hypotesen ansetter vi en Wilcoxon test (se tabell 4) for hver av de fem avstands tiltak på settet av avstander fra kreftprøver og godartet prøvene. Vi korrigere for multippel testing med Bonferroni metoden. ,, Oppviser en signifikant forskjell (), som kan sees i tabell 4. Den observerte resultatene underbygger hypotesen, se boksplott i de tilhørende figurene.

For å detektere mønstre innenfor settet av avstander vi benytter gruppering. Derfor normal vi resultatet av hver distanse tiltak uten gruppeinformasjon. Dette blir gjort for hver avstandsmål separat, slik at den minste av hver avstandsmål er satt til, og det maksimale til. Så vi bruker hierarkisk clustering. For hvert nettverk har vi en funksjon vektor, som består av den midlere avstand til alle andre nettverk for hver av de fem benyttes avstands tiltak. Så, for den generelle clustering har vi en matrise med 5 rader og 13 kolonner. Den tilsvarende heatmap, ved hjelp av euklidiske avstand og fullstendig binding, er vist i fig. 9. Vi har også brukt gjennomsnittlig kobling som clustering funksjon, som fører til samme resultat. Vi ser derfor det observerte resultat som stabil med hensyn til disse to leddfunksjoner. Resultatene viser at tre av de kreft nettverk (Tsavachidou, Wallace, Singh, Liu) danner en egen klynge, mens alle andre nettverk er gruppert sammen. I den andre gruppen ser vi at tre av de kreft nettverk (Chandran, Wang, og Yu) cluster tett til tre godartede nettverk (Yu, Singh, Tsavachidou).

Vi her viser den gjennomsnittlige avstanden fra ett nettverk til de andre nettverkene innen samme gruppe (godartet eller kreft). For clustering vi da utelatt gruppen informasjon. Vi uavhengig legge til gruppen informasjonen som brune barer (kreft) og blå søylene (godartet).

Basert på resultatene fra grafen prototyping vi velge nettverket fra Yu data som graf prototype for godartet set, og nettverket fra Wang data som graf prototype for kreft settet. For analyse av de topologiske egenskaper av nettverkene undersøker vi navet gener. Fordelingen av de 15 mest tilkoblede hub grader er vist i Tabell 5. Vi ser at det viktigste knutepunktet genene i kreft nettverket er bemerkelsesverdig mindre enn de i godartet nettverket. Dette er i samsvar med kjente resultater som vi anvendte kant stemme telling for det integrerende nettverk analyse [19]. I den studien vi også observert relativt små grader i felles kreft nettverk. En feilregulering av hub gener, assosiert med den cellesyklus, kan spille en viktig rolle i utviklingen av en aggressiv form for prostatakreft [61]. I likhet med andre skalafrie nettverk [62], [63], kan biologiske nettverk være sårbar for angrep mot et de få sentrale knutepunktet gener. Imidlertid har det nylig blitt vist at hub gener ikke nødvendigvis kvalifiserer til å være skjør, og at andre tiltak for denne egenskapen kan være mer hensiktsmessig [64]. Analysere avstandene mellom hjørnene gjør at karakterisere kommunikasjonsprosesser i en biologisk nettverk. Derfor undersøker vi avstandene mellom punktene i de to graf prototyper. Per definisjon, eksentrisitet av et topp-punkt er det høyeste av de korteste banene fra til alle andre hjørnene. For det gunstige grafen prototype flertall av hjørnene har en av, mens det for kreft grafen prototypen flertall av hjørnene har et av 1. Vi sammen eksentrisiteten fordelinger av de to nettverk med en Kolmogorov-Smirnov test, noe som resulterer i en svært signifikant forskjellen (). En annen interessant nettverkkarakteristikk er nettverket diameter, som er det maksimale av det hele tatt. For de to grafprototypene diametrene er 17 (godartet) og 12 (kreft).

Legg att eit svar