PLoS ONE: Rekonstruksjon av Gene Regulatory moduler i Cancer Cell Cycle av Multi-Source Data Integration

Abstract

Bakgrunn

Nøyaktig regulering av cellesyklus er avgjørende for vekst og utvikling av alle organismer. Forstå reguleringsmekanisme av cellesyklus er avgjørende for å rakne mange kompliserte sykdommer, særlig kreft. Flere kilder for biologiske data er tilgjengelig for å undersøke de dynamiske interaksjoner blant mange gener som er knyttet til kreftcellesyklusen. Integrere disse informative og utfyllende datakilder kan bidra til å antyde en innbyrdes konsistente gen transcriptional regulatoriske nettverk med sterk likhet med de underliggende genet regulatoriske forhold i kreftceller.

Hovedfunnene

Resultater og

Vi foreslår en integrerende rammeverk som infers gen regulatoriske moduler fra cellen syklus av kreftceller ved å inkludere flere kilder av biologiske data, inkludert genuttrykk profiler, genet ontologi og molekylær interaksjon. Blant 846 menneskelige gener med mulige roller i cellesyklusregulering, vi identifisert 46 transkripsjonsfaktorer og 39-genet ontologi grupper. Vi rekonstruert regulatoriske moduler for å antyde de underliggende regulerings relasjoner. Fire regulatoriske nettverk motiver ble identifisert fra samspillet nettverket. Forholdet mellom hver transkripsjonsfaktor og spådde målet genet grupper ble undersøkt ved å trene et tilbakevendende nettverk som topologi ligner nettverket motiv (e) som transkripsjonsfaktor ble tildelt. Antydet nettverks motiver knyttet til åtte kjente cellesyklus gener ble bekreftet av genet sett berikelse analyse, bindingssetet berikelse analyse og sammenligning med tidligere publiserte eksperimentelle resultater.

Konklusjoner

Vi har etablert et robust metode som kan nøyaktig utlede underliggende forhold mellom en gitt transkripsjonsfaktor og nedstrøms målgener ved å integrere forskjellige lag av biologiske data. Vår metode kan også være fordelaktig å biologer for å forutsi komponentene i reguleringsmoduler som en kandidat-genet er involvert. Slike anslag kan deretter brukes til å utforme et mer strømlinjeformet eksperimentell tilnærming for biologisk validering. Forstå dynamikken i disse modulene vil belyse de prosesser som skjer i kreftceller som følge av feil i cellesyklusregulering

Citation. Zhang Y, Xuan J, de los Reyes BG, Clarke R, Ressom HW ( 2010) Rekonstruksjon av Gene Regulatory moduler i Cancer Cell Cycle av Multi-Source data Integration. PLoS ONE 5 (4): e10268. doi: 10,1371 /journal.pone.0010268

Redaktør: Geraldine Butler, University College Dublin, Irland

mottatt: 16 oktober 2009; Godkjent: 25 mars 2010; Publisert: 21 april 2010

Copyright: © 2010 Zhang et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne studien støttes delvis av tilskudd fra National Institutes of Health (CA109872, NS29525, EB00830 og CA096483) og Department of Defense (BC030280). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Cell divisjon, aldring og død er intrikat regulerte prosesser som avhenger av balansen mellom ulike vekstfremmende og hemmende signaler. Vanskelighetene med disse prosessene er definert av komplekse genetiske programmer som tillater visse gener som skal uttrykkes i en strengt regulert måte. Feil i forskrift gi ukontrollert celledeling, en universell egenskap av svulster. Denne egenskap er drevet av gener som utviser unormal aktivitet i tumorceller, hvorav mange har viktige roller i transdusevekstregulerende signaler til kjernen og interfacing disse signalene for å endre genekspresjon. Selv om denne signalering bidrar uunngåelig til den proliferative kapasiteten til tumorceller, er det ofte tenkt å gjøre dette på en hierarkisk måte, ved å forsterke aktiviteten av afferente signalering, til slutt konvergerer på de gener som kontrollerer cellesyklusprogresjon.

fremskritt innen kreftforskning i løpet av de siste årene har begynt å avdekke den intrikate genetisk programmering av cellesyklusprogresjon. Ekspresjonsnivåene av tusener av gener svinge i løpet av kreftcellesyklusen [1], [2]. Periodiske transkripsjonelle aktivitet av mange gener som er involvert i cellevekst, DNA-syntese, spindel pol legeme duplisering, og transitt gjennom cellesyklusen har hver blitt observert [3]. De transkripsjonsregulerende nettverk (Ovfø) forbundet med disse aktivitetene har blitt grundig undersøkt [4], [5], [6], [7], [8]. Ytterligere karakterisering av genomet bred transkripsjonen programmering av pattedyrcellesyklusen er et viktig skritt mot å forstå de grunnleggende cellesyklusprosesser og deres nøyaktige roller i kreft.

Cell syklus genekspresjon data oppnådd fra HeLa-celler som har blitt analysert med flere clustering metoder og gener organisert i funksjonelle og regulatoriske grupper [1], [2]. Basert på disse studiene, etablere en robust slutning om de regulatoriske forholdene mellom en viss transkripsjonsfaktor og dens antatte målet genet (e) kan bli bedre oppnås ved å kombinere genuttrykk data med informasjon om transkripsjonsfaktor bindingssteder og mulige typer interaksjon basert på eksisterende biologisk kunnskap [9]. Transcriptional aktivering eller undertrykkelse avhenger av godkjenning av bestemte arrangøren element sekvenser av DNA-bindende forskrifter protein. Hvor en bestemt kombinasjon av disse proteiner forbinder med gener på tvers av et genom er referert til som TRN. Derfor er det viktig å undersøke hvordan disse periodiske mønstre er regulert innenfor rammen av TRN celle sykling i kreftceller.

Reverse engineering av en global TRN fortsatt utfordrende på grunn av flere begrensninger inkludert (1) high dimensionality av levende celler hvor titusener av gener som virker ved forskjellige tidsmessige og romlige kombinasjoner, (2) hvert gen samvirker praktisk talt med flere partnere, enten direkte eller indirekte, således mulige relasjoner er dynamisk og ikke-lineære, (3) løpende high-throughput-teknologier genererer data som innebærer en betydelig mengde støy, og (4) av prøvestørrelsen er ekstremt lavt sammenlignet med det antall gener [10]. Rotne en TRN inn et lite sett med tilbakevendende regulatoriske moduler (

f.eks

, nettverk motiver) er en lovende strategi for å møte denne utfordringen.

Vi beskriver utviklingen av en innovativ beregnings rammeverk som infers kompleks Ovfø ved å integrere biologiske data fra flere kilder og utnytte begrepet nettverk motiv modulære analyse. Det nye ved denne beregnings rammeverket består i spaltning av et komplekst biologisk nettverk inn i dynamisk enkel, men godt karakterisert nettverk motiver, og evnen til å integrere uensartede biologiske data for å utlede disse nettverks motivene. De anslåtte moduler gir et rasjonelt grunnlag for å generere nye hypoteser for påfølgende eksperimentell validering. Vi demonstrerer evnen til dette beregnings rammeverk for å utlede reguleringsmoduler som er knyttet til cellesyklusprogresjon i HeLa-celler ved å kombinere informasjonen fra tidsforløpet genekspresjon eksperimenter [2], protein-protein interaksjoner (PPI) [11], [12], [13], [14], [15], [16], [17], [18], [19], [20], [21], [22], protein-DNA-interaksjoner (PDI) [23] , og genet ontologi (GO) [24].

Sammenlignet med våre tidligere rapportert strategi, som ble brukt til TRN slutning i gjærcellesyklus [25], dette inkluderer nye ordningen en integrerende bruk av PPI og PDI data (heretter kalt molekylære interaksjonsdata) fra tretten offentlig tilgjengelige databaser kombinert med påvisning av betydelige nettverks motiver for hver transkripsjonsfaktor. Implementering av denne nye ordningen betydelig utvidet omfanget av nettverkene som innlemmer dypere sett av kjente og verdifulle biologiske spor. Dessuten har vi innført en ny klynge gyldighets metode som utnytter GO merknaden til å beregne likheten av en gitt genpar i en klynge. Skilleveggen med høyest likheten poengsum er valgt som den optimale klyngen. Små TRN moduler (

vil si.

, Nettverk motiver) er lett tolk og har potensial til å gi innsikt i nye hypoteser. Dersom et gen klynge er involvert i nettverket motivet av en transkripsjonsfaktor, og de fleste genene har bevis på at de er regulert av den aktuelle transkripsjonsfaktor, er det mest sannsynlig at andre gener i denne gruppen har lignende regulerende forhold med den spesielle transkripsjonsfaktor. Den slutning evnen til vår raffinert beregnings rammeverket er verifisert av ulike analyser inkludert genet sett berikelse analyse (GSEA), bindende nettstedet berikelse analyse (BSEA), og annen litteratur undersøkelsen.

Resultater

Oversikt over dataintegrasjonsrammeverk

Vi vurderte to forskjellige lag av nettverk i hver TRN basert på analyse av Hela cellesyklus data. Først er det fysiske nettverk som omfatter PPIs og PDIS på faktor-genet binding nivå. For det andre er den funksjonelle nettverk som inkorporerer konsekvensene av disse fysiske vekselvirkninger, slik som aktivering eller represjon av transkripsjon. Vi brukte tre typer data for å rekonstruere TRN, nemlig PPIs avledet fra en samling av PPI databaser, PDIS fra TRANSFAC database, og tiden selvfølgelig genuttrykk profiler som er publisert av [2]. De to første datakildene gitt direkte nettverksinformasjon for å begrense TRN modell. Genuttrykket profiler gitt en entydig måling på årsaks effektene av TRN modell. GO merknad beskriver likheter mellom gener innen ett nettverk, noe som forenkler ytterligere karakterisering av relasjonene mellom gener. Målet var å skjelne avhengigheter mellom genuttrykksmønster og de fysiske inter-molekylære interaksjoner avslørt av komplementære datakilder.

modell for TRN slutning av multi-layer dataintegrasjon er illustrert i figur 1. I tillegg til data pre-prosessering, tre påfølgende trinn var involvert i dette rammeverket som er skissert i følgende:

genuttrykksmønster ble først samlet inn biologisk meningsfulle grupper av FCM; GO kategoriinformasjon av gener som ble anvendt for å bestemme den optimale klyngenummer. For å evaluere gensamlingene, ble GSEA utført på de optimale klynger. I tillegg er betydelige nettverks motiver som detekteres i den kombinerte nettverk av PPI og PDI ble deretter tildelt hver transkripsjonsfaktor. Etter at gensamlingene dannes og transkripsjonsfaktorer ble tildelt til nettverk motiv kategorier, ble forbindelsene mellom transkripsjonsfaktorene og gensamlingene utledes ved å trene RNNS som etterligner topologien til nettverket motiver som transkripsjonsfaktorer er tilordnet til. Til slutt ble de utledede nettverks motivene validert av BSEA og litteratur resultater.

Gene clustering.

Gener med liknende uttrykk profiler ble representert av en klynge for å løse skalerbarhet problem i TRN slutning [26]. Forutsetningen er at en undergruppe av gener som er relatert i forhold til uttrykket (co-regulert) kan grupperes sammen i kraft av en samlende cis-regulatoriske element (er) forbundet med en felles transkripsjonsfaktor som regulerer hver enkelt medlem av klyngen (ko-uttrykt) [27]. GO informasjon ble anvendt for å definere den optimale antall klynger med hensyn til visse brede funksjonelle kategorier. Siden hver klynge representerer hovedsakelig en bred biologisk eller prosess kategori som vurderes av FuncAssociate [28]), regulatoriske nettverk innebærer at en gitt transkripsjonsfaktor er sannsynlig å bli involvert i kontrollen av en gruppe av funksjonelt relaterte gener [29].

Nettverk motiv oppdrag til transkripsjonsfaktor.

for å redusere kompleksiteten i slutning problem, nettverks motivene ble brukt i stedet for et globalt TRN slutning. De betydelige nettverk motiver i den kombinerte molekylær interaksjon nettverket ble først etablert og er tilordnet minst en transkripsjonsfaktor. Disse foreningene ble videre brukt til å rekonstruere de regulatoriske moduler.

Bygging av nettverk motivene for transkripsjonsfaktor.

For hver transkripsjonsfaktor tildelt et nettverk motiv, en genetisk algoritme (GA) generert kandidat genet klynger for henvisning til en transkripsjonsfaktor basert på forholdet etablert av nettverket motiv. Et tilbakevendende nevrale nettverk (RNN) ble opplært til å modellere en TRN som etterligner den tilknyttede nettverk motiv. GA generert søker gensamlingene, og partikkel sverm optimalisering (PSO) ble brukt til å konfigurere parametrene for RNN. Parametre ble valgt for å minimalisere rot-middel-kvadrat feilen (RMSE) mellom utgangen fra den RNN og målgenet klyngens uttrykksmønster. Den RMSE ble returnert til GA for å produsere neste generasjon av kandidat gensamlingene. Optimalisering fortsatte til enten en pre-spesifisert maksimalt antall iterasjoner ble gjennomført eller en pre-spesifisert minimum RMSE ble nådd. Prosedyren ble gjentatt for alle transkripsjonsfaktorer. Biologisk kunnskap fra databaser ble brukt til å evaluere den anslåtte resultater.

Etablering av optimalt antall biologisk viktige klynger av klynge gyldighet måling

Gener som tilhører lignende eller beslektede funksjonelle kategorier og som viser lignende mønstre av transkripsjon sannsynligvis vil bli regulert av den samme mekanisme [30]. Coordinately uttrykte gener er sannsynlig å bli forent med felles cis-regulatoriske elementer og deres beslektet transkripsjonsfaktor (er) [31], [32] men dette forholdet er ofte lett merkbar bare i tilfeller hvor klyngen består av høyt til moderat uttrykte gener . Videre, i høy-dimensjonale data mellomrom disse enkelt korrelasjoner er støyende og den underliggende strukturen korrelasjon av data kan være kompliserte [10]. Gener er tildelt de samme eller relaterte funksjonelle kategorier basert på genet ontologi er også sannsynlig å være regulert av en felles transkripsjonsfaktor [33]. Integrert analyse av karakterprofildata og genet ontologi merknad er en mer robust tilnærming for nettverksforslag enn en uni-dimensjonal tilnærming basert på et enkelt lag av informasjon som univariate korrelasjons tiltak.

Det er totalt 846 gener assosiert med kontroll av cellesyklus er blitt identifisert tidligere i HeLa-celler [2]. Vi ytterligere partisjonert disse genene inn mer spesifikke funksjonelle grupper (figur 2) ved fuzzy c-betyr clustering (FCM) [34]. I forhold til tradisjonelle k-means, gir denne ordningen en mer robust strategi som gir gener med tilsvarende uttrykk mønstre som skal plasseres i det samme område med mye mindre bakgrunnsstøy [26]. FCM clustering involverer to empiriske parametre: uklarhet parameter

m Hotell og antall klynger

c

. Den optimale verdi på

m

for datasettet brukt i denne studien var 1,1548, som ble fastsatt basert på metoden foreslått av Dembele og Kastner [35].

Ordningen illustrerer prosessen med gruppering gener i biologisk meningsfulle klynger. De genuttrykk data ble først brukt til å finne den optimale m valuta for FCM clustering. Med den optimale m verdi, ble FCM clustering utført på genuttrykk data for klase tall fra 2 til 50. likheten score av alle par av gener i hver klynge av en partisjon midles og betegnes som den generelle likheten score for en klynge partisjon. Skilleveggen med høyest likheten Poengsummen ble valgt som optimale. GSEA ble utført ved anvendelse FuncAssociate å evaluere gensamlingene dannet ved hjelp av det optimale klyngenummer.

optimale klynge tall ble bestemt ved den semantiske likheten mellom hvilket som helst gen par i en enkelt klynge. Dette er en kunnskapsdrevet metode som tar sikte på å estimere optimal klyngen partisjon fra en samling av kandidat partisjoner og forbedrer prediktiv pålitelighet og biologisk relevans av produksjonen. Semantisk likheten mellom genet parene ble beregnet ved å kombinere likheten score mellom de GO vilkårene tildelt hvert gen. Relevans likheten tiltak ble brukt til å beregne likhet med hensyn til de tildelte GO terminologier [36]. Likheten score på alle par av gener i hver klynge av en partisjon ble gjennomsnitt og betegnes som den generelle likheten score for den aktuelle klyngen partisjonen.

Klyngen gyldighetsvurdering metoden vurdert alle tre ontologi grener (mobil komponent, molekylær funksjon, og biologisk prosess) for å beregne likheten score. Skilleveggen med den høyeste poengsum likheten ble valgt som den optimale skilleveggen (figur 3). Vi sammenlignet ytelsen til FCM clustering med K-gjennomsnittet clustering med hensyn til to forskjellige

m

verdier. Den ene er en standardverdi på 2, og den andre er basert på den optimale verdi på 1,1548 (figur 2). Fra denne analysen, observerte vi at FCM clustering med optimal

m

verdi gir best likheten poengsum. Den høyeste likheten Poengsummen ble oppnådd med 39 klynger, noe som indikerer en optimal tilstand for å redusere søket plass for TRN slutning

Tre clustering resultatene ble plottet. K-means og FCM clustering med to

m

verdier (

m

er uklarhet parameter): standardverdi (

m

= 2) og optimal verdi (

m

= 1,1548)

.

For å evaluere de optimale klynger valgt basert på GO, ble GSEA påføres med optimal verdi (tabell S1). Hver klynge var anriket på spesifikke biologiske kategorier. For ytterligere å evaluere den biologiske betydningen av de etablerte klynger, GO informasjonen ble brukt til å bestemme om de klynger har betydelig berikelse av ett eller flere ord ved hjelp av FuncAssociate programmet [28]. Denne strategien har gjort bruk av en undergruppe av gener som grunnlag for å frembringe en rangert liste (av P-verdier) av GO attributtene som er anriket mellom inngangs-genet undergruppe [24]. Utgangen ga GO vilkårene som ble betydelig anriket i hver klynge blant alle genene (tilsvarende den totale 26,512 menneskelige gener i FuncAssociate program).

Etter denne ordningen, totalt sett av gener som er involvert i cellesyklusregulering ble videre oppdelt i 39 grupper (Tabell S1). Av disse klyngene, ble 31 helt klart assosiert med GO kategorier som innebærer en mer spesifikk funksjon som forener medlemmene av en, men ikke andre klynger, og dermed etablere mer direkte relasjoner mellom visse mindre undergrupper av gener. For eksempel kan klynger 29 og 8 begge være assosiert med pre-mitotisk, mitotisk og post-mitotiske hendelser (M-fase). Imidlertid kan medlemmer av klyngen 8 skilles fra medlemmene av klyngen 29 i kraft av deres spesifikke roller i kromosom dobling (DNA replikasjon) og cytokinese. Omvendt, kan medlemmer av klyngen 29 skilles fra medlemmene av klyngen 8 i kraft av deres spesifikke roller i spindel fiber montering og demontering.

Biologisk betydning av disse svært spesifikke funksjonelle relasjoner, etablert av vår clustering ordningen, kan ytterligere utvides i form av relasjoner innen det regulatoriske konteksten. For eksempel, har medlemmer av begge klynger 29 og 8 tidligere blitt identifisert som direkte nedstrøms mål for E2F faktorer (Ren et al., 2002). Liknende forhold kan etableres med andre klynger som klynge 32, som består av gener med biokjemiske roller for en DNA-ligase. Dermed blir gener in Cluster 32 involvert i prosessene i forbindelse med åpning eller reparasjon av Okazaki fragment behandling under DNA-replikasjon og kromosom dobling. Tidligere studier har vist at gener assosiert med denne funksjonen er under myndighetskontroll av E2F1 og PCNA (Shibutani et al, 2008; se nærmere omtale i tabell S2).

Basert på alle disse sammenhengene, en bestemt styrke vår nåværende metoden er dens evne til å skille gener som er relatert av funksjon i vid forstand og sub-kategorisere dem i svært spesifikke (smal) funksjonelle kategorier, noe som resulterer i prediksjon av regulatoriske forhold som er i samsvar med biologisk gyldige relasjoner.

Tildele transkripsjonsfaktorer for å bygge nettverk motiver

Ovfø er sammensatt av gjentatte forekomster av nettverks motiver, som er enkle, gjentatte mønstre av konserverte biologiske enheter som strekker seg fra molekylære domener til små reaksjons nettverk [37]. Hvert nettverk motiv utfører en definert informasjonsbehandling funksjon i nettverket. Vi fokuserte på tre-node-nettverk motiver fordi flertallet av de større størrelse nettverks motivene er sammensatt maksimalt tre-noder [38]. Målet var å tildele hvert mulige cellesykluskontroll forbundet transkripsjonsfaktoren til minst ett nettverk motiv i henhold til den kombinerte molekylære interaksjonen nettverk. Målet ble oppnådd ved å bygge en RNN modell for alle mulige regulatoriske gener som er involvert i transkripsjon basert på deres spesifikke nettverk motiv. Den RNN utgang er en modell som knytter hver

bona fide

eller antatte transkripsjonen regulator med sine nedstrøms målgener.

Alle gener med enten direkte eller indirekte rolle i regulering av transkripsjon ble først identifisert fra totalt sett 846 cellesyklusen knyttet gener i henhold til GO kategorier som betegner mulige roller i transkripsjon (Ashburner et al., 2000). Kandidatgener som forble etter filtrering andre genet funksjonskategorier er de som ble tildelt følgende mulige funksjoner: transkripsjonsfaktor aktivitet (GO: 0003700), regulering av transkripsjon (GO: 0061019), og transkripsjonsfaktor kompleks (GO: 0005667). Siden GO informasjon alene ikke være tilstrekkelig til å identifisere gener med bona fide roller som transkripsjonsfaktorer, vi videre filtrert vår liste over kandidat transkripsjonsfaktorer ved å legge et lag av bekreftende informasjon basert på resultatene fra PubMed søk. Denne tilleggskommentar tillatt oss å validere GO klassifisering av våre kandidat gener. De detaljerte beskrivelser av GO vilkår og spesifikke roller i transkripsjon av kandidat TFS brukt i denne studien i tabell S3. Blant de 846 cellesyklusrelaterte gener, 46 ble merket med funksjoner relatert til transkripsjonsregulering basert på både GO og PubMed databaser. Disse genene ble vurdert som mulige transkripsjonsfaktorer.

I microarray data, gener er ofte representert ved flere oligonukleotidprober. Gener som representeres av sondesett med større variansen ble ytterligere vurdert i denne studien (Zhang et al., 2007). Vi dekomponeres den TRN i flere nettverk motiver, med hvert nettverk-motivet kan være forbundet med en gitt transkripsjonsfaktor (e). Totalt fire nettverks motiver ble funnet å være av betydning i den kombinerte molekylær interaksjon nettverk (figur 4), for således hver transkripsjonsfaktor ble tildelt i det minste en av disse nettverks motivene.

Det venstre panel presenterer fire-nettverket motiv regulatoriske moduler vurderes i denne studien. Høyre panel viser anslåtte transkripsjonsfaktor-målet genet relasjoner for åtte cellesyklusavhengige transkripsjonsfaktorer.

inferring nettverk motiv regulatoriske moduler mellom transkripsjonsfaktorer og gensamlingene

Forholdet mellom transkripsjonsfaktorer og gensamlingene ble fastsatt basert på RNN modeller. For hver av de fire nettverk motivene (figur 4), ble en passende RNN bygget som vi tidligere beskrevet [25]. De RNN modellene ble trent med hybrid genetisk algoritme – partikkel sverm optimalisering (GA-PSO) for å finne de nedstrøms gensamlingene for alle 46 mulige transkripsjonsfaktorer. Sammenhenger mellom hver transkripsjonsfaktor og 39 gensamlingene ble bestemt ved å trene RNN modell som etterligner den spesifikke nettverks motiv for en gitt transkripsjonsfaktor. På grunn av en reduksjon i beregningsorientert kompleksitet (mapping mellom 46 transkripsjonsfaktorer og 39 gensamlingene i stedet for 846 gener), ble antallet GA og PSO generasjoner for å nå den pre-spesifiserte minimum RMSE betydelig redusert. Den PSO generasjon for RNN ble satt til 1000 [39]. Minimumsverdien for RMSE redusert som det antall generasjoner økes (tabell 1). Den minste RMSE for GA generasjoner, 600 og 800 var 0,077 og 0,075, respektivt. Basert på 600 GA generasjoner, vår slutning metoden med hell tildelt alle 46 antatte transkripsjonsfaktorer til sine mål gensamlingene og utledes de mest sannsynlige transcriptional regulatoriske nettverk motiver (TRNMs, se figur 4 for representative TRNMs)

. gyldig~~POS=TRUNC heten~~POS=HEADCOMP og nøyaktigheten av nettverket vist ved TRNMs kan vurderes ved sammenligning med en nettverksmodell konstruert basert på faktiske biologiske data. I fravær av slik informasjon, utførte vi en første validering av nettverket ved å søke etter kjente genet forbindelser i databaser. Basert på nettverket motiv modul prediksjonsresultater, samlet vi litteratur bevis fra NCBI og TRANSFAC [40] databaser. Vi har vurdert hver spådd nettverk motiv og undersøkte forholdet mellom transkripsjonsfaktor og målet genet cluster (e). Påfølgende analyse ble utført under den grunnleggende forutsetning at den antatte nettverket motivet er mer sannsynlig å være biologisk meningsfull hvis transkripsjonsfaktorer der er korrelert med beriket biologiske funksjoner i nedstrøms klynger.

Betydelige nettverks motiver som følge av undersøkelsen av tilgjengelige litteratur cellesyklus avhengige gener som

E2F1, E2F2, SP1, BRCA1, STAT1, PCNA, RBPSUH

, og

HMGB2

er oppført i figur 4. Basert på den kombinerte informasjonen, biologisk innblanding av nettet kan forklares. For eksempel,

E2F

er en transkripsjonsfaktor som spiller en avgjørende rolle i celle-syklusprogresjon i pattedyrceller [41].

E2F1

, som inneholder to overlappende

E2F

-binding nettsteder i sin promoter-regionen, aktiveres ved G1 /S overgang i en E2F avhengig måte.

E2F2

samhandler med visse elementer i

E2F1

promoter og både gener som er involvert i DNA replikasjon og reparasjon [42], cytokinese, og tumor utvikling [43]. Ifølge GSEA resultater, er Cluster 8 beriket med gener som er involvert i mitose og cytokinese, og Cluster 34 er beriket med gener som er involvert i flere funksjonelle kategorier forbundet med tumorutvikling. Som vist i figur 4, er begge Cluster 8 og 34 spådd å bli regulert av

E2F1 Hotell og

E2F2

, og disse resultatene er i samsvar med tidligere rapporter basert på biologiske data [41], [43].

Vår analyse spår at

E2F1 Hotell og

PCNA

er komponenter av det samme nettverket. Begge disse genene er involvert i reguleringen av klynger 32 og 34. Den best forstås molekyl funksjon av

PCNA

protein er dens rolle i reguleringen av eukaryote DNA-polymerase delta processivity, som sikrer den nøyaktighet av DNA-syntese og reparere [44]. Imidlertid har nyere studier gitt bevis for at de

PCNA

protein fungerer også som en direkte repressor av transkripsjons coactivator p300 [45]. En annen studie viser at

PCNA

undertrykker transkripsjonen aktivitet av retinsyre reseptorer (

RAR

er) [46]. Dermed involvering av disse genene i samme nettverk, som spådd av vårt nettverk slutning algoritme, er sterkt støttet av kunnskap om regulatoriske forhold som allerede er etablert i eksperimentelle data. Resultatene av vår prediksjon er i samsvar med disse rapportene, siden både Clusters 8 og 32 er beriket med gener involvert i DNA-syntese og reguleringsprosesser.

Vi tok tre tilnærminger til å undersøke nærmere om gener spådd å bli regulert av

E2F

gener i Clusters 8, 32 og 34 er validert i klassiske ikke-genom brede metoder. Først undersøkte vi hvor mange «kjent»

E2F1 Hotell og

E2F2

mål er spådd av våre foreslåtte metoden. Ifølge Bracken

et al

. [47], 130 gener ble anmeldt som

E2F

mål, 44 av som opprinnelig ble identifisert av klassiske, ikke-genom-wide tilnærminger. Siden vi begrenset analysen til de 846 cellesyklusrelaterte gener, 45 gener matchet

E2F

målgener oppført i ref. [47], 21 som var kjent fra studier ved hjelp av klassiske molekylær biologi analyser. Genet målene spådd av vår metode kamp 15 av 45 gener, alle 15 av dem er blant de som finnes opprinnelig ved hjelp av standard molekylærbiologiske eksperimenter. En mulig årsak er at genom-wide tilnærminger er vanligvis svært støyende og inkonsekvent på tvers av ulike studier. Den detaljerte informasjonen om disse genene er oppført i tabell S4.

For det andre ønsket vi å se om våre spådd genet mål klynger er anriket i de tilsvarende bindingsseter for transkripsjonsfaktorer i sin oppstrøms regionen. For begge

E2F1 Hotell og

E2F2

, 7 av 17 gener i Cluster 8 inneholde bindingssteder i sine oppstrøms regioner som bekreftes av data i SABiosciences database (http: //www.sabiosciences. com /chipqpcrsearch.php? app = TFBS).

til slutt fant vi ut hvor mange gener i gensamlingene har

E2F

bindingssteder. Vi søkte motivet oppdagelsen verktøyet, WebMOTIFS [48] for å finne felles motiver i gensamlingene spådd til

E2F

mål ved hjelp av bindingssetet berikelse analyse (BSEA). Resultatene viste at et motiv som kalles E2F_TDP, GCGSSAAA, er identifisert som den mest betydningsfulle blant motivet gensamlingene 2, 8, 29, 31, 32 og 34. Dessverre, for klynger 30 og 36 antall gener i disse klyngene er for liten for WebMOTIFS analyse. Alle disse gensamlingene er spådd til nedstrøms målene for

E2F

. For eksempel 43 av 52 gener i Cluster 2 har antatte

E2F

bindingsseter i sine oppstrøms regioner. Den detaljerte informasjonen fra BSEA Resultatene er vist i figur 5. For de TRNMs hvor to transkripsjonsfaktorer er involvert, finner vi også disse nedstrøms genet klynger er anriket i begge bindingssetet sekvensmotiver. For eksempel er Cluster 32 anriket på begge E2F_TDP og MH1 motiver, svarende til de to transkripsjonsfaktorer i TRNM: E2F1 og SP1. Disse BSEA resultatene støtter sterkt våre inferens resultater.

Sequence logoer representerer motivet betydelig overrepresentert i enkelte genet klynge forbundet med deres spådd oppstrøms transkripsjonsfaktorer, i henhold til WebMOTIFS oppdagelsen algoritme [48].

Legg att eit svar