PLoS ONE: Integrative Identifikasjon av deregulert miRNA /TF-mediert Gene Regulatory Loops og nettverk i prostata Cancer

Abstract

microRNAs (mirnas) har fått mye oppmerksomhet i biologi og medisin. Det har vært en teori om at mirnas samhandle med transkripsjonsfaktorer (TFS) i en koordinert måte å spille viktige roller i regulering signalering og transkripsjons stier og oppnå robuste genregulering. Her foreslår vi en ny integrerende datametode til å antyde visse typer deregulerte miRNA-mediert reguleringskretser på transkripsjons, post-transcriptional og signalnivå. Å forutsi pålitelig miRNA-målet interaksjoner fra mRNA /miRNA uttrykket data, vår metode kollektivt benytter sekvensbaserte miRNA-målet spådommer innhentet fra flere algoritmer, kjent informasjon om mRNA og miRNA mål av TFS tilgjengelige i eksisterende databaser, visse molekylære strukturer er identifisert til å være statistisk overrepresentert i gennettverk, tilgjengelig molekylær subtyping informasjon og state-of-the-art statistiske teknikker for å riktig begrense den underliggende analyse. På denne måte utnytter fremgangsmåten nesten alle aspekter av ekstraherbare informasjon i uttrykket dataene. Vi bruker vår prosedyre på mRNA /miRNA uttrykk data fra prostata svulst og normale prøver og oppdage mange kjente og nye miRNA-mediert deregulerte sløyfer og nettverk i prostatakreft. Vi viser også forekomster av resultatene i en rekke forskjellige biologiske innstillinger, som er kjent for å spille viktige roller i prostata og andre typer kreft. Våre funn viser at den foreslåtte beregningsmetoden kan brukes til å effektivt oppnå bemerkelsesverdige innsikt i dårlig forstått molekylære mekanismer av miRNA-medierte interaksjoner og dissekere deres funksjonelle roller i kreft i et forsøk på å legge til rette for miRNA-basert terapi i kliniske settinger.

Citation: Afshar AS, Xu J, Goutsias J (2014) Integrative Identifikasjon av deregulert miRNA /TF-mediert Gene Regulatory Loops og nettverk i prostatakreft. PLoS ONE 9 (6): e100806. doi: 10,1371 /journal.pone.0100806

Redaktør: Sebastien Pfeffer, fransk National Center for Scientific Research – Institut de biologie moléculaire et cellulaire, Frankrike

mottatt: 20 januar 2014; Godkjent: 28 mai 2014; Publisert: 26 juni 2014

Copyright: © 2014 Afshar et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble finansiert av National Science Foundation (NSF) Grants CCF-0849907 og CCF-1217213. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

microRNAs (mirnas) er små ikke-kodende ribonucleic syrer (RNA) som i stor grad regulerer genuttrykk i metazo dyr, planter og protozoer. Omtrent 22 nukleotider i lengde, mirnas vanligvis undertrykke genekspresjon ved å binde seg til sekvenser med delvis komplementaritet på mål messenger RNA (mRNA) transkripsjoner. I pattedyr er mirnas antatt å kontrollere aktiviteten til mer enn 60% av all protein-kodende gener og omfattende delta i reguleringen av mange cellefunksjoner [1], [2].

Med få unntak, metazoan mirnas basepar med sine mål ufullkomment, etter et sett med regler som er formulert ved å bruke eksperimentelle og bioinformatikk-baserte analyser [3]. Denne begrensede komplementaritet gjør oppgaven med beregnings identifisere miRNA mål svært utfordrende og vanligvis fører til et stort antall, for det meste falske, potensielle mål.

Tidligere dataverktøy har hovedsakelig fokusert på å dissekere individuelle miRNA-målet interaksjoner ved å stole på sekvens -basert identifikasjon av miRNA-target-bindingssteder eller på mRNA /miRNA ekspresjonssystemer analyse av data [4] – [6]. Alternative metoder bruker miRNA vertsgener stedfortredere for å måle ekspresjonen av innebygde mirnas [7] eller anvende en informasjons-teoretiske tilnærming for å identifisere kandidat mRNA som modulerer miRNA aktivitet ved å påvirke forholdet mellom en miRNA og dens target (e) [8]. På den annen side betrakter senere arbeid koekspresjon analyse, ved å anta at målet for en gitt miRNA er ko-uttrykt, i det minste i visse vev eller tilstander [9].

Konvensjonelt mange beregningsmetoder som er utviklet for miRNA-target-forutsigelse stole på den forutsetning at det er en invers korrelasjon mellom ekspresjonsnivået av en miRNA og den til dens target [10]. Imidlertid har det nylig blitt vist at både positive og negative transkripsjonen co-regulering av en miRNA og dens mål er utbredt i de humane og muse genomer [11], [12]. Spesielt har to typer reguleringskretser (som vi skal diskutere om kort tid) blitt foreslått for miRNA-mediert interaksjoner, som tilskriver modulerende og /eller forsterke roller å mirnas i deres nettverk basert på motiver, slik som fôr-forward sløyfer (FFLs ) [1. 3]. Som en konsekvens, er miRNA-target spådommer utelukkende stole på en invers korrelasjon forutsetning ventes å bli begrenset hvis prediksjon metoden ikke hensiktsmessig innlemme den underliggende FFL nettverksstruktur.

Basert på den forrige paradigmet, har flere forskere undersøkt den statistiske overrepresentasjon av nettverksstrukturer som omfatter miRNA og TF co gulering av mRNA for å identifisere anrikede nettverks motiver og /eller vurdere deres utbredelse i forskjellige biologiske sammenhenger [14] – [21]. I hovedsak disse metodene beregne mål for samordnet genet co-regulering av miRNA og TF regulatorer. Andre forskere har vurdert regresjon metoder eller Bayesiansk modeller for å kvantifisere statistiske assosiasjoner ved å bestemme endringer i uttrykket nivået av en gitt mRNA forklares med uttrykket nivåer av TFS og mirnas spådd å målrette mRNA basert på sekvensinformasjon [22] – [25]. Deretter bruker de utledede relasjoner å avgrense betydelige nettverksstrukturer og motiver på en måte som ligner på den som benyttes i de nevnte metoder. Det er viktig å merke seg imidlertid at de kollektive funnene som produseres av alle disse metodene gir ytterligere støtte for betydningen av miRNA /TF-mediert FFLs som gjeldende nettverks motivene på tvers av forskjellige biologiske sammenhenger, reconfirming hypotesene som opprinnelig foreslått i [11], [12] .

i tillegg til ovennevnte, forstyrrelser i genregulering (for eksempel ved genetiske og epigenetiske forandringer) antas å indusere endringer i normal cellefunksjon som fører til progresjon av patologiske tilstander, som kreft, formidles gjennom gennettverk. Som en konsekvens, kan effektiv behandling av mange menneskelige sykdommer krever en fundamental og systemisk forståelse av genomiske regulatorer, slik som mirnas og TFS, og deres nettverk for interaksjon. Imidlertid systematisk å utlede molekylære interaksjoner ved eksperimentelle metoder er både vanskelig og kostbart. Derfor er det sterkt ønskelig å utvikle «pålitelig» computational tilnærminger som kan identifisere slike nettverk. Nettverks spådommer kan senere bli brukt av en ekspert biolog å formulere nye hypoteser og effektivt fortsette med sin eksperimentelle undersøkelser og validering.

Nylig flere nye metoder har blitt foreslått for å identifisere koordinert miRNA /TF interaksjoner [26], [ ,,,0],27]. Imidlertid, og for en gitt motiv struktur (for eksempel et FFL), disse fremgangsmåter forsøker å forutsi de underliggende interaksjoner (de tre kantene på en FFL) ved å benytte begrensede biologisk informasjon og et smalt sett av dataverktøy. Som et resultat, selv om metodene er effektive i å gi innsikt i utbredelsen av ulike motiv tilfeller gennettverk, de kan ikke produsere pålitelige spådommer fra en eksperimentell perspektiv.

Ytelsen til noen av de tidligere metoder har nylig blitt testet i [27]. Det ble observert at, selv om noen fremgangsmåter var i stand til å oppnå en rimelig suksessraten i å forutsi forekomster av en type interaksjon, de var mindre effektive i å forutsi forekomster av de to andre typer, med flere algoritmer som har en suksessrate på nær eller mindre enn 1% i å forutsi TF-mRNA og TF-miRNA interaksjoner. Dette understreker den kritiske faktum at forutsi parvise molekylære interaksjoner og bygge høyere orden tilfeller av motivene ved hjelp av den anslåtte kanter kan oversette til høyere samlede falske positiver. Siden det er et vell av informasjon om hvordan en TF binder sine mål og på deres spesifikke regulatoriske roller, bestemte vi oss for å vurdere bare

eksperimentelt

validerte TF-mRNA og TF-miRNA interaksjoner under FFL rammeverk og skifte fokus på pålitelig forutsi dårlig forstått miRNA-target interaksjon kant. Vi tror at ved hensiktsmessig å begrense den underliggende statistisk analyse problem, vi kunne potensielt øke påliteligheten av miRNA /TF-mediert genet regulatoriske sløyfe spådommer.

For ytterligere å begrense miRNA-målet interaksjon prediksjon problem, vi fokuserer på dette papiret på visse tre-node regulatoriske motiver. Det første settet med motiver som vår metode mener er tre-node FFLs som nylig har tiltrukket seg mye oppmerksomhet blant systemer og eksperimentelle biologer. Disse motivene er gode modeller for samordnet miRNA-mediert og transkripsjonsregulering, som har blitt antatt å være utbredt i de menneskelige og muse genomer [12].

Vi anser to Type I FFL motiver, der miRNA og TF er oppstrøms- og nedstrøms regulatorer, henholdsvis, så vel som fire Type II FFL motiver, hvor TF er nå oppstrøms regulatoren, mens miRNA er nedstrøms regulatoren – se figur 1. Fra et mekanistisk perspektiv, disse seks FFLs er klassifisert som

sammenhengende

eller

usammenhengende

. I sammenhengende fall, miRNA og TF regulatorer opptre på en koordinert måte for å forsterke reguleringen logikk langs to mate fremover baner. I type I og type II-B sammenhengende FFLs, disse banene samtidig undertrykke ekspresjonen av den målrettede mRNA. Den resulterende mekanismen brukes, for eksempel, for å undertrykke lekk transkripsjon av et gen ved å sikre at dets ekspresjon forblir på et ubetydelig nivå. På den annen side, i en type II-A sammenhengende FFL, forsterker TF transkripsjon av målrettede mRNA ved direkte å aktivere den, samt ved å hemme undertrykkelse av det måls miRNA regulator.

Type I FFL består av trillinger (miRNA, TF, mRNA) slik at en miRNA samtidig rettet mot et mRNA og dens TF mRNA. Type II FFL består av trillinger (miRNA, TF, mRNA) slik at en TF samtidig regulerer en miRNA og dets mål mRNA. Til slutt, Type III sløyfen består av tripletter (miRNA, G-1, G-2) slik at den miRNA samtidig er rettet mot to transkripter i en gitt KEGG svei, en fra hvert gen G-1 og G-2, som har tilsvarende proteiner kunne potensielt samhandle med hverandre basert på en sti kart levert i KEGG database.

i usammenhengende FFLs, Mirna og TF regulatorer opptre på en koordinert måte for å finjustere uttrykk for målrettet mRNA . Mer spesifikt, vil avvik fra den steady-state-konsentrasjon av den oppstrøms regulatoren (dvs. den miRNA i type I og TF i type II-A og Type II-B FFLs) vil drive målrettet mRNA, samt nedstrøms regulatoren , bort fra sine likevektsnivåer i samme retning. På denne måte kan den nedstrøms regulatoren balansere uttrykk for den målrettede mRNA, og kompenserer variasjoner i ekspresjonsnivået av oppstrøms faktor.

Visse cellulære prosesser kan være ultra-sensitive til aktiviteten av en gitt transkript i en spesifikk biologisk sammenheng. I disse situasjonene «støy buffering» mekanisme gitt av inkoherente FFLs bidrar til å opprettholde målproteinet homeostase og sikrer at en ukoordinert drift fra den steady-state nivå av oppstrøms regulatoren ikke kan resultere i en uønsket variasjon i målproteinet nivå som kan føre til patologiske utfall. Mirnas er særlig effektive i denne innstillingen, på grunn av deres raske virkningsmekanisme på post-transkripsjonelle nivå, i motsetning til transkripsjonelle repressorer, således akselererer støy bufring [12].

I tillegg til den modulerende og /eller forsterkende gen regulatoriske roller som mirnas er kjent for å spille på konsert med TFS, de har blitt antatt å spille viktige roller i å regulere signalveier også. I dette henseende, selv om mirnas er kjent for å ha små effekter på proteinnivåer individuelle mål, deres samlede innflytelse kan i betydelig grad påvirke resultatene som styres av signalveier, gitt mangfold av deres mål og samtidig nedregulering av flere av disse målene. For å ta dette viktig aspekt i betraktning, vår fremgangsmåte vurderer også de grunnleggende Type III sløyfe motiv avbildet i figur 1, hvor en miRNA er rettet mot to-gentranskriptene, G-1 og G-2, hvis proteiner kan potensielt interagere med hverandre i henhold til en sti kart levert i KEGG database (https://www.kegg.jp). Eksistensen av Type III sløyfe motivene er støttet av to sentrale hypoteser: (i) mirnas spille viktige roller i å regulere signalveier på grunn av sin skarpe dose-sensitive natur [28] – [32], og (ii) mål for enkelt miRNAs er mer forbundet (dvs. interagere) på proteinnivået enn forventet ved en tilfeldighet [28], [33] -. [35]

til sammenlikning av fremgangsmåten foreslått i [26] betrakter bare Type II FFLs og gjør ikke diskriminere mellom sammenhengende og usammenhengende FFLs, som er nødvendig for et system-nivå forståelse av transkriptom endringer i sykdommen. Videre er de standard statistiske tester anvendt for å identifisere differensielt uttrykte gener mellom to tilstander i et typisk genekspresjon profilering studien, som fastsatt av tidligere metoder [26], [27], blir grunnleggende feil i nærvær av uforklart kilder til variabilitet (på grunn biologiske og eksperimentelle faktorer, blant annet) [36] – [38]. Molecular subtyping informasjon er en viktig eksempel på slike kilder til variabilitet.

For å møte de tidligere problemene, utvikler vi i denne artikkelen IntegraMiR, en roman integrerende analysemetode som kan brukes til å utlede visse typer reguleringssløyfer deregulert miRNA /TF interaksjoner som vises på transkripsjons, post-transcriptional og signalnivåer i en statistisk overrepresentert måte. Den foreslåtte metoden tildeler biologiske roller til mirnas ved å integrere fem store kilder til informasjon sammen med state-of-the-art statistiske teknikker for å pålitelig antyde bestemte typer miRNA-målet interaksjoner i sammenheng med reguleringssløyfer. Spesielt IntegraMiR benytter:

mRNA og miRNA uttrykket data

Sekvensbaserte miRNA-target informasjon hentet fra forskjellige algoritmer

kjent informasjon om mRNA og miRNA mål av.. TFS tilgjengelig i eksisterende databaser.

Visse tre-node motivene i gennettverk.

kjent molekyl subtyping informasjon tilgjengelig med genuttrykk data.

For å gjøre dette , IntegraMiR identifiserer deregulerte mirnas, TFS og mRNA ved å utføre statistisk analyse innenfor en begrenset ramme som bruker «før» informasjon som omfatter nylig oppdaget motiver, tilgjengelig kunnskap på miRNA /mRNA transkripsjonen regulering, og kjente protein-nivå interaksjoner på signalveier. For å illustrere effektiviteten og potensialet i denne metoden, bruker vi det på mRNA /miRNA uttrykk data fra tumor og normale prøver og identifisere flere kjente og nye deregulerte løkker i prostatakreft (PCA). Dette gir oss muligheten til å demonstrere forekomster av resultater og funn i en rekke forskjellige biologiske innstillinger, som er kjent for å spille viktige roller ved PCA og andre typer kreft.

Vi bør legge vekt på dette punktet at IntegraMiR er skalerbar , i den forstand at informasjon fra eksisterende eller nyutviklede /oppdaterte databaser kan være innspill til å generere ønsket /utvidet resultat. Videre kan eventuelle miRNA /mRNA-ekspresjon data med prøver tatt i en hvilken som helst biologisk sammenheng mellom to forhold utnyttes til å utlede de tilsvarende deregulerte løkker som er relevante for den aktuelle sammenheng for hånden. Endelig kan den interesserte leseren fritt laste ned en R implementering av IntegraMiR fra www.cis.jhu.edu/~goutsias/CSS%20lab/software.html.

Resultater

Integrert miRNA /TF -mediert Regulatory Loop Tippe

flytskjema avbildet i figur 2 gir en generell beskrivelse av de ulike trinnene ansatt av IntegraMiR. Vi henviser leseren til «Materialer og metoder» for mer informasjon om hvert trinn. Fremgangsmåten bruker mRNA og miRNA uttrykk data fra prostatavevet ved to ulike biologiske forhold (normale vs. kreft). Det dessuten syssels resultatene som oppnås ved sekvensbaserte miRNA mål prediksjon algoritmer og inneholder informasjon hentet fra fire databaser tilgjengelig på nettet, nemlig:

Metoden tildeler biologiske roller til mirnas ved å integrere fem store kilder til informasjon sammen med state-of topp moderne statistiske teknikker for å pålitelig antyde bestemte typer miRNA-målet interaksjoner i sammenheng med reguleringssløyfer fra mRNA og miRNA uttrykket data.

-mSigDB (www.broadinstitute.org/gsea/msigdb ).

-miRTarBase (https://mirtarbase.mbc.nctu.edu.tw).

-TRANSFAC (www.gene-regulation.com/pub/databases.html).

-TransmiR (https://202.38.126.151/hmdd/mirna/tf).

Merk at KODE utgitt informasjon nylig på TF bindende nettsteder basert på chip-seq eksperimenter for 161 TF’er i 91 cellelinjer (https://genome.ucsc.edu/ENCODE). Dessverre gjør denne databasen ikke gi forskrift type (aktivering eller undertrykkelse) av en bestemt TF-target samhandling, informasjon som er viktig i vår tilnærming. Av denne grunn bruker IntegraMiR TRANSFAC. Men når denne informasjonen blir tilgjengelig via KODE eller andre TF-målet databasen, det kan lett utnyttes av IntegraMiR.

Det første trinnet i IntegraMiR gjelder standard forbehandling på de rå uttrykket data (for eksempel bakgrunnskorreksjon , normalisering, og data heterogenitet korreksjon) for å forbedre datakvaliteten, etterfulgt av flere hypotesetesting (MHT) og surrogatvariabel analyse (SVA) for å identifisere mRNA og mirnas som er forskjellig uttrykt mellom de to biologiske forhold, og korrigerer for biologiske variasjoner på grunn av molekylær inndeling i undergrupper, flere tester og batch effekter.

det andre trinnet implementerer ytterligere statistisk analyse ved hjelp av genet sett berikelse analyse (GSEA) for ytterligere å vurdere den biologiske betydningen av visse mRNA og mirnas som ikke anses å være forskjellig uttrykt av MHT. Ved å ansette de molekylære signaturer database mSigDB av kommentert gensettene for bruk med GSEA og

eksperimentelt

bekreftet miRNA målet databasen miRTarBase, konstruerer IntegraMiR tre separate grupper av gensettene og evaluerer den statistiske betydningen av hvert gen sett beriket for deregulering i de tilgjengelige mRNA expression data. Den første gruppen består av gensettene i mRNA-data indeksert av en TF mRNA som ikke anses å være forskjellig uttrykt av MHT og bestemmes av mSigDB å direkte regulere hvert gen i genet settet. Den andre gruppen består av gensettene i mRNA-data indeksert av en miRNA som ikke anses å være forskjellig uttrykt av MHT og bestemmes av miRTarBase å målrette hvert gen i genet settet. Den tredje gruppen består av gensettene i mRNA-data indeksert av en bestemt KEGG signalveien [39], [40] inkludert i mSigDB. Endelig er TFS forbundet med statistisk signifikante beriket gensettene endret til listen over de mRNA anses å være forskjellig uttrykt av MHT til å generere en samlet oversikt over forskjellig uttrykt mRNA, og det samme er gjort for miRNAs. Vi bør merke seg her at mSigDB er mye brukt for å oppnå gensettene for GSEA analyse. På den annen side, ansetter vi MiRTarBase siden denne databasen har samlet et relativt stort antall eksperimentelt validerte miRNA-målet interaksjoner.

I korte trekk, GSEA avgjør om et gitt sett av gener viser statistisk signifikante samstemmige forskjeller mellom to biologiske stater [41]. Den viktigste grunnen IntegraMiR gjelder GSEA etter den første hypotesetesting skritt er å forbedre oppdagelse av forskjellig uttrykt TFS og mirnas, som kan bli savnet når enkelt uttrykk nivåer viser bare moderate endringer mellom de to biologiske forhold. Som Faktisk, hvis en rekke transkripter er kjent for å delta i en felles biologisk mekanisme, da selv moderate endringer i ekspresjonsnivåer av disse transkriptene kan være statistisk signifikant på grunn av det faktum at kjente biologiske sammenhenger mellom transkripter kan resultere i høyere statistisk styrke når det oppdages små variasjoner i sine uttrykk nivåer i forhold til tilfelle av enkelt transkripsjoner. Videre, for visse TFS, TF-mRNA-ekspresjon ikke nødvendigvis kan brukes som en proxy for sin aktivitet på proteinnivået, på grunn av post-transkripsjonelle og post-translasjonelle modifikasjoner av TFS [42], [43]. For å løse disse problemene, IntegraMiR vurderer også den kollektive differensial uttrykket av gener, i motsetning til flere prosedyrer fulgt av annet relatert arbeid diskutert tidligere som i hovedsak bygger sine analyser på statistikk innhentet fra enkelt transkripsjoner.

Det tredje trinnet av IntegraMiR bruker resultatene som oppnås ved MHT og GSEA, samt tilgjengelig biologisk kunnskap og sekvensbaserte miRNA mål spådommer, for å identifisere kjente

direkte

regulerte mål av forskjellig uttrykt TFS og mirnas og spådd mål for miRNAs. Ved å ansette den eukaryote TF database TRANSFAC og TF /miRNA regulering database TransmiR, produserer IntegraMiR en liste over forskjellig uttrykt TFS sammen med sine genet mål og regulering type (aktivering eller undertrykkelse) for hvert mål genet. Den produserer også en liste over forskjellig uttrykt TFS sammen med sine forskjellig uttrykt miRNA mål og regulering type for hvert mål miRNA. Legg merke til at vårt valg for bruk av TRANSFAC og TransmiR er basert på det faktum at TRANSFAC gir pålitelig viktig informasjon for regulering type (aktivering /undertrykkelse) av en transkripsjonsfaktor og dens mål-gen (e), mens TransmiR gir viktig informasjon av mikroRNA (e) blir regulert av det. På den annen side, for å identifisere mRNA-mål av differensielt uttrykte mirnas, IntegraMiR anvender miRecords (https://mirecords.umn.edu/miRecords), en integrert sekvens-baserte miRNA target prediksjon verktøyet, så vel som miRTarBase, en database over eksperimentelt validerte miRNA mål. På dette trinnet, produserer IntegraMiR en liste over forskjellig uttrykt mirnas med de tilsvarende sekvens-basert puls spådommer, endret med eksperimentelt validerte mRNA mål fra miRTarBase å bidra til å identifisere ekte-positive og falske negative spådommer ved hjelp tilgjengelig biologisk kunnskap. I denne forbindelse, omfatter IntegraMiR en

prediktiv

modul (utnytte miRecords) og en

ikke-prediktiv modul plakater (miRTarBase) for å utføre denne oppgaven.

Det fjerde trinnet IntegraMiR implementerer en teknikk, som er beskrevet i «Materialer og metoder» -delen, for å konstruere deregulerte løkker av de typer som er avbildet i figur 1 ved hjelp av resultatene som oppnås ved de foregående trinn. IntegraMiR konstruerer følgende tre typer reguleringssløyfer:

(i) en FFL som omfatter en miRNA som samtidig retter seg mot en TF og en mRNA som er direkte regulert av TF

(ii) An. FFL omfatter en TF som direkte regulerer en miRNA og et mRNA som er direkte målrettet av miRNA.

(iii) en reguleringssløyfe som omfatter en miRNA som samtidig retter seg mot to forskjellige gener i en gitt KEGG sti som proteiner kan potensielt samhandle med hverandre basert på en sti kart levert i KEGG database.

å rangere de konstruerte reguleringssløyfer i forhold til deres «betydning», IntegraMiR gjelder en hypotesetesting prosedyren med Fisher metode [44] . Prosedyren benytter Fisher oppsummering testobservator, gitt ved ligning. (2) i «Materialer og metoder» delen, å kombinere MHT-beregnede

P

verdiene tilordnet hver node av loopen i en

P

verdien som brukes som en rangering poengsum for hele loop. Dette gjelder ikke for type III looper, siden disse loops involverer gener og ikke spesifikke mRNA transkripter. Siden de funksjonelle rollene til reguleringssløyfer er forskjellige, IntegraMiR grupper disse sløyfer i fem forskjellige kategorier: Type I sammenhengende FFL, Type I usammenhengende FFL, Type II sammenhengende FFL, Type II usammenhengende FFL, og Type III løkker – se figur 1 2. For å gi ytterligere fleksibilitet i å tolke resultatene, sorterer IntegraMiR Type II FFLs i to forskjellige undergrupper, Type II-A og Type II-B, selv om denne ekstra sortering ikke kan være nødvendig. Innenfor hver gruppe og undergruppe, rangerer IntegraMiR de deregulerte looper ved å øke score, med lavere score tilsvarende høyere «betydning», og fremhever disse løkker oppdaget skal dereguleres på en måte

konsekvent

med den underliggende kant struktur og ekspresjonsdata, som bestemt av reglene som er vist i figur 3 (se også «Materialer og Metoder» -delen). Det markerer dessuten miRNA mål, avhengig av hvorvidt disse målene er forutsagt ved fremgangsmåten eller er blitt eksperimentelt bekreftet i henhold til miRTarBase, eller begge deler. Merk at «konsistens» refererer til det faktum at uttrykket mønstre av noder av en deregulert sløyfe er i samsvar med dets regulerings kant struktur. For eksempel er en type jeg koherent FFL sies å være konsekvent deregulert hvis den består av en oppregulert miRNA og downregulated TF og mRNA, eller en downregulated miRNA og oppregulert TF og mRNA; se figur 3.

Et deregulert sløyfe anses å være

konsekvent

hvis uttrykket mønster av sine noder er i samsvar med sin regulerings kanten struktur. Enhver deregulert sløyfe som ikke tilfredsstiller denne eiendommen sies å være

inkonsekvent

.

IntegraMiR Identifiserer Omfattende Transkripsjonell, Post-transcriptional og signal Deregulering ved PCA

Å undersøke effekten av IntegraMiR for å kartlegge miRNA-mediert reguleringssløyfer, bruker vi mRNA microarray expression data, hentet fra 48 normal og 47 prostata svulst vevsprøver (NCBI GEO database, tiltredelse antall GSE29079), samt miRNA microarray expression data fra matchet normale og kreft vevsprøver, hentet fra 20 individer (NCBI GEO database, tiltredelse antall GSE23022). For mer informasjon om denne data henviser vi leseren til «Materialer og metoder» -delen. Når dataene forbehandling, inkorporerer IntegraMiR Surrogat Variabel Analysis (SVA) [36], sammen med MHT, for å identifisere differensielt uttrykte gener mellom de to forholdene. Det har vist seg at SVA øker den biologiske nøyaktighet og reproduserbarhet av analyser i genom ekspresjonsstudier [36], [37]. IntegraMiR syssels SVA å ta hensyn til biologiske variabilities grunn av molekylære undergrupper kategorisert etter status for TMPRSS2-ERG genet fusjon, som har blitt identifisert i om lag halvparten av alle PCA tilfeller, og er en kritisk tidlig hendelse i utvikling og progresjon av sykdommen [ ,,,0],45] – [47]

IntegraMiR først utfører MHT, ved hjelp av en moderert t-statistikk [48], for å separat identifisere mRNA og mirnas som er forskjellig uttrykt mellom tumor og normale prøver.. Denne analysen identifiserer omfattende transcriptional deregulering i tumor vevsprøver: 7,934 gener (av 17 324) er funnet å være forskjellig uttrykt basert på deres statistisk signifikans, med 164 av disse genene blir overexpressed av en fold endring eller undertrykt av en fold endring – se tabeller S1 S2. Genet listen vi tilveie i Tabell S2 inneholder viktige gener, slik som presenning, MYC, SNAI2 (SLUG), WIF1 og ERG blant andre, som tidligere har blitt karakterisert i PCa.

Analyse av den tilsvarende miRNA uttrykket data av MHT resultater i 18 (av 847) forskjellig uttrykt menneskelige mirnas, som vi lister i tabell 1 (første 18 mirnas) – se også tabell S3. Nylig, dyp sekvensering analyse av miRNA uttrykk profiler identifisert 33 mirnas som blir uttrykt forskjellig i PCA med MIR-375, MIR-200c, MIR-143 og MIR-145 viser den mest uttalt deregulering [49]. Vi sammenlignet IntegraMiR resultatene til de som er oppnådd ved dyp sekvensering. Av de 18 mirnas identifisert av IntegraMiR, 7 mirnas (MIR-200C, MIR-20a, MIR-375, MIR-106a, la-7a, MIR-21, og MIR-106b) har blitt bekreftet å være oppregulert ved dyp sekvensering analyse , mens 2 mirnas (MIR-221 og MIR-145) har blitt bekreftet å være nedregulert. De resterende 9 mirnas identifisert av MHT ble ikke oppdaget av dyp-sekvensering.

I løpet av det andre steget i IntegraMiR, anvendelse av GSEA på genet sett av TF mål hentet fra mSigDB oppdager 37 betydelig deregulert TFS, som er ikke oppdaget av den opprinnelige MHT skritt basert på enkelt gen analyse. Vi lister disse TFS i tabell S4. Interessant, flere av disse TFS (f.eks NKX3-1, SMAD1 /3, SRF, ETV4 og ELK1) er kjent for å spille viktige roller i PCA så vel som i andre typer kreft.

På samme måte søknad av GSEA på genet sett med eksperimentelt validert (med dyp sekvensering analyse) miRNA er rettet mot hentet fra miRTarBase identifiserer 5 betydelig nedregulert mirnas, som ikke oppdages av MHT. Vi lister disse mirnas i tabell 1 (siste fem miRNAs). I begge tilfeller, og for hver TF eller miRNA, GSEA utføres basert på tilgjengeligheten av gensettene i dataene.

Til slutt, bruk av GSEA identifiserer 30 betydelig deregulert signalveier, blant de 186 KEGG signalveier tilgjengelige i mSigDB. Vi lister resultatene i Tabell 2. Blant annet veier, listen inneholder TGF og Wnt signalveier, som har vært involvert i PCa initiering og progresjon. Naturligvis, resultatene har også prostatakreft og Adherens Junction veier. Den siste veien regulerer inter adhesjon som spiller en viktig rolle i epitel-til-mesenchymale overgang (EMT), anses å være et viktig skritt i tumorprogresjon [50], [51].

Legg att eit svar