PLoS ONE: Prioritere Potensielt Druggable Mutasjoner med dGene: En merknad verktøyet for Cancer Genome Sequencing data

Abstract

Et hovedmål for kreft genomsekvensering er å identifisere mutasjoner eller andre somatiske endringer som kan bli målrettet av selektive og spesifikke legemidler. dGene er en merknad verktøy utviklet for å raskt identifisere gener som tilhører en av ti druggable klasser som ofte målrettet i kreft narkotika utvikling. Disse klassene ble grundig befolket av å kombinere og manuelt kuratering data fra flere spesialiserte og generelle databaser. dGene ble brukt av The Cancer Genome Atlas plateepitel kreft prosjekt celle lunge, og her vi demonstrere sin nytte ytterligere hjelp nylig utgitte brystkreft genom sekvense data. dGene er designet for å kunne brukes av alle kreftforsker uten behov for støtte fra en bioinformatikk spesialist. En fullstendig beskrivelse av dGene og muligheter for gjennomføring er gitt her

Citation. Kumar RD, Chang LW, Ellis MJ, Bose R (2013) Prioritere Potensielt Druggable Mutasjoner med dGene: En merknad verktøyet for Cancer Genome Sequencing Data. PLoS ONE 8 (6): e67980. doi: 10,1371 /journal.pone.0067980

Redaktør: Patrick Tan, Duke-National University of Singapore Graduate Medical School, Singapore

mottatt: 27 februar 2013; Godkjent: 24 mai 2013; Publisert: 27 juni 2013

Copyright: © 2013 Kumar et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Økonomisk støtte for dette arbeidet ble gitt av NIH tilskudd R01CA095614 og U01HG00651701 (til MJE) og Edward Mallinckrodt, Jr. Foundation og «Ohana Breast Cancer Research Fund (til RB). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Kreft genom sekvense studier er nå analysere 50 til 500 pasienter per studieplass og dokumenterer tusenvis av somatiske mutasjoner [1], [2]. Nye verktøy for annotering og analyse for å forutsi den funksjonelle relevansen av disse genetiske endringer og veilede påfølgende undersøkelser. Her introduserer vi et verktøy basert på druggable gener som i kombinasjon med andre merknader og filtrering trinn, kan raskt prioritere et stort sett med mutasjoner i et mer fokusert sett som kan testes i funksjonelle studier.

Dette verktøyet , som vi kaller dGene (samling av Druggable Genes), er basert på konseptet av druggable genomet introdusert av Hopkins og brudgommen i 2002 [3]. De identifiserte protein klasser som potensielt kan binde bioteknologiske legemidler og foreslo at sykdomsmodifiserende gener som tilhører en druggable klasse bør prioriteres for legemiddelutvikling [3], [4]. Dette settet med druggable gener var basert på observasjon at FDA godkjente legemidler og forbindelser i utvikling retter seg ikke mot det menneskelige genom jevnt, med noen genet klasser, for eksempel G-protein koblede reseptorer (GPCR) og protein kinaser, blir oftere angrepet av små molekyler.

dGene legger til deres arbeid ved å utvide og oppdatere sett druggable klasser basert på dagens narkotika utviklingsarbeid, fyller klasser omfattende og opprettholde kvaliteten gjennom manuell utvelgelse. I denne artikkelen beskriver vi begrunnelsen og bygging av dGene, demonstrere sin nytteverdi i en nylig utgitt sett med brystkreft hel-genom og hel-exome sekvensdata [2] og gi instruksjoner for bruk dGene.

Resultater

dGene er utformet som en merknad og filtrering verktøy for prioritering mutasjoner for funksjonell vurdering (fig. 1a). Det første trinnet i sin utforming var å velge et sett av genet klasser som er både svært druggable og relevant for kreft biologi. Klassene ble valgt basert på tidligere konturene av druggable genomet [3], [4] og ytterligere undersøkelser av primært litteratur, med særlig vekt på kreft biologi. For eksempel, mens transportører og ionekanaler er allment druggable, de har blitt ekskludert fra dGene på grunn av manglende etablert relevans i tumorigenesis. Den gjeldende versjonen av dGene er bygget rundt ti genet klasser (tabell 1). Vi viser gyldigheten av denne metode ved å undersøke en gruppe av 299 legemidler som gjennomgår kliniske forsøk for lungekreft [5]. Vi har observert at over 60% av disse stoffene rettet mot proteiner som er i løpet av de 10 timer i dGene (Fig. 1b).

A, Druggability fungerer som en rasjonell skjerm på en hypotetisk rørledning for å redusere en rå gen liste for å et eksperimentelt gjennomførbar nummer. B, lungekreft narkotika i rørledningen klassifisert av målet type, med noen målet typer vurderes bredt druggable og inkludert i dGene. C, NHRs krevde en enkel arbeidsflyt. Russ

et al,

2005 og NucleaRDB [6] gitt innspill. Ett gen kartlagt til verken NCBI genet eller synonymer listen. Seks gener ble identifisert i bare én kilde, og ble sjekket manuelt mot Uniprot og Gene ontologi (GO) [9], [10]. Ingen kan bli bekreftet som NHRs, forlater den siste klassen med 48 medlemmer. D, er The utdypet arbeidsflyten for proteaser analogt med de NHRs og andre klasser. Fordi Uniprot fungert som input, konservering involvert søke på primærlitteratur i tillegg til å spørre GO.

Hver av de 10 dGene klasser ble grundig befolket bruker skreddersydd kilder, inkludert spesialiserte databaser og oversiktsartikler. For en gitt klasse, ble resultater fra flere kilder forsonet gjennom NCBI Gene List og oppføringer som er unike for en enkelt kilde ble bekreftet mot databaser som Uniprot eller primærlitteraturen. Nuclear hormonreseptorer (NHR) illustrerer en grei sak med godt kuratert kilder [6] som krever litt ekstra gransking (Fig. 1c). Til sammenligning proteaser kreves en utdypet arbeidsflyt som involverer flere spesialiserte kilder [7] og en større grad av manuell utvelgelse inkludert primær litteratursøk (Fig. 1 D). Den endelige dGene Listen inneholder 2257 gener fra de ti klasser (Tabell 1 og tabell S1), og trekker fra en rekke spesialiserte og generelle kilder [6] – [14]. dGene er helt modulær og utvidbar: tidig informasjon eller genet klasser av interesse kan enkelt legges

dGene filter har nylig blitt brukt av The Cancer Genome Atlas (TCGA) plateepitelkreft lungekreft prosjekt for å analysere somatiske mutasjoner funnet. i 178 squamous celle lunge krefttilfeller; detaljer kan finnes i at offentliggjøring [1]. For ytterligere å illustrere nytten av dGene, valgte vi en fersk genomisk studie av 77 østrogen reseptor positiv brystkreft som en test [2]. Datasettet består av 46 brystkrefttilfeller som gjennomgikk hele genomsekvensering, pluss 31 kreftformer som gjennomgikk exome sekvensering, merket med «BRC» og «CSB» pasient koder, henholdsvis. dGene identifisert 368 single nucleotide varianter (SNV) ut av 2622 totalt som forekommer i 255 druggable gener (Fig. 2a-b). Krever tilbakefall i flere pasienter reduserer genet satt enda lenger (Fig. 2c). De 37 gener som er både druggable og til stede i minst 2 pasienter er angitt i figur 2d. Inndatafilen og dGene utdatafilen fra denne analysen er gitt (tabell S2 og S3).

A, 368 SNVs skjedde i genene anses å være druggable ut av 2622 hendelser totalt. B, 2199 gener som hadde minst ett SNV, av hvilke 255 er vurdert druggable. C, Screening for ofte endrede gener reduserer target liste videre. D, 37 dGene oppføringer presentere i minst to av 77 prøver, organisert av klasse og pasienter berørt.

dGene Resultatene gir ny informasjon om dette kreft genom datasett.

PIK3CA

er mutert i 37/77 prøvene, men en ekstra pasient (BRC44) hadde en KPDL567 i-frame sletting i PIK3R1, et regulatorisk subenhet som binder PIK3CA. Denne slettingen skjer på PIK3R1-PIK3CA bindende grensesnitt og kan endre PI3-kinase signal [15]. dGene antyder viktigheten av denne mutasjonen gjennom både dens forhold til PIK3CA og potensiell druggability. Andre mutasjoner ble likeledes fremhevet; for eksempel,

TEX14

(navn: testis-uttrykte protein 14 eller Sugen kinase 307) og

INSRR plakater (insulin reseptor-relatert reseptor) tyrosin kinaser er to relativt nye narkotika mål. TEX14 har vært innblandet i multippel myelom og brystkreft [16], [17], og INSRR har vært implisert i ovarie epiteliale kreftformer og neuroblastomer [18], [19]. Begge er sannsynligvis druggable, men heller ikke forekom ved høy frekvens, og ble ikke fremhevet i en global analysen av datasettet. For å demonstrere verdien av dGene resultatene ble sammenlignet gjort søkeresultater fra en eksisterende legemiddel database, PharmGKB (The Farmakogenomikk Kunnskaps). dGene identifisert flere gener enn PharmGKB fra denne brystkreft datasettet (Figur S1, tabell S4), inkludert identifisering 4 tyrosin kinaser og 13 S /T kinaser som ble recurrently mutert i disse brystkreft genomer (Fig. 2D).

figur 2d illustrerer også to begrensninger i bruk av dGene. Mutasjoner i

MAP3K1

er funnet i 9/77 pasienter, og de fleste av disse hendelsene er tap av funksjons mutasjoner [2].

MAP3K1

tilstedeværelse i dGene løpsanalyse viser at dGene gir ingen informasjon om hvorvidt en mutasjon er gevinst-of-funksjon, tap-av-funksjon, eller funksjonelt stille. Gitt en liste med genet symboler, dGene fungerer bare som et filter. Tilstedeværelsen av

Titin Hotell og to kollagen gener (

COL28A1 Hotell og

COL6A3

) illustrerer hvordan svært store gener, som ofte inneholder druggable komponenter og har en tendens til å bli hyppig mutert, vil fortsette å filtrere gjennom dGene. Tilstedeværelsen av et gen i dGene produksjonen garanterer ikke en gitt mutasjon biologiske relevans.

dGene kan brukes på alle datasett som inneholder en liste over genet symboler. For å illustrere dette vi analyserte genkopitallet (CN) data fra de 46 østrogenreseptor positiv brystkreft som gjennomgikk hele genomet sekvensering (kodet som «BRC») [2]. Den rå CN data innblandet 19,528 gener gjennom nesten 150 000 arrangementer, blant annet både brennvidde og brede CN endringer. Som et første skjermbildet bare hendelser under 20

th eller over 80

th persentil ble sett (0,7 × og 1,5 × endringer, henholdsvis), forlater 54,301 hendelser på 16,924 gener (tabell S5). Filtrering mot dGene ytterligere redusert settet til 5421 CN endringer i 1752 druggable gener (Figur 3a-c og tabell S6). CN tap i PTEN familien avslørte en ny observasjon (Figur 3d).

TPTE2 product: (navn: trans phosphoinositide 3-fosfatase og tensin homolog to eller TPIP) er den mest vanlige mistet PTEN familiemedlem, med CN tap observert i 14/46 pasienter, som er en frekvens 3,5 ganger høyere enn

PTEN

CN tap (4/46). Litteraturen på TPTE2 er begrenset, og det indikerer at TPTE2 kan hemme cellevekst og initiere apoptose, lik den PTEN tumor suppressor [20], [21], [22]. Denne romanen funn av TPTE2 CN tapet ble identifisert fordi dGene fremhever sammenhengen mellom PTEN familiemedlemmer fra en stor kandidat CN endring satt.

A, 5421 CNVs ble oppdaget i 1752 druggable gener på tvers av prøven. Den 20

th (0,7 ×) og 80

th (1,5 ×) persentiler fungerte som tidsavgrensninger. B, Gevinst bare ( 1,5 ×). C, Tap bare ( 0,7 ×). D, Vise PTEN familie CNV verdier.

TPTE2

er den hyppigst endret. Cutoffs er avslappet til 0,85 × og . 1.15 × for visning formål

Diskusjoner

Vi har utviklet en oppdatert versjon av druggable genomet ved å identifisere høyt druggable genet klasser, fyller klassene bruker up-to-date og spesifikke ressurser, og manuelt bekrefte resultatene. Vår samling av druggable gener, dGene, er skreddersydd for bruk mot mutasjon lister generert av kreft genomsekvensering, selv om det kan brukes til å analysere eventuelle menneskelige genet listen. Vi har også vist at i kombinasjon med flere filtreringskriterier, kan dGene raskt markere mutasjoner i biologisk og klinisk plausible terapeutiske mål.

Begrensninger av dGene er at det er forutinntatt mot den «onkogen avhengighet» modell for kreft og mot målene for godt beskrevet, små molekyl narkotika. Mens dGene foreløpig ikke inneholder gener involvert i DNA-reparasjon, celleoverflateproteiner, eller andre potensielle narkotika mål, er flere klasser enkelt innlemmes grunn dGene sin modularitet. dGene også gjør ingen forsøk på å identifisere mutasjoner som enten tap eller vinning av funksjon; men kan dGene kombineres med funksjonelle slag score (for eksempel sile eller Mutation Assessor) for å identifisere mutasjoner som er sannsynlige druggable og sannsynligvis funksjonell [23], [24]. dGene er ment som en discovery fasen verktøy for å styre eksperimenter mot gener mot der små molekyl hemmere kan fort bli utviklet.

Som med alle databaserte ressurser, oppdatere dGene vil være av største betydning. dGene klasser pleier å være godt studert, som illustrert ved det faktum at 2108 av 2257 oppføringer kan bli funnet i SwissProt, et manuelt anmeldt samling av protein kommentarer [9]. Derfor forventer vi dGene å være ganske stabil, og er forpliktet til å gi årlige oppdateringer. Videre fordi dGene er lett utvides, kan vi lett integrere nye genet klasser som kunnskap om kreft biologi fremskritt og ekstra genet klassene er målrettet.

dGene er designet for å brukes av kreftforskere og ikke trenger støtte fra en bioinformatikk spesialist. dGene er for tiden vert som en web-basert verktøy gjennom Genome Institute ved Washington University (dgidb.genome.wustl.edu). Der kan brukerne filtrere genet lister mot dGene (via «Søk Kategorier» side, eller laste ned hele dGene tabulatordelt tekstfil (via «Downloads» side), som kan importeres inn i ulike statistiske pakker og brukte eller tilpassede som nødvendig. Ekstra funksjonalitet på nettsiden inkluderer kommentere dGene oppføringer med spesifikke legemiddelinformasjon der dette er tilgjengelig (M. Griffith og OL Griffith, manuskript under forberedelse). Oppsummert gir dGene en rask filter for å identifisere druggable gener over ti klasser fra kreft genomiske studier og er for tiden tilgjengelig for bruk gjennom et profesjonelt konstruert nettside.

Metoder

Fylle Gene Classes

Klassene ble befolket med menneskelige gener gjennom en prosess med inkludering av spesialiserte databaser og anmeldelser , standardisering til genet listen NCBI og manuell utvelgelse av gener oppstod i en enkelt kilde. Figur 1c og 1d skildre prosessen fullt for atomhormonreseptorer (en enkel case) og proteaser (en kompleks sak), mens tabell 1 skisserer settet av spesialiserte kilder brukes for hver klasse. Anmeldelser og databaser ble identifisert ved litteratursøk og kan ikke være uttømmende. Manuell konservering av gener slått av bare én kilde sikret gener ble riktig klassifisert. For klasser hvor Uniprot /Gene ontologi ikke var nødvendig som inngangskilder, ble en enkel sjekk mot Uniprot /GO klassifisering utført. I de tilfeller hvor Uniprot /GO ble gitt som innspill til klasse (som var tilfellet for proteaser), ble inspeksjon av den refererte litteratur og sekvenssammenstillingen utføres.

Under manuell utvelgelse, skjevhet var mot inkludering. Gener ble igjen i sine respektive klasse hvis de enten viste sekvenshomologi med et kjent medlem, eller hvis eksperimentelle bevis antydet at de hadde den aktuelle funksjonalitet. Pseudo og gener som koder for ikke-funksjonelle produkter ble inkludert hvis de viste homologi til en inkludert gruppemedlem.

En hyppig utfordring i å konsolidere ulike kilder var blanding av inkompatible gen- og protein identifikatorer. Kartlegging til NCBI menneskelige Gene List (url: ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz, åpnes den 3. juli, 2012) tilrettelagt sammenligninger mellom kilder. NCBI menneskelige genet liste representerer den totale samling av menneskelige gener innregnet i NCBI data base samt gjeldende merknader, og er oppdatert på en daglig basis. NCBI genet Listen gir et standardformat for alle dGene oppføringer -15 kolonner, inkludert NCBI geneID, offisielle symbol, og avgjørende, en liste over synonymer brukt i litteraturen. Til hver oppføring en 16

th kolonne, klasse, er vedlagt. Kartleggingen ble gjennomført ved å konvertere protein navn til genet navn med David Gene ID Tool [25], og ved å søke i listen over synonymer gitt i NCBI filen etter ord som ikke vises som en offisiell symbol.

Bruk av dGene til 77 Breast Cancer Prøver

Den rå mutasjon merknader analysert i dette arbeidet benyttes up-to-date genet ID-numre. Mutasjoner i gener som også vises i dGene ble filtrert til en egen tabell, og klassen begrep fra dGene ble lagt til som en ny kolonne. Aggregering til pasient og klasse er tillatt for produksjon av figur 2a. Aggregering til pasient og genet som var nødvendig for fremstilling av figur 2b-d. Den rå CN data ble analysert på samme måte, med resultatene beskrevet i Figur 3.

Software

Analysen ble utført i R 2.15.1 for Windows. Heatmaps ble produsert i R ved hjelp av grunnpakken, mens ytterligere figurer og tabeller ble produsert med Microsoft Excel og PowerPoint.

Hjelpemiddel Informasjon

Figur S1.

doi: 10,1371 /journal.pone.0067980.s001 product: (PDF)

Tabell S1.

doi: 10,1371 /journal.pone.0067980.s002 plakater (CSV)

Tabell S2.

doi: 10,1371 /journal.pone.0067980.s003 plakater (XLS)

tabell S3.

doi: 10,1371 /journal.pone.0067980.s004 plakater (XLS)

Tabell S4.

doi: 10,1371 /journal.pone.0067980.s005 plakater (XLS)

Tabell S5.

doi: 10,1371 /journal.pone.0067980.s006 plakater (XLS)

Tabell S6.

doi: 10,1371 /journal.pone.0067980.s007 plakater (XLS)

Takk

Forfatterne takker Obi Griffith, Malaki Griffith, Robert Pufahl, Li Ding, og Rob Mitra for nyttige diskusjoner og kritisk lesning av dette manuskriptet. Forfatterne tillegg takker Malaki Griffith og Obi Griffith for å gi tilgang til dGene gjennom dgidb.genome.wustl.edu.

Legg att eit svar