PLoS ONE: Concordance av genekspresjon og funksjonelle korrelasjonsmønstrene over NCI-60 cellelinjer og Kreft Genome Atlas Glioblastoma Samples

Abstract

Bakgrunn

NCI-60 er et panel av 60 ulike humane kreftcellelinjer som brukes av det amerikanske National Cancer Institute for å screene forbindelser for anticancer aktivitet. Vi har nylig gruppert gener basert på korrelasjon av uttrykk profiler på tvers av NCI-60. Mange av de resulterende klyngene ble karakterisert ved kreft-assosiert biologiske funksjoner. Settet med kuratert glioblastom (GBM) genekspresjon data fra Kreft Genome Atlas (TCGA) initiativ har nylig blitt tilgjengelig. Derfor er vi nå i stand til å finne ut hvilke av prosessene er robust deles av både udødeliggjort cellelinjer og kliniske kreftformer.

Resultater

Vår sentrale observasjon er at noen sett med høyt korrelerte gener i de NCI-60 expression data er også sterkt korrelert i GBM ekspresjonsdata. Videre, en «dobbelt fiske» strategi identifisert mange sett av gener som viser Pearson korrelasjon ≥0.60 både i NCI-60 og GBM datasettene relativt til en gitt «agn» genet. Antallet slike gensettene er langt høyere enn antall forventede ved en tilfeldighet.

Konklusjon

Mange av de gen-genet korrelasjoner finnes i NCI-60 reflekterer ikke bare forholdene i cellelinjer in kultur; heller, reflektere de prosesser og gen nettverk som også fungerer

in vivo

. En rekke gen nettverks korrelasjoner samtidig forekommer i NCI-60 og GBM datasett, men det finnes andre som forekommer bare i NCI-60 eller bare i GBM. I sum denne analysen gir et nytt perspektiv på både nytte og begrensningene til NCI-60 for å fremme vår forståelse av kreft

in vivo

Citation. Zeeberg BR, Kohn KW, Kahn A, Larionov V, Weinstein JN, Reinhold W, et al. (2012) Concordance av genekspresjon og funksjonelle korrelasjonsmønstrene over NCI-60 cellelinjer og kreft Genome Atlas glioblastom Samples. PLoS ONE syv (7): e40062. doi: 10,1371 /journal.pone.0040062

Redaktør: Javier S. Castresana, Universitetet i Navarra, Spania

mottatt: 11 april 2012; Godkjent: 31 mai 2012; Publisert: 26.07.2012

Copyright: © Dette er en åpen-tilgang artikkelen, fri for all opphavsrett, og kan bli fritt reproduseres, distribueres, overføres, endres, bygd på, eller brukes av alle for ethvert lovlige formål. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne forskningen ble støttet delvis av egenutført Research Program av National Institutes of Health, National Cancer Institute, Senter for Cancer Research. Arbeidet med JNW ble støttet delvis av Grant Number U24CA143883 fra National Cancer Institute (UT-MD Anderson TCGA Genome Data Analysis Center), av en gave fra H.A. Mary K. Chapman Foundation, og med et stipend fra Michael Susan Dell Foundation hedre Lorraine Dell. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:. En forfatter, Dr. Ari Kahn, er tilknyttet et kommersielt selskap SRA International Inc . Dette ikke endrer forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer.

Innledning

NCI-60 [1] er et panel av 60 humane kreftcellelinjer brukes av Therapeutics Program Developmental (DTP) av det amerikanske National Cancer Institute for å skjerme 100.000 forbindelser pluss naturlige produkter siden 1990. NCI-60 panel omfatter kreft i tykk- (CO), renal (RE), eggstokkene (OV), prostata (PR), lunge (LC), bryst (BR), og sentralnervesystemet (CNS) opprinnelse, samt leukemi (LE) og melanomer (ME). Vi og våre mange kolleger rundt om i verden har profilert NCI-60 mer omfattende på DNA, RNA, protein, mutasjon, funksjonelle og farmakologiske nivåer enn noen annen panel av ulike celletyper i tilværelsen. De NCI-60 data har blitt mye brukt i kreftforskning og bioinformatikk, men flere datasett kan være mest informative for godkjenning av komplekse «biosignatur» (en «BioSignature «innebærer et ensemble av gener der funksjonene er logisk). Analyse av slike biosignatur har ført til økt forståelse av celle fenotyper og pathway relasjoner.

Når vi nylig gruppert gener basert på korrelasjon av uttrykk profiler på tvers av NCI-60 [2], mange av klyngene ble assosiert med kreft -relaterte biologiske funksjoner. Antallet slike clustere langt overgikk hva som ville forventes ved en tilfeldighet. En av klyngene, betegnet som «klynge 52 av 160-cut», var omfattet av vesentlige kategorier som vanligvis reflekterte neuron utvikling, immunrespons, og epitelial til mesenchymale overgang (EMT) i tillegg til cellemigrering. I kontrast, ble klynge 68 av 160 snitt fokusert sterkt på en enkelt biologisk prosess, nemlig immunforsvar.

I full størrelse tall foreligger som Tall S1 og S2. Tallene vedlagte etter genet navn refererer til NCI-60 klynge der genet dukket opp.

En tidligere studie [3] sammenlignet genuttrykk profiler mellom cellelinjer og prøver bryst svulstvev. Forfatterne bemerket at: «cellelinjer og svulster dele mange aspekter av deres genuttrykk mønstre som kan relateres til normal og patologisk fysiologi som skiller brystcelletyper

in vivo

. Disse gensettene inkluderer 1) basal epithelial klyngen, 2) luminal epitel /ER + klynge, 3) erbB2 + fragment klynge, 4) spredning klyngen, og 5) interferon klyngen. «

kreft~~POS=TRUNC celler~~POS=HEADCOMP i kultur er underlagt helt andre forhold enn kreftceller i verten. De har blitt fjernet fra deres fysiologiske miljøet i andre celletyper, vev arkitektur, hormonelle påvirkninger, og auto /paracrine signaler. Så spørsmålet forble. «Hva betyr et slikt mønster av foreningen i cellekultur fortelle oss om kreftceller in vivo»

For å utforske dette spørsmålet, vi analyserte svært kuratert glioblastom (GBM) transkripsjon uttrykk datasett generert av The Cancer Genome Atlas (TCGA) initiativ [4]. TCGA ble etablert for å bygge en omfattende katalog av genomisk og fenotypiske avvik som driver kreftutvikling og potensielt påvirke terapi i 20 ulike krefttyper. Spesielt har TCGA nå gitt en detaljert visning av genomiske avvik i en GBM kohort bestående av 206 pasientprøver. Verhaak og Hoadley

et al.

[5] nylig beskrevet en genekspresjon basert molekylær klassifisering av GBM i Proneural, Neural, Klassiske og Mesenchymale subtyper og integrert flere typer genomiske data for å etablere mønstre for somatisk mutasjon, DNA kopiantall endring, og genekspresjon.

i denne analysen har vi testet om sett av gener som vi tidligere har funnet for å være (1) svært co-uttrykt over NCI-60, og (2) funksjonsmessig sammenhengende var også svært ko-uttrykt på tvers av GBM prøvene. Vi deretter utvidet at grunnleggende analyse av en «dobbel fiske» strategi. Det vil si at vi identifisert sett av gener som viste korrelasjon ≥0.60 både i NCI-60 og GBM datasettene relativt til en gitt «agn» genet. Vi fant at antallet slike gensettene langt oversteg antallet forventes ved en tilfeldighet. Det analyse betyr ikke at kreftceller i kultur aksje hele tatt, eller de fleste, av sine egenskaper med celler in vivo, men det indikerer likheter.

Metoder

datasett

for GBM uttrykk data, filer

unifiedScaled.txt plakater (som inneholder et komplett sett med uttrykks data, referert til som

TCGA.GBM.complete

)

TCGA_unified_CORE_ClaNC840.txt plakater (som inkluderer subtype kodene for hver prøve) ble lastet ned fra TCGA nettstedet https://tcga-data.nci.nih.gov/docs/publications/gbm_exp/.

Vi brukte alle 202 GBM prøvene som er tilgjengelige, som representerer omtrent sammenlign antall prøver av hver subtype. Siden de beregnede korrelasjonsverdiene vil være mer nøyaktig hvis de kommer fra et mer variert utvalg befolkning, ønsket vi å beholde så mye mangfold som mulig ved å se på alle undergrupper sammen, slik at vi ikke rapportere co-uttrykk innenfor eller mellom subtyper.

i full størrelse tall foreligger som tall S3 og S4. Tallene vedlagte etter genet navn refererer til NCI-60 klynge der genet dukket opp.

I full størrelse CIM er tilgjengelig som figur S5. Genet navnet som kolonneoverskriften er representant for en liste av gener. Den fullstendige listen over gener er tilgjengelig i HTGM Download S1.

NCI-60 expression data ble hentet fra CellMiner [6]. Bestemmelse av kompositt ekspresjonsnivåer for hver genet ble utført som beskrevet tidligere [7] – [9]. En spesiell forespørsel ble gjort til systemadministrator for komplett sett av genuttrykk profiler (referert til som

NCI-60.complete

). Det nedlasting ville ha vært for stor til å utføre gjennom den vanlige web-grensesnitt. Ytterligere detaljer er gitt i [2]). Kort,

NCI-60.complete

var pre-prosessert ved å velge bare de genene som har både en HGNC symbol og merknader i GO biologiske prosessen ontologi. Hvert gen profil vektor ble skalert til null middelverdi og enhet varians. Det reduserte datasettet er referert til her som

NCI-60.BP.

Som nevnt ovenfor for GBM prøver, vi prøver å oppnå en så høy grad av mangfold som mulig i cellen linjer, slik at den svært heterogen blanding av cellelinjer representert ved NCI-60 er ideell. For illustrasjon, vurdere to gener. Vi er ute etter å se om uttrykket nivåer av disse to genene gå opp og ned sammen som vi krysser 60-cellelinjer. Hvis alle cellene linjene var i hovedsak identisk med hverandre, ville det ikke være noe variasjon, og vi kunne ikke se hvordan de to genene forholde seg på forskjellige forhold.

For de fleste av de rapporterte her studier, uttrykket data for GBM og for NCI-60 ble begrenset til de genene som var til stede i begge

TCGA.GBM.complete Hotell og

NCI-60.BP

.

R språk

R språkkode [10] ble utviklet for å lese og integrere data i de to nedlastede filer, samt å gi støtte for både grunnleggende og mer komplekse spørringer [

f.eks

, automatisk finne sett med gener som oppfyller visse vilkår med hensyn til både NCI-60 og GBM og deretter generere et relevant rekke uttrykk eller korrelasjons gruppert bildekart (Cims)]. Historisk Cims ble først introdusert i [11], [12].

Studier betinget på Pre-eksisterende sammenhenger på tvers av NCI-60

Det sentrale spørsmålet vi adressert her var hvorvidt gener som co -clustered med hensyn til sine uttrykk profiler på tvers av NCI-60-celler også co-gruppert med hensyn til sine uttrykk profiler på tvers av GBM prøvene. For å lette den analysen, tok vi nytte av R språkfunksjonen

cutree ()

. En viktig parameter i

cutree ()

er «k» antall klynger der klyngen treet skal fordeles. I cluster 52 og cluster 68 studier (

vil si.,

Sett av gener som er rapportert i [2]), foreløpige studier viste at k = 2 var optimal for NCI-60 expression klynger. Hvert slikt gen sett hadde blitt hentet fra en gruppering studie ved hjelp av en absolutt sammenheng beregning, og derfor hadde to store skilleveg (

f.eks.

, Figur 1A, S1). De to skilleveg er betegnet som «cluster 1» og «cluster 2», og er avgrenset med antall tilføyd til hvert gen navn på høyre side av CIM. Genene innenfor en enkelt partisjoner er innbyrdes positivt korrelert, og alle gener i klynge 1 er negativt korrelert med alle gener i klynge 2. Vi i dagligtale refererer til større klynge (i tilfellet med figur 1A, S1, ville dette være klynge 2) som «positivt korrelerte» gener og de mindre klyngen som «negativt korrelert» gener. I motsetning til k = 2 til NCI-60, var det ingen

a priori

grunnlag for å velge en bestemt verdi av k for gruppering på tvers av GBM, så vi tillates k for GBM å variere fra 2 til og med 8.

for å finne den optimale verdien av k, bygget vi en 2 × k beredskaps tabellen (

f.eks, etter tabell 1), hver celle

i, j som inneholder antall gener som er begge i jeg

th klynge av NCI-60 clustering og j

th klynge av GBM clustering. Vi beregnet en Fishers eksakte p-verdi for nullhypotesen at en fordeling like ekstrem som den observerte fordelingen kunne ha skjedd ved en tilfeldighet. I tillegg, randomisert vi genet navnene mellom utføre en av NCI-60 og GBM clusterings, for å bestemme om de observerte Fishers eksakte p-verdi kunne oppnås for en tilfeldig gen sett.

De novo Identifikasjon av Sett av gener med korrelasjon ≥0.60 Across både NCI-60 og GBM

uten henvisning til noen før clustering analyse, konstruert programmet

de novo

en liste over alle par av gener som har sammenheng ≥0.60 med hensyn til både NCI-60 og GBM uttrykk profiler. Terskelen på 0,60 ble valgt for beregningene fordi det hadde vært brukt i en tidligere studie av gen-genet korrelasjoner for å minimere antallet av falske positiver. Gener ble rangert med hensyn til hyppighet av utseende i denne listen. Hvert gen «G» med frekvens ≥5 ble så brukt til å «representere» sett av gener som viste sammenheng ≥0.60 med G. topp rangering G-genet ble VAR (49 gener hadde sammenheng ≥0.60 med vrangen). Mange av de gener listene konstruert av denne fremgangsmåte var svært overflødig i forhold til hverandre (

d.v.s..

, Kan par av lister har mange gen i vanlig). For å lindre redundans problem, vi beregnet den Jaccard likheten metriske (den Jaccard koeffisient tiltak likhet mellom prøvesett, og er definert som størrelsen på krysset delt på størrelsen av unionen av prøvesett [13]) vi eliminert svært overflødig (Jaccard verdi ≥0.90; 0,90 var fast bestemt på å være optimal i foreløpige studier ikke vist her) gensettene fra videre analyse. Således har vi brukt et mindre redundant sett av 68 gensettene (fra en innledende valg av toppen (eventuelt overflødig) 100 gensettene) for analysen.

Vi ønsket å bestemme om antallet av par av gener ha sammenheng ≥0.60 både med hensyn til NCI-60 og GBM uttrykk profiler skredet antallet forventes ved en tilfeldighet. Vi utførte derfor et sett av 10 studier der vi randomiserte gensenavnene i GBM uttrykk profiler. Antallet slike par som oppnås i den virkelige undersøkelsen var 2708. I motsetning til tallet i randomisering studiene var liten i sammenligning (193 ± 14).

Funksjonell Kategorisering

Funksjonell kategorisering av genet listene ble utført ved hjelp av høy gjennomstrømming GoMiner (HTGM) program [14]. Parametrene som brukes i å kjøre HTGM er oppført i tabell S1.

Gruppert Bilde Maps

Vi brukte enten Genesis clustering programmet [15] eller vår egen in-house R språkkoden for å konstruere Cims present her.

diskusjon

Resultater og studier forutsetter Eksisterende sammenhenger på tvers av NCI-60

Vi har nylig gruppert gener basert på korrelasjon av uttrykk profiler på tvers av NCI-60 [2 ]. Mange av disse klyngene ble preget av kreft-assosiert biologiske funksjoner.

Ved å bruke uttrykket profiler for klyngen 52 gener på tvers av NCI-60 cellelinjer og også på tvers av GBM prøvene, vi var i stand til å generere uttrykk korrelasjon Cims over begge disse settene med uttrykk profiler (figur 1A, S1, 1B, S2). De forskjellige mønstre av rødt og grønt i NCI-60 korrelasjon CIM (figur 1A, S1) resultater fra det faktum at klyngen 52 hadde blitt avledet av de clustering ekspresjonsprofiler i NCI-60-cellelinjer ved hjelp av en absolutt korrelasjon metrisk. Således er klynge 52 sammensatt av «negativt» og «positivt» korrelert undergrupper. Ikke overraskende mønstre av rød og grønn er mindre tydelig i GBM korrelasjonen CIM (Tall 1B, S2), siden klynge 52 hadde blitt definert i forhold til NCI-60, ikke GBM, uttrykk mønstre. Selv om mindre tydelig enn for NCI-60, er det GBM mønster høyt korrelert med mønsteret for NCI-60. Dette forholdet er tydelig ved visuell inspeksjon. Den kvantitative analysen nedenfor bekrefter det visuelle inntrykket.

I sammenhengen Cims, vi føyd et tall (en eller to) til genet navn, tilsvarende medlemskap i de to store klynger i NCI-60 CIM. De samme tallene ble beholdt i genet navn for GBM CIM å tillate identifisering av klyngen som at genet tilhørte i NCI-60 CIM. Mønsteret for clustering i GBM korrelasjonen CIM (Tall 1B, S2) er markert lik som i NCI-60 CIM. Det observasjon viser at noen genet co-uttrykk mønstre i NCI-60 humane tumorcellelinje panel er bevart i klinisk glioblastom, og støtter vår hypotese som NCI-60 genekspresjon korrelasjoner kan indikere allment gjeldende gen-gen-relasjoner.

Mer presist, Tabell 1 viser at det er 15 gener i klynge 1 og 64 gener i klynge 2, i forhold til NCI-60 ekspresjon profil. Tretti-fire av de 64 cluster 2 gener er de dominerende medlemmene av GBM klynge 2. De resterende NCI-60 cluster 2 gener er fordelt over GBM klynger 1 og 3. samsvar mellom clustering mønstre i NCI-60 og GBM er svært signifikant (Tabell 2). The Fishers eksakte p-verdi for k = 3 (0,00039) er påfallende lavere enn for de randomiserte kontroller (0,46 ± 0,28). Videre det store flertallet av de gener som ble gjensidig korrelerte eller anti-korrelerte i NCI-60 bevart at forholdet i vevsprøver GBM. Identiteten til de aktuelle genene er vist i tabell 3.

Et bemerkelsesverdig funn er at nesten halvparten av genene i GBM cluster 2 (figurene 1B, S2) er gener som tidligere ble funnet å være involvert i celleadhesjon /migrasjon og for å danne en gjensidig høy korrelasjon undergruppe av klyngen 52 gener [16]. Dessuten ble disse genene syntes å fungere sammenhengende i et bestemt aspekt av cellemigreringsprosessen. Med unntak av Alcam og EGFR, den celleadhesjon /migrerings tett klynge gener falle innenfor GBM klynge 2. Seksten av tjuefire gener som tett klynge faller inn GBM klynge 2. Således, et sett av gener som tidligere er funnet å være nært beslektet både genekspresjon og funksjon i NCI-60 cellelinjer [2], er [16] nå funnet å være co-uttrykkes også i kliniske glioblastom prøver.

for å undersøke andre mulige eksempler på sammenhengen mellom genuttrykk klynger i NCI-60-cellelinjer og GBM eksempler, vi gjentok denne analysen med immunsystemrelaterte klynge 68 gener [2] (tabellene 4-6; figur 2A, S3, 2B, S4). Igjen, Fishers eksakte p-verdi (0,00001) (tabell 5) validerer det visuelle inntrykk av at det er en betydelig samsvar mellom NCI-60 og GBM clustering.

De novo Identifikasjon av Sett av gener med korrelasjon ≥0.60 Across både NCI-60 og TCGA GBM

det var 34,865 genpar med korrelasjon ≥0.60 i NCI-60 datasett, men ikke i GBM, 87556 i GBM, men ikke i NCI-60, og 2708 både i NCI-60 og GBM. Den høyest rangerte gen av 2708 var BLE; 49 gener viste sammenheng ≥0.60 med WAS. Av de 100 gener (

dvs.

, gener med flest sammenhenger ≥0.60), 68 var ikke-redundante (

dvs.

, listene over samkjøre gener hadde Jaccard verdi ≤0.90) . Funksjonell kategorisering av de 68 gen lister ved høy gjennomstrømming GoMiner (HTGM) avslørte et komplekst sett av betydelige kategorier (figur 3, S5). Antallet av gener og de generaliserte funksjons korrelasjoner for de beste 68 ikke-redundante gensettene er oppført i tabell 7. Som det fremgår av tabell 7, immun kategorier dominerte, men tabell 7 og figur S5 viser at det var også kategorier som representerer

f.eks

apoptose, chemotaxis, DNA-reparasjon, kromatin montering, angiogenese, og heft.

de genene i klyngen 52 eller cluster 68 hadde blitt oppnådd ved tidligere gruppering av genuttrykk profiler på tvers av NCI-60 celle linjer, men ikke på tvers av TCGA GBM prøver. Vi forventer å finne at noen av de

Novo

genet lister avledet fra simultan behandling av både NCI-60 cellelinjer og TCGA GBM prøvene kan overlappe med gener i klyngen 52 eller cluster 68 genet lister. Faktisk viser tabell 7 at genene i enkelte av de

de novo

genet lister overlappet med genene i NCI-60 klynger 52 (celle migrasjon) og 68 (immun). En slik overlapping er spesielt sterk for klyngen 68.

Denne analysen viser hvordan sterke gen-gen korrelasjoner og funksjonell kategorisering (

ie., Etter GO oppdrag) oppnådd for NCI-60 cellelinjer tvers av tumortyper kan reflektere

in vivo

relasjoner. Den viser også begrensninger av slik likhet. De to typer prøvesettene representerer viktige initiativer fra National Cancer Institute (NCI), både når det gjelder utgifter og investering i forskning. Derfor, en avgrensning av likheter og forskjeller er fortsatt et tema av stor praktisk betydning.

Hjelpemiddel Informasjon

Figur S1.

Full versjon av figur 1A

doi:. 10,1371 /journal.pone.0040062.s001 product: (PDF)

Figur S2.

Full versjon av figur 1B

doi:. 10,1371 /journal.pone.0040062.s002 plakater (TIF)

Figur S3.

Full versjon av figur 2A

doi:. 10,1371 /journal.pone.0040062.s003 product: (PDF)

Figur S4.

Full versjon av figur 2B

doi:. 10,1371 /journal.pone.0040062.s004 product: (PDF)

Figur S5.

HTGM GÅ kategorier

versus

genet satt CIM for sett med gener med korrelasjon ≥ 0,60 samtidig i både NCI-60 og TCGA GBM

doi:. 10,1371 /journal.pone.0040062.s005

(PNG)

Tabell S1. Bedrifter Den brukes i rennende parametere HTGM

doi:. 10,1371 /journal.pone.0040062.s006 plakater (JPG)

ned S1.

Zip arkiv av HTGM resultater

doi:. 10,1371 /journal.pone.0040062.s007 product: (ZIP)

Takk

Vi ønsker å takke Dr. Roel GW Verhaak for nyttige diskusjoner om TCGA datasett.

Legg att eit svar