PLoS ONE: Next-Generation Sequence Analysis of Cancer xenograft modeller,

Abstract

Neste generasjons sekvensering (NGS) studier i kreft er begrenset av mengden, kvalitet og renhet av vevsprøver. I denne situasjonen har primære xenotransplantater vist seg nyttige prekliniske modeller. Men tilstedeværelsen av muse-deriverte stromale celler representerer en teknisk utfordring til deres bruk i NGS studier. Vi undersøkte dette problem i et etablert primær xenograft modell av småcellet lungekreft (SCLC), en ondartet sykdom ofte diagnostisert fra små biopsi eller nål aspirer prøver. Ved hjelp av en

i silico

strategi som tildeler leser henhold til arts av opprinnelse, vi prospektivt i forhold NGS data fra primær xenograft modeller med tilpasset cellelinjer og med publiserte datasett. Vi viser her at lav dekning av hele genomanalyse viste bemerkelsesverdig samsvar mellom publiserte genomdata og den interne kontrollen, til tross for tilstedeværelsen av muse-genom-DNA. Exome fangst sekvensering viste at dette berikelse prosedyren var svært artsspesifikke, med mindre enn 4% av leser samkjøre til musegenomet. Human-spesifikke uttrykk profilering med RNA-Seq replikeres arraybaserte genuttrykk eksperimenter, mens mus-spesifikke transkripsjons profiler korrelert med publiserte datasett fra menneskelig kreft stroma. Vi konkluderer med at primær xenografter representerer en nyttig plattform for komplekse NGS analyse innen kreftforskning for svulster med begrensede ressurser sample, eller de med fremtredende stromal celle populasjoner

Citation. Rossello FJ, Tothill RW, Britt K, Marini KD , Falzon J, Thomas DM, et al. (2013) Next-Generation Sequence Analysis of Cancer xenograft modeller. PLoS ONE 8 (9): e74432. doi: 10,1371 /journal.pone.0074432

Editor: William B. Coleman, University of North Carolina School of Medicine, USA

mottatt: 29 april 2013; Godkjent: 01.08.2013; Publisert: 26.09.2013

Copyright: © 2013 Rossello et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Midler til dette arbeidet ble gitt av National Health and Medical Research Council of Australia (Prosjekt Grant 546 204), den viktorianske regjeringen Operational Infrastructure Support Program, og den viktorianske Cancer Agency. Finansiering for åpen tilgang gebyr: Victorian Cancer Agency. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:. Mr. Erwin Tantoso er ansatt hos Partek SG Pte. Ltd. ikke endrer forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer. De andre forfatterne avslørt ingen potensielle interessekonflikter.

Innledning

Selv om anvendelsen av NGS teknologi til kreftforskning har ført til dramatiske fremskritt i forståelsen av genomisk grunnlag av disse sykdommene, dybden og kompleksiteten av sekvensering av data er negativt korrelert til mengden og kvaliteten av tumor prøven ble brukt til analysen [1]. I tillegg er mange vanlige tumorer, så som kreft i bukspyttkjertelen, kjennetegnet ved omfattende infiltrasjon av stromale elementer, for derved å redusere deteksjonsgrensen for sjeldne, kreftspesifikke varianter [2]. Som et resultat av vanlige kreftformer diagnostisert med små biopsier er vesentlig underrepresented i NGS studier, som baserer seg hovedsakelig på kirurgisk-resekterte vevsprøver.

En tilnærming for å overvinne dette problem er bruken av primær xenograft-modeller, hvor liten vevsprøver kan være direkte podet, ekspandert og dyrket in immunodeficient mus uten eksponering for konvensjonelle vevskulturbetingelser [3]. Selv om tumorceller holdes i immunodefekte mus, vi [4] og andre [5] – [7], har vist at de beholder viktige trekk ved den primære svulst som, viktigere, er irreversibelt går tapt i cellekultur [2], [ ,,,0],4]. Dessuten, til tross for det faktum at den stromal komponenten er mus-avledet, primære xenograft-modeller har blitt brukt for den prekliniske undersøkelser av en rekke celleautonome og stromal avledet signalanlegg av terapeutisk relevans for kreft [7].

Basert på disse dataene, kan primær xenografter representere en nyttig plattform for NGS analyse når kreftvev er begrensende. Ding

et al.

[8], i en studie som forsøkte å identifisere somatiske mutasjoner og strukturelle varianter av basal-lignende brystkreft, anslått av patologi teknikker svulsten sammensetningen deretter beregne og justere svulsten lese nummeret. Basert på patologi estimater, forfatterne bruke en deterministisk korreksjon for forurensning av svulsten ved normale leste teller, noe som påvirker mutant allel frekvens, og har brukt den til primærtumor og metastase prøver bare. Det ble antatt at på grunn av den lave kartlegging frekvensen av vertsspesifikke leser å pode genomet ble ingen lese- dybde korreksjon er nødvendig for å xenograft prøven.

Etter vårt syn tilstedeværelsen av forurensende musen DNA og RNA påvirker sensitivitet og spesifisitet av NGS analyse i disse tumormodeller som ikke skal baseres på cellularity estimater, men bør være nøyaktig og systematisk opp. I tillegg, siden de fleste aktuelle NGS teknikker bruke hagle-sekvensering metodikk, oppløsning av enhver potensiell gjenstanden kan utføres

post-hoc

under bioinformatiske analyser, som utvetydig identifiserer arter opprinnelses leser. Dette problemet er tidligere diskutert for ultra high-throughput cDNA sekvensering (RNA-Seq) ved Conway

et al. Product: [9] og Raskatov

et al.

[10], som fant variabel mengder av host-avledet sekvense leser. Her har vi prospektivt analysert av kapasiteten til en

i silico

arbeidsflyt utviklet for å definitivt tildele arts av opprinnelse til NGS leser i flere tidligere karakteriserte primære og cellelinje-avledet xenograft modeller av SCLC, og sammenlignet disse resultatene med publiserte datasett.

Materialer og metoder

Etikk erklæringen

Alle forsøk med dyr ble godkjent på forhånd av en dyreetikk Utvalget ved Monash University og ble utført i samsvar med » Australian Code of Practice for omsorg og bruk av dyr til vitenskapelige formål. «

Cells

SCLC primære xenograft linjer LX22, LX33 og LX36 ble passert som tidligere beskrevet [4]. I korte trekk, ble resected vev fra chemo-naive SCLC pasienter brukes til å generere primære xenoimplantater prøver. Tumorprøver ble finhakket med sterile barberblader, triturert i 1 x PBS, filtrert gjennom en 60 um maskefilter, sentrifugert og resuspendert i 500 pl av Matrigel (BD Biosciences) ved 4 ° C. Behandlet celler ble deretter injisert subkutant i flankene av ikke-overvektige diabetiske /alvorlig kombinert immunsvikt mus. Når P0 tumorene nådde en diameter på 1 cm, ble musen ofret og svulsten reseksjon ble delt opp i seksjoner for snap frysing eller seriell passasje. Xenografttumorer ble fremstilt for seriepassasjer

in vivo

som beskrevet ovenfor og cellene ble injisert inn i flankene av atymiske nakne mus i Matrigel. Passeres og hurtigfrosset svulster prøvene ble rutinemessig preget for histopatologiske og immunhistokjemiske funksjoner i morselskapet tumor [4].

Godkjente NCI-H209-cellelinjen ble kjøpt fra ATCC, re-avledet fra en enkelt celle klone med singelen celle kloning av serie fortynning (Corning, Tewksbury, MA, USA) og deretter dyrket

in vitro Hotell og in vivo som beskrevet i Watkins

et al.

[11]. DNA fra prøvene ble hentet ved hjelp DNAeasy Tissue og Blood Kit (Qiagen, Santa Clara, CA, USA) i henhold til produsentens instruksjoner. RNA ble renset ved hjelp miRNeasy Mini Kit bruker QIAzol (Qiagen, Santa Clara, CA, USA) etter produsentens anvisninger.

Utarbeidelse av Sequencing Biblioteker

Exome og lav dekning hel-genom DNA re- sekvensering: mål-DNA (3ug) ble først oppdelt ved å bruke en fokal akustisk anordning (Covaris, Woburn, MA, USA). DNA fragment biblioteker for exome re-sekvensering og lav dekning hel-genomsekvensering ble konstruert fra skåret DNA ved sekvensielle trinn av end-reparasjon, A-tailing og ligering av indeksert lllumina kompatible adapter sekvenser (TruSeq DNA, Illumina, San Diego, CA , USA). For exome re-sekvensering, PCR forsterket fragment bibliotekene ble beriket for exonic DNA av lang oligonukleotid hybridisering fangst i henhold til produsentens protokoll (SeqCap EZ Exome Library v3.0, Roche NimbleGen, Madison, WI, USA). For lav dekning av hele genomet, PCR-amplifiserte bibliotek var størrelsen som er valgt for å ta DNA fra 500-700nt lengde, ved hjelp av en automatisert elektroforese plattform (Pippen Prep, Sage Science Inc., Beverly, MA, USA). Alle sekvense bibliotekene ble kvantifisert ved hjelp av real-time PCR mot et bibliotek med kjent konsentrasjon og deretter bearbeidet for klyngedannelse og sekvensering i henhold til standard protokoller (HiSeq 2000, Illumina, San Diego, CA, USA).

RNA- sekv.

total RNA ble sjekket for kvalitet og utbytte av automatiserte microfluidic elektroforese (Bioanalyzer 2100, Agilent Technologies, Santa Clara, CA, USA) og spektrofotometer (Nanodrop, Thermo Scientific, Wilmington, DE, USA). Non-directional RNA-Seq bibliotekene ble opprettet i henhold til produsentens protokoll (Truseq RNA-Seq Bibliotek Prep Kit v2, Illumina, San Diego, CA, USA). I korthet denne fremgangsmåte er involvert sekvensielle trinn av mRNA anrikning fra 3ug total RNA, RNA fragmentering ved oppvarmning i nærvær av toverdige kationer, en tilfeldig primet revers transkripsjon og andre-tråd cDNA syntese etterfulgt av fremstilling av DNA-fragmentbibliotek ved å bruke Illumina kompatible adaptere og PCR-amplifisering som tidligere beskrevet for DNA-biblioteker.

Alle prøver ble vurdert separat for generelle lesekvalitet ved hjelp FASTQC (https://www.bioinformatics.bbsrc.ac.uk/projects/fastqc) og lav kvalitet leser ble filtrert og ble hardt trimmet bruker Trimmomatic (gjennomsnittlig minimum Phred poengsum, 6 sammenhengende baser, på 20 og et minimum lese lengde 50nt, Tabell S1) [12].

Rå dype sekvense datasett er offentlig tilgjengelig i National Centre of Bioteknologi Information Short Les Archive (Tiltredelse antall SRA082685).

strategi for å isolere og identifisere arter av opprinnelse NGS leser

Den foreslåtte strategien ligner den beskrevet av Conway

et al.

[9], men skiller seg på flere viktige aspekter. Først blir en primær innretting for å pode genomet, i dette tilfellet det humane genom, er utført, der står delt inn i pode-kartlagt og pode-kartlagt leser; andre, både pode-kartlagt og pode-kartlagte lese-sett er innrettet slik at vertsgenomet, i dette tilfellet musegenomet, for ytterligere å identifisere felles graft-vert og vertsspesifikk leser henholdsvis; slutt, leser felles graft-verts filtreres fra lese sett oppnådd i den primære justering for å oppnå pode spesifikke leser. I denne studien ble identifisering og klassifisering prosesser utført

via

innsamling og sammenligne de leste IDer av verts /pode justeringer, leser i produksjon i FASTQ format. Som et resultat, identifiseres graft-spesifikk leser ble re-justert til pode-genomet.

Etterfølgende linjer produsert tre separate innrettede datasett,

i. e.

, leser som bare kunne kartlegges for det menneskelige genom, leser som utelukkende ble kartlagt til musen genomet og leser som tilordnes til begge genomer. I tillegg til å analysere RNA-Seq lese sett, vi ytterligere verifisere denne strategien for lav dekning hel-genom og exome-fangst sekvense eksperimenter. En fullstendig oversikt som beskriver alle trinnene som inngår i den foreslåtte strategien er vist i figur 1. For hver justerings, kartlagt og kartlagt leser som finnes i SAM /BAM formaterte filer [13] ble filtrert basert på deres bitvis flagg status hjelp Samtools [13], en tilpasset Perl skript som samlet unike lese identiteter fra justert /unaligned SAM formaterte filer og filtrert dem fra rå fastq filer, [Simon Andrews, 2010, Seqanswers.com [14]. Tilgjengelig på: https://seqanswers.com/forums/showpost.php?p=25302 postcount=3] og cmpfastq_pe programvare, som sammenlignet rå pair-end fastq filer og rapportert felles og unike lyder (http: //compbio .brc.iop.kcl.ac.uk /software /cmpfastq_pe.php).

programvarekomponenter som benyttes i hvert trinn er også spesifisert. Heltrukne linjer representerer den viktigste analytiske banen fulgt og stiplede linjer representerer hjelpe trinn.

Kartlegging score ble brukt til å vurdere kartlegging kvaliteten på de behandlede prøvene og for ytterligere å forkaste flere hit leser. Som en generell regel, ble det antatt at en høyere kartlegging kvalitet betyr en mer «unike» justert lese- og for de fleste av prøvene, en høy andel av de leste-parene hadde en kartlegging kvalitet over 20 (tabell S2).

transkriptomet analyse

Hele transkriptom analyse av tre SCLC primære transplantater ble utført gjennom RNA-Seq hjelp av GAIIX og HiSeq 2000 sekvense plattformer (Illumina, San Diego, CA, USA). Forsøket ble parret-end med 100NT lese lengde (300nt gjennomsnittlig innskuddsstørrelse). Den målrettede minimum antall leser per prøve var 40 millioner leser (tabell S1).

For å kunne identifisere og utvetydig egen pode (human) og vert (mus) leser, behandlede prøven leser ble sekvensielt justert både pode [komplett hg19 menneskelige genom (UCSC versjon, februar 2009)] og vert [komplett MM9 mus genomet (UCSC versjon, juli 2007)] genomer bruker Bowtie-Hat [versjon 2.0.4, segment lengde 29nt, en mismatch i segmentet tillates, for maksimal følsomhet, dekning søk utført [15], [16]. Nei de-duplisering ble utført for post-montering RNA-Seq analyse.

mRNA kvantifisering for alle kommenterte gener fra det menneskelige genom ble utført ved hjelp Partek® programvare (Partek Inc. (1993) Partek® Genomics Suite ™) . Leser ble normalisert ved hjelp av lyder per kilobase av exon modell per million kartlagt leser metoden [17].

Et menneske-spesifikke primære xenograft microarray uttrykk datasettet (GSE15240) [4] ble hentet fra Nasjonalt Senter for Bioteknologi Information (NCBI) Gene Expression Omnibus (GEO) repository [18].

å sammenligne mus-spesifikke leser til tidligere publiserte kreft stromal gen signaturer, en brystkreft assosiert fibroblaster datasett [19] ble hentet fra GEO repository (GSE10797). [18]

for all microarray analyse, ble gener normalisert ved hjelp quantile normalisering (log base 2 og median polish for probeset transformasjon og samandrag henholdsvis) og bakgrunn korreksjon ble utført ved hjelp av robust multi -array gjennomsnittlig metode (RMA) [20].

Sammenligning av microarray og RNA-Seq genuttrykk resultater ble utført ved hjelp av lineær korrelasjon (Spearmans r) mellom log base 2 av de tallfestet genet vilkår intensitet enheter og log base 2 RPKM som beskrevet i Mortazavi

et al product: [17].

exome resequencing analyse

Hel-exome analyse av prøver tatt fra perifert blod, NCI-H209 celle linjen og dens deriverte xenograft ble utført gjennom hele exome ultra-high throughput rekkefølge ved hjelp av HiSeq 2000 sekvense plattform (llumina, San Diego, CA, USA). Forsøket ble parret-end med 101nt lese lengde (200bp innsatsen størrelse). Den gjennomsnittlige målrettet dybde på dekningen ble satt til 50x (se tabell S1 for totalt antall leser sekvensert).

Behandlet prøve leser ble sekvensielt justert til både pode [komplett hg19 menneskelige genom (UCSC versjon, februar 2009)] og vert [komplett MM9 mus genomet (UCSC versjon, juli 2007)] genomer bruker Burrows-Wheeler Alignment verktøy [(BWA), BWA aln algoritmen som brukes, frø lengde 22nt; maksimal redigere avstand i frø fra 0 [21].

single nucleotide varianter (SNVs) funnet ble utført ved hjelp av et sett med verktøy som inngår i Picard (https://picard.sourceforge.net) og GATK [22 ], [23]. Først duplikat leser ble fjernet fra realigned BAM filene ved hjelp av MarkDuplicates kommandoen fra Picard (https://picard.sourceforge.net). Beregnede duplisering nivåer er beskrevet i Tabell S3. Deretter dedupliserte BAM filene ble lokalt realigned rundt romanen og kjent indels bruker RealignerTargetCreator og IndelRealigner vandrere fra GATK [23]. Til slutt, ble grunnkvalitetspoeng rekalibrert hjelp av CountCovariates og TableRecalibration turgåere fra GATK [23]. Denne prosedyren ble utført for hver av de tre analyserte prøvene.

Rå SNP samtaler ble utført ved anvendelse av UnifiedGenotyper rullator fra GATK [23] med et minimum basis kvalitet Phred score på 20, et anrop sikkerhetsterskel på 50 (Phred -scaled) og en emmition tillit terskelen til 10 (Phred-skalert). Raw kalt SNPs ble filtrert ved hjelp av VariantFiltration walker med følgende parametre: SNP cluster size = 10; Dekning: ≥ 5; Qual: ≥ 50; Strand skjevhet: Fishers eksakte test, ≥ 60. Eksempel spesifikke nye SNPs,

i. E.

, De som ikke er til stede i Database of enkeltnukleotidpolymorfi (dbSNP) (Bethesda (MD): National Center for Biotechnology Information, National Library of Medicine (dbSNP 137. 137; http: //www.ncbi. nlm.nih.gov/SNP/), ble merket og dens effekt beregnet med SnpEff [24] og variantAnnotator walker fra GATK [23].

Genome visualisering ble utført ved hjelp av Integrative Genome Browser (IGV) [ ,,,0],25], [26]. flerbestands lokale justeringsspor ble hentet fra IGV dataserver.

hel-genomanalyse

En lav-dekning hel-genomsekvensering av prøver hentet fra perifert blod, H209 cellelinje og dens avledet primære xenograft ble utført gjennom hagle hele genomet ultra-high throughput rekkefølge ved hjelp av HiSeq 2000 sekvense plattform (llumina, San Diego, CA, USA). forsøket ble parret-end med 101nt lese lengde (200bp innsatsen størrelse) . Den gjennomsnittlige målrettet dybde på dekningen ble satt til 4x (se tabell S1 for totalt antall leser sekvensert).

behandlet prøve leser ble sekvensielt justert til både pode [komplett hg19 menneskelige genom (UCSC versjon, februar 2009) ] og vert [komplett MM9 mus genomet (UCSC versjon, juli 2007)] genomer bruker Burrows-Wheeler Alignment verktøy [(BWA), BWA aln algoritmen som brukes, frø lengde 22nt; maksimal redigere avstand i frø fra 0 [21]. Antatt duplisering nivåene ble funnet å være marginal og er beskrevet i tabell S3.

intra- og inter-kromosom rearrangements oppdagelsen av de identifiserte menneskelige bestemt leser ble utført ved hjelp FusionMap [span og delt lese teller terskelen til tre og delt minimum anker av 4 leser [27]. Oppdages fusjoner ble plottet mot en sirkulær representasjon av det menneskelige genom (Circos tomten) med Circos [28].

Kopier nummer variasjoner (CNV) og allel innhold i genomiske regioner ble oppdaget ved hjelp av Ctrl-Freec [29]. Den perifere blodprøven ble brukt som en grunnlinje kontroll. Circos plott av den registrerte CNV ble bygget ved hjelp Circos [28].

Resultater

Som vist i figur 2, de vurderte NGS strategier avdekket ulike andeler av vertsspesifikke leser. Exome fangst og RNA-Seq produsert den laveste andelen av mus bestemt leser, alt fra 4% til 7%. I motsetning til dette, hagle hele genomet sekvensering produserte det høyeste antall lesninger som entydig innrettet til musegenomet, noe som tilsvarte 20% av det totale antall lyder (figur 2). Den homologe rekke leser,

ie

, leser de som justert i forhold til både de humane og musegenomet, ble funnet å være lik for alle metoder, som strekker seg fra 4% (RNA-Seq) til 1,5% (Exome -fangst). En fullstendig oversikt over de justeringer som utføres er beskrevet i Tabell S2.

For hver lese Rimelig, andel (%) av det totale antall lesninger er spesifisert.

Hel-genom analyse

Som ventet sekvensen dybden av dekning av prøvene utsettes for lav dekning av hele genomet sekvensering var over 3 ganger for alle analyserte prøver (Tabell S3 A). Imidlertid er dybden av dekningen av xenograft prøven ble sterkt påvirket av mus forurensning og produserte den laveste verdien av de 3 prøver for både midlere dybde av dekning (3,3 ganger) og prosentandelen av lesninger dekket på minst 3 ganger (tabell S3 A).

Kopier antall variasjonsanalyse av både cellelinjen og xenograft prøver produsert svært tilsvarende resultater når den perifere blodprøven ble anvendt som kontroll (figur 3 A). Det ble observert totalt 578 og 470 somatisk ervervet kopinummer endringer for cellelinje og xenograft prøvene hhv. Disse forskjellene var hovedsakelig på grunn av små forskjeller i dybden av dekning av genomiske regioner vurderes og de fleste av dem svarer til knutepunkter kopi nummer gevinster eller tap i midten av diploide regioner (figur 3 B). Som observert i fig S1, både cellelinjen (figur S1 A) og xenograft (fig S1 B) prøver fremstilt høyt liknende CNV profiler for alle de analyserte kromosomer. En detaljert CNV profil av begge prøver kan finnes i Datasett S1 og S2. Et lignende mønster ble observert for

beta

allel frekvensprofiler for begge prøvetyper (figur 3 C).

(A) Circos tomten representerer kopiantall variasjoner, inter og intra-kromosomale rearrangements av NCI -H209 cellelinje og en xenograft tumor avledet fra det. Kopier nummer variasjoner (rød, gevinst, grønn, tap) ble beregnet på grunnlag av dekning ved hjelp korrespondent perifert blod som kontroll. Inter og intra-kromosomale rearrangements er representert i blått (inter-kromosom) og mørk blå (intra-kromosom). (B, C) Detaljert profil kopinummervariasjoner og B-allel frekvenser på kromosom 1 fra den analyserte cellelinje og xenograft. Som beskrevet ovenfor, ble korrespondent perifert blod anvendt som kontroll for begge type analyse. Kopier nummer profilene er vist i rødt (gevinst), grønn (tap) og grå (ingen endring). LOH vises lyseblå.

Sammenlignbare resultater kunne observeres for intra- og inter-kromosomale rearrangements (figur 3 A), hvor over 70 rearrangements for begge prøvene ble oppdaget. Et eksempel på inter-kromosomale rearrangements ble funnet mellom

BAGE4

, en kandidat genet som koder for tumorantigener, og

MLL3

, et medlem av myeloid /lymfoid eller blandet avstamning leukemi (MLL) familie . En fullstendig liste over de intra- og inter-kromosomale rearrangements felles for både cellelinje og xenograft prøvene kan bli funnet i datasett S3.

Dataene presentert ovenfor støtter vår hypotese om at en grundig CNV og strukturell variant analyse kan utføres når både cellelinjen og xenograft prøver ble anvendt. Vi fant ut at når korrekt regnskap for mus-spesifikke forurensning, resultatene oppnådd ved bruk av uberørte cellelinjer kan gjengis nøyaktig ved hjelp av xenograft prøver, med de ekstra fordelene ved bruk av en

in vivo

modell.

Exome sekvense analyse

En bety sekvens dybde dekning i de målrettede fangede regioner i alle prøver av over 100 ganger ble oppnådd, med mer enn 80% av baser dekket minst 30 ganger (tabell S3 B) . I cellelinje og de xenograft prøver, 68,5 og 74,7 prosent av den målrettede exome regionene ble dekket minst 50 ganger, med en midlere sekvens dybde på dekning av 109 og 136 ganger respektivt. Sekvensanalyse på tvers av alle tre prøvene (

i. E.

, Perifert blod, cellelinje og xenograft) oppdaget totalt 53 186 (52 429 kjente og 757 roman) SNPs. Disse variantene som ble funnet i perifert blod ble vurdert av germline opprinnelse, og ble ikke videre bearbeidet for høyere analyse.

Det er totalt 946 somatiske varianter, 351 av disse romanen, var felles for begge cellelinjen og xenograft prøver (figur 4 A). Av disse 886 var enkelt basis erstatninger, 28 var innsett og 32 var slettinger (figur 4 B). En fullstendig liste over de somatiske mutasjoner oppdaget er beskrevet i datasett S4. Mutasjon klasse analyse viste G A /C T overganger var de mest vanlige (33%), etterfulgt av A G /T C overganger (23%) og G T /C A transversions (20%) (figur 4 C). Totalt sett dette mønsteret var lik den som er rapportert av Pleasance

et al product: [30] sikret tidligere beskrevet TP53 spleiseakseptoren forstyrre og RB1 C706F punktmutasjon, karakteristisk for SCLC, [30], ble påvist både i cellen linje og xenograft prøver.

rekke kjente og nye varianter (A) og variant typer (B) funnet å være felles for begge cellelinjen og xenograft og de som er detektert bare i cellelinjen og xenograft. . (C) Kvantifisering av de seks mulige mutasjon klasser

For de 946 variantene som er felles for både cellelinje og xenograft, den SnpEff effekt prediktor rapporterte totalt 1806 (figur 5 A B). For formålet med denne analysen, rapporterte vi effekten for alle mulige gentranskriptene, og således det totale antall rapporterte varianter skiller seg fra det totale antall effekter ble funnet. De mest representerte effektkategorier, da klassifiseres etter type, var de tilsvarende introner (721), ikke-synonyme koding (305) og synonymt koding (170) (figur 5 A). Når variant effektene ble klassifisert etter region, intron og ekson regioner, som forventet, var de mest signifikant vist (figur 5 B). En beskrivelse av moderat og høy effekt SNPs spådd effekter for den første berørt transkripsjon er beskrevet i datasett S5.

Sixty-four somatiske varianter som er unike for xenograft ble identifisert (figur 4 B). Av disse er det bare 15 var ikke-synonyme kodende varianter. I alle tilfeller, de variantene var heterozygote, og SnpEff spådd en moderat effekt på proteinfunksjon (tabell S4 A). Disse variantene berørte genet transkripsjoner av følgende gener:

ESPN, KAZN, APEH, MUC20, MUC17, AQP7, ZNF808 Hotell og

LUZP4

. For å finne årsaken til disse avvikene mellom variantene påvist i cellelinjen og xenograft prøvene ble genomiske regioner som omgir varianter oppdaget undersøkt. For å utelukke at disse variantene oppsto forurenser mus sekvens, utførte vi følgende analyse. Først må vi isolert sekvense leser i tilknytning til regionen av interesse innenfor et område på 1,000bp (Se figur S2 for detaljerte eksempler). Parvise lokale justeringer i disse områder mellom de humane og muse genomer viste at en global innretting ikke kunne ha vært mulig mellom de analyserte sekvense leser og mus genomet (figur S2). Deretter forsøkte vi å justere disse leser til musegenomet. Ingen justeringer ble produsert. Disse dataene viser at kodingen-regionen varianter unik for xenograft var av human opprinnelse

Siden genetisk heterogenitet er nå ansett som en kardinal trekk ved mange krefttyper [31] -. [33], vi lurte på om disse xenograft -spesifikke varianter kan påvises i den opprinnelige cellelinjen datasett. Detaljert inspeksjon av sekvense leser og sekvens dybde-av-dekning på enkelte områder viste at størstedelen (9 av 15) av disse variantene var detekterbare, men var under allelet frekvensnivå på 0,2 (fig S3 0,001) med en tidligere publiserte gen-uttrykk array-datasett i de samme tumormodeller ved hjelp av menneske-spesifikke cDNA probesets [4] (figur 6 A), og dermed uavhengig validering vår artsspesifikk strategi

(A) Sammenligning av genuttrykk oppdaget av RNA-Seq og Affymetrix uttrykk array-plattformer for identiske SCLC prøver (gjennomsnitt, n = 3, P . 0,01) . (B) Sammenligning av genekspresjon mellom SCLC primære svulster [34] (Y-aksen, betyr, n = 15) og primær xenotransplantater (X-aksen, betyr, n = 3) (P 0,01). (C) Sammenligning av gen-ekspresjon detektert av Affymetrix rekke mikro-dissekert human kreft stroma [19] (Y-aksen, betyr, n = 28) og mus-spesifikke RNA-Seq ekspresjonsdata i SCLC-xenograft-modeller (X-aksen, bety , n = 3) (P . 0,01)

En genuttrykk korrelasjonsanalyse mellom en nylig publisert SCLC primære svulster RNA-Seq eksperiment [34] og menneske-spesifikke RNA-Seq leser av SCLC primære xenograft modeller, viste positiv korrelasjon mellom begge datasett (Spearman korrelasjon = 0,68, P 0,001) (Figur 6 B).

Legg att eit svar