DeepCRISPR: Progettazione ottimizzata dell’RNA guida CRISPR attraverso l’apprendimento profondo

Allenamento di DeepCRISPR per la predizione del sito sgRNA on-target e off-target

Apprendimento profondo non supervisionato per la rappresentazione degli sgRNA

Il primo input di DeepCRISPR è il set completo di sequenze di sgRNA da 20 bp con un PAM NGG attraverso il genoma umano. Abbiamo estratto tutte le sequenze sgRNA con un NGG PAM dalle regioni umane codificanti e non codificanti. Questi dati rappresentano ~ 0,68 miliardi di sequenze sgRNA con diverse informazioni epigenetiche curate da 13 tipi di cellule umane (vedi la sezione “codifica sgRNA con caratteristiche genomiche ed epigenetiche”). Essi servono come fonte di dati sgRNA non etichettati su larga scala per la seguente procedura di pre-addestramento per derivare un’efficiente rappresentazione delle caratteristiche degli sgRNA. L’intera raccolta dei dati e la pre-elaborazione sono state realizzate utilizzando un’architettura di elaborazione dati su larga scala basata su SPARK con accelerazione dell’unità di elaborazione grafica (GPU). Ogni sgRNA viene inizialmente codificato con la sua sequenza e le informazioni epigenetiche (vedi la sezione “codifica degli sgRNA con caratteristiche genomiche ed epigenetiche”). Poi, con queste sequenze sgRNA non etichettate in mano, usiamo una strategia di apprendimento profonda rappresentazione non supervisionata per addestrare una profonda rete neurale convoluzionaria denotante (DCDNN)-based autoencoder per imparare automaticamente la sottostante rappresentazione significativa di sgRNAs in modo non supervisionato (Fig. 1c; vedi la sezione “DCDNN-based autoencoder per l’apprendimento di rappresentazione”). Tale strategia di de-noising aiuta ad addestrare l’autoencoder a tollerare in modo robusto il rumore nell’enorme quantità di dati sgRNA. La logica intuitiva di usare l’autoencoder è che i dati non etichettati con la codifica e la decodifica possono essere usati per imparare una rappresentazione efficiente delle caratteristiche. Tale rappresentazione delle caratteristiche appresa sarà adattata alla seguente costruzione del modello. La rete addestrata in questa fase è definita una rete madre non supervisionata e pre-addestrata per ulteriori analisi.

Fig. 1
figura1

Dettagli di implementazione di DeepCRISPR. uno schema di codifica sgRNA. Per una regione del DNA, la sequenza nucleotidica è rappresentata da quattro canali, cioè il canale A, il canale C, il canale G e il canale T, e ogni caratteristica epigenetica è considerata come un canale. b Dettagli di addestramento di DeepCRISPR per la previsione dell’efficacia degli sgRNA sul bersaglio. Le funzioni Softmax e Identity corrispondono rispettivamente a modelli di classificazione e regressione. c Apprendimento non supervisionato della rappresentazione profonda basato su miliardi di sequenze di sgRNA a livello genomico. d Dettagli dell’addestramento di DeepCRISPR per la previsione del profilo off-target degli sgRNA. Le funzioni Softmax e Identity corrispondono ai modelli di classificazione e regressione, rispettivamente

Una rete neurale profonda ibrida messa a punto per la previsione dell’efficacia degli sgRNA on-target knockout

Allora abbiamo generato una rete neurale profonda ibrida per la previsione dell’efficacia degli sgRNA on-target knockout, composta da due parti. La prima parte è la precedente rete pre-addestrata basata su DCDNN (rete madre), il cui output viene utilizzato come ingresso per una rete neurale convoluzionaria (CNN; Fig. 1b, c; vedi la sezione “modello CNN con pre-addestramento basato sulla messa a punto”). L’intera rete neurale ibrida è stato poi addestrato sulla base dei dati etichettati, cioè, i sgRNA raccolti con noto on-target knockout efficacia. La procedura di formazione non solo imparato i pesi per la rete CNN-based, ma anche messo a punto i pesi della rete madre. Pertanto, questa strategia utilizza limitati dati etichettati per sintonizzare i pesi originali di rete pre-addestramento e si prevede di aumentare la precisione di previsione (Fig. 1b, c; vedi il “modello CNN con pre-addestramento basato fine-tuning” sezione). Nel nostro studio, il set di dati etichettati sgRNA contiene ~ 0,2 milioni di sgRNA con efficacia knockout noto. Questo set di dati è stato generato da ~ 15.000 sgRNA attraverso 1071 geni con efficacia knockout noto in un modo di aumento dei dati (vedi il “On-target fonti di dati” sezione), come quello utilizzato per l’elaborazione dei dati di immagine (vedi il “Aumento dei dati per on-target dataset” sezione). I pesi finali sintonizzati per l’intera rete neurale profonda ibrida sono stati utilizzati per prevedere l’efficacia knockout on-target di un nuovo sgRNA. Inoltre, al fine di ottenere valutazioni rigorose di DeepCRISPR, sono stati costruiti entrambi i modelli di classificazione e regressione per la predizione on-target per un confronto completo.

Estendere il modello per la predizione del sito off-target degli sgRNA riutilizzando la rete madre

Abbiamo anche esteso la rete neurale ibrida per la predizione del profilo off-target degli sgRNA riutilizzando la rete madre pre-addestrata (Fig. 1c, d). In primo luogo, abbiamo trattato un dato sgRNA e il suo possibile locus off-target come una coppia di campioni, e queste coppie di campioni sono stati presi come i campioni di allenamento off-target. La coppia di campioni è stata codificata in due parti, dove una parte rappresenta la codifica del dato sgRNA e l’altra rappresenta la codifica del suo possibile locus off-target (Fig. 1c; vedi la sezione “codifica sgRNA con caratteristiche genomiche ed epigenetiche”). Tale codifica in due parti presenta una rappresentazione accurata e completa di un campione off-target considerando la sequenza sgRNA originale e la sequenza non corrispondente nel suo insieme. Durante l’addestramento, ogni parte del campione sgRNA off-target è stato inserito nella rete pre-addestrato DCDNN-based, cioè, la rete genitore, per l’apprendimento rappresentazione delle caratteristiche. Successivamente, le uscite di questa rete genitore sono stati combinati insieme channel-wise per il seguente classificatore CNN, simile a on-target sito previsione (Fig. 1c). Nel nostro studio, la rete neurale ibrida completa è stata addestrata sulla base delle raccolte etichettate sgRNA off-target set di dati contenenti ~ 160.000 campioni (vedi la sezione “Off-target fonti di dati”). Un efficiente algoritmo di bootstrapping è stato integrato nella formazione batch di questa rete ibrida, alleviando il problema dello squilibrio dei dati nella previsione del sito off-target (Fig. 5; vedi la sezione “Integrare il bootstrapping nella formazione batch delle reti neurali profonde per affrontare il problema dello squilibrio dei dati”). Simile a quella di on-target previsione sito, la procedura di formazione non solo imparato i pesi per la rete CNN, ma anche sintonizzato i pesi della rete genitore, con conseguente due diverse “reti bambino” per due parti del sgRNA off-target campione. I pesi finali sintonizzati per le due reti bambino così come la rete CNN sono stati utilizzati per prevedere il profilo off-target di un dato sgRNA. Allo stesso modo, per ottenere valutazioni rigorose di DeepCRISPR, sono stati costruiti entrambi i modelli di classificazione e regressione per la previsione off-target per un confronto completo.

Confronto di DeepCRISPR con lo stato dell’arte della predizione dell’efficacia degli sgRNA on-target

Per valutare la capacità di DeepCRISPR nella predizione dell’efficacia degli sgRNA on-target, abbiamo prima curato dati di riferimento completi sull’efficacia degli sgRNA knockout on-target per gli esseri umani, compresi quattro diversi tipi di cellule: cioè, hct116 , hek293t , hela , e hl60 . Si noti che tali set di dati sono stati utilizzati anche da Haeussler et al. per lo studio di riferimento. L’intero set di dati comprende ~ 15.000 sgRNA con efficacia knockout sperimentalmente convalidata da 1071 geni. Nel nostro studio, abbiamo formulato DeepCRISPR in uno schema di classificazione o in uno schema di regressione per un confronto completo e rigoroso. Per il modello di classificazione, l’efficacia knockout noto è stato etichettato in modo binario (vedi la sezione “On-target fonti di dati”). Per il modello di regressione, l’efficacia knockout conosciuta è stata integrata ed etichettata in modo numerico (vedi la sezione “Fonti di dati on-target”). Poi, otto diversi scenari di test sono stati accuratamente progettati per confronti completi e oggettivi di DeepCRISPR con strumenti all’avanguardia. Attraverso tali confronti, forniamo prove concrete che (1) i modelli di apprendimento profondo (senza pre-addestramento non supervisionato) sono superiori ai modelli di apprendimento superficiale; (2) la strategia di pre-addestramento non supervisionato aumenta le prestazioni del modello; (3) l’aumento dei dati migliora ulteriormente le prestazioni del modello e la robustezza del modello; (4) DeepCRISPR si è generalizzato generalmente bene in nuovi tipi di cellule per la previsione dell’efficacia degli sgRNA on-target knockout; (5) DeepCRISPR apprende in modo efficiente la rappresentazione delle caratteristiche di alto livello evitando l’ingegneria manuale delle caratteristiche per la progettazione di sgRNA, come indicato dai confronti mela-a-mela con il progettista di sgRNA riqualificato (i modelli di classificazione o regressione basati su gradient-boost) con gli stessi dati di formazione, ma con caratteristiche diverse; (6) DeepCRISPR è robusto con prestazioni superiori per entrambi i modelli di classificazione e regressione.

Testing scenario 1 – schema di classificazione

In questo test, per i ~ 15.000 sgRNA originali con efficacia di knockout nota da quattro tipi di cellule, il 20% dei dati di ogni tipo di cellula sono stati stratificati per etichette di dati e utilizzati come set di test indipendenti. Il restante 80% dei dati di ogni tipo di cellula sono stati combinati insieme per la formazione del modello e la regolazione dei parametri durante il processo di convalida incrociata. Il profondo modello di classificazione basato su CNN senza pre-addestramento non supervisionato e l’aumento dei dati (indicato come “CNN”) è stato addestrato e testato sui dati di test indipendenti per le quattro linee cellulari, rispettivamente, e confrontato con otto strumenti all’avanguardia che sono stati addestrati con dati di linee cellulari umane, tra cui sgRNA Designer, SSC, CHOPCHOP, CRISPR MultiTargeter, E-CRISP, sgRNA Scorer, Cas-Designer, e WU-CRISPR (Fig. 2a, b). Questi strumenti coprono tutti i metodi disponibili progettati per la previsione dell’efficacia sgRNA umano, sia da un modello di apprendimento o una funzione di punteggio basato su ipotesi (vedi file aggiuntivo 1 per un elenco completo degli strumenti attuali e le ragioni che abbiamo selezionato questi strumenti per il confronto). Il confronto è stato valutato utilizzando i valori dell’area sotto la curva delle caratteristiche operative del ricevitore (ROC) (AUC) . Il confronto ha indicato che, in media, DeepCRISPR ha raggiunto un ROC-AUC complessivo di 0,796, superando tutti gli otto metodi con un miglioramento massimo di ~ 113% rispetto a sgRNA Designer (con 0,5 ROC-AUC come linea di base), che è il prossimo strumento più performante (Fig. 2a, b, Additional file 2).

Fig. 2
figura2

Valutazione di DeepCRISPR per la previsione di efficacia on-target. a, b Confronto delle previsioni di efficacia on-target degli sgRNA in uno schema di classificazione per vari set di dati, cioè, linea cellulare hct116, linea cellulare hek293t, linea cellulare hela, linea cellulare hl60, e il set di dati di test complessivo. c Confronto della perdita di formazione per due diversi modelli di classificazione DeepCRISPR. d Lasciare il tipo di cella fuori confronto di sgRNA on-target previsione di efficacia in uno schema di classificazione. e Confronto delle previsioni sgRNA on-target efficacia in uno schema di regressione per vari set di dati, cioè, linea cellulare hct116, linea cellulare hek293t, linea cellulare hela, linea cellulare hl60, e il set di dati di test complessivo. f Lasciare il tipo di cella fuori confronto di sgRNA on-target previsione di efficacia in uno schema di regressione. g Confronto delle previsioni di efficacia degli sgRNA on-target in un set di dati indipendente con correlazione Spearman

Test scenario 2 – schema di classificazione

In questo test, abbiamo ulteriormente costruito il nostro modello con pre-training non supervisionato su ~ 0.68 miliardi di sgRNA non etichettati (indicato come “pt CNN”). Gli stessi dati di allenamento e di test sono stati utilizzati come per lo scenario di test 1. Gli sgRNA sovrapposti tra i dati di allenamento e di test sono stati rimossi. La CNN pre-addestrata ha raggiunto un ROC-AUC complessivo di 0,836 con un miglioramento del 142% rispetto al progettista di sgRNA (con 0,5 ROC-AUC come linea di base; Fig. 2a, b; file aggiuntivo 2).

Schema di classificazione dello scenario di test 3

Abbiamo ulteriormente costruito il nostro modello finale DeepCRISPR con CNN basata sul pre-addestramento più aumento dei dati (indicato come “pt + aug CNN”). I dati di formazione sono stati aumentati mentre i dati di test erano identici a quelli degli scenari di test 1 e 2. Gli sgRNA sovrapposti tra i dati di allenamento e di test sono stati rimossi. Per questo caso, DeepCRISPR ha raggiunto un ROC-AUC complessivo di 0,857, con un miglioramento del 157% rispetto al designer sgRNA (con 0,5 ROC-AUC come linea di base; Fig. 2a, b; file aggiuntivo 2). Si può notare che il miglioramento delle prestazioni era relativamente piccolo rispetto allo scenario di test 2, mentre abbiamo trovato che la funzione di perdita durante la formazione convergeva velocemente e diventava molto robusta rispetto a quella dello scenario di test 2 (Fig. 2c). Questo indica che l’aumento della quantità di dati delle etichette può aiutare a rendere il modello robusto e a convergere velocemente durante l’allenamento.

Testing scenario 4 – schema di classificazione

In questo scenario, abbiamo ulteriormente testato la capacità di generalizzazione di DeepCRISPR in nuovi tipi di cellule. Per i ~ 15.000 sgRNA originali con efficacia di knockout nota da quattro tipi di cellule, il 20% dei dati di ciascun tipo di cellula sono stati stratificati in base alle etichette dei dati e utilizzati come set di test indipendenti. Il restante 80% dei dati da diversi tipi di cellule sono stati aumentati come dati di allenamento, identici a quelli dello scenario di test 3. Poi il nostro modello è stato addestrato in modo quadruplo “lasciando fuori un tipo di cellula”, ogni volta usando i dati di addestramento combinati da tre tipi di cellule e testando sul set di dati indipendente lasciando fuori un tipo di cellula. Gli sgRNA sovrapposti tra i dati di allenamento e di test sono stati rimossi. Questo scenario di test indaga la capacità di generalizzazione di DeepCRISPR su nuovi tipi di cellule (Fig. 2d, Additional file 2). Per questo caso, la performance di DeepCRISPR su quattro tipi di cellule ha raggiunto una media ROC-AUC di 0,722, superando il secondo miglior metodo, il designer sgRNA. Si può notare che per i tipi di cellule hct116 e hela, la performance di DeepCRISPR era abbastanza buona. Per il tipo di cellula hek293t, tutti gli strumenti di test (compreso DeepCRISPR) hanno ottenuto risultati scadenti, principalmente a causa di questo tipo di cellula che contiene la maggior parte dei campioni. Pertanto, i modelli di addestramento senza i dati di questo tipo di cellule sono inefficienti con dati di addestramento insufficienti. Inoltre, al fine di indagare se le caratteristiche specifiche del tipo di cellula, cioè le caratteristiche epigenetiche specifiche della cellula, aggiungono realmente alle prestazioni di DeepCRISPR, abbiamo riallenato DeepCRISPR senza caratteristiche epigenetiche (cioè, il modello Seq-only DeepCRISPR in Fig. 2d) per il confronto delle prestazioni. Si può notare in questo caso che la performance del modello Seq-only DeepCRISPR è scesa leggermente rispetto a quella originale, indicando che (1) le caratteristiche epigenetiche specifiche della cellula si aggiungono alla performance di DeepCRISPR e (2) il contributo alla performance di previsione dell’aggiunta di caratteristiche epigenetiche specifiche della cellula sembra inferiore a quello dell’aumento della quantità di dati di allenamento, come si può vedere per il tipo di cellula HEK293T. DeepCRISPR ha ottenuto prestazioni moderate nel tipo di cellula HL60. Poiché la maggior parte degli altri strumenti (compresi sgRNA designer, SSC, ecc.) sono stati addestrati sulla base dei dati HL60, le loro prestazioni sono state generalmente migliori di DeepCRISPR in questo specifico tipo di cellule. In sintesi, concludiamo che DeepCRISPR si è comportato generalmente bene in nuovi tipi di cellule per la predizione dell’efficacia degli sgRNA on-target knockout.

Testing scenario 5 – schema di classificazione

In questo test, forniamo un confronto più rigoroso e solido tra DeepCRISPR e sgRNA designer, il migliore strumento successivo durante i nostri test precedenti.

In primo luogo, abbiamo rigorosamente mantenuto un ambiente di confronto identico per DeepCRISPR e sgRNA designer con gli stessi dati di allenamento e di test. Per questo caso, abbiamo riallenato sgRNA Designer (https://github.com/MicrosoftResearch/Azimuth, un modello di classificazione basato sul gradient boost) con lo stesso set di dati con etichetta aumentata di DeepCRISPR usato nello scenario di test 3, e abbiamo anche mantenuto identici i dati di test. Poi sono state eseguite le seguenti due diverse rappresentazioni delle caratteristiche: (1) abbiamo codificato l’sgRNA con la nostra rappresentazione della caratteristica one-hot (indicata come “designer sgRNA riqualificato con caratteristica di basso livello”). Questo modello ha raggiunto un ROC-AUC complessivo di 0,751 (Fig. 2a, b, file aggiuntivo 2); (2) abbiamo codificato il sgRNA con le caratteristiche originali ingegnerizzate manualmente adottate dal designer sgRNA (indicato come “designer sgRNA riqualificato con caratteristica manuale”). Questo modello ha raggiunto un ROC-AUC complessivo di 0,778 (Fig. 2a, b, file aggiuntivo 2). Rispetto a queste due rappresentazioni diverse caratteristiche, è indicato che la codifica caratteristica di basso livello non è adatto per i modelli poco profondi, quindi, il progettista sgRNA riqualificato raggiunto migliori prestazioni con l’ingegneria manuale basato sul dominio caratteristica e codifica caratteristica. Tuttavia, questi risultati indicano ulteriormente che il modello di apprendimento profondo può apprendere in modo efficiente la rappresentazione delle caratteristiche di alto livello dalle caratteristiche di basso livello e competere con i modelli poco profondi evitando l’ingegneria manuale delle caratteristiche per la progettazione di sgRNA.

In secondo luogo, abbiamo anche eseguito un confronto tra DeepCRISPR e il designer sgRNA riqualificato utilizzando la nostra rappresentazione delle caratteristiche one-hot. Il test è stato eseguito sugli stessi dati di allenamento e di test dello scenario di test 4 (Fig. 2d, file aggiuntivo 2). Si può notare che, in media, DeepCRISPR ha ancora superato il designer sgRNA addestrato, indicando la sua superiorità nella predizione on-target rispetto ad altri metodi.

Testing scenario 6- schema di regressione

In questo test, abbiamo ulteriormente addestrato DeepCRISPR in uno schema di regressione con l’efficacia numerica originale sgRNA knockout. I dati di diversi esperimenti sono stati integrati in modo elegante come dimostrato nella sezione “Fonti di dati on-target”. La performance è stata valutata con la correlazione di Spearman come adattata in studi precedenti. L’intero confronto è stato eseguito in modo simile a quello degli scenari di test 3 e 5, tranne che il modello è stato addestrato in modo regressivo. Anche il progettista di sgRNA è stato riqualificato in modo regressivo con gli stessi dati di allenamento e di test. Si può notare che in questo caso DeepCRISPR ha ancora superato gli altri metodi come valutato dalla correlazione di Spearman (Fig. 2e, Additional file 2).

Scenario di test 7 – schema di regressione

Abbiamo ulteriormente testato DeepCRISPR basato sulla regressione in modo da lasciare fuori un tipo di cellula per indagare la sua capacità di generalizzazione in nuovi tipi di cellule, simile allo scenario di test 4. Per questo caso DeepCRISPR ha ottenuto prestazioni simili a quelle di uno schema di classificazione e ha superato gli altri metodi come valutato dalla correlazione di Spearman (Fig. 2f, Additional file 2).

Test dello scenario 8 – schema di regressione su un set di dati indipendente

Siccome tutti i test precedenti (scenari 1-7) sono stati eseguiti sui quattro tipi di cellule (hct116, hek293t, hela e hl60) separando i dati per la formazione e il test, in questo caso abbiamo applicato un ulteriore set di dati che era totalmente indipendente dai nostri test precedenti per indagare le prestazioni di previsione on-target di DeepCRISPR. Questo set di dati, riportato recentemente utilizzando saggi di knock-out con reporter fluorescenti con verifica a loci endogeni selezionati per la misurazione dell’efficacia degli sgRNA knockout, contiene un totale di 425 sgRNA per le cellule HEL. Sia il tipo di cellule che la distribuzione dei dati sono diversi dai nostri precedenti test, e gli sgRNA non si sovrappongono ai precedenti set di dati. Pertanto, può servire come un ideale set di dati di test indipendente per indagare la capacità di generalizzazione di DeepCRISPR. In questo test, abbiamo riqualificato DeepCRISPR con solo le caratteristiche a livello di sequenza sui set di dati originali dei quattro tipi di cellule, poiché le caratteristiche epigenetiche del tipo di cellule HEL testate non sono disponibili in ENCODE. Il modello DeepCRISPR riqualificato è stato testato su questi dati cellulari HEL e confrontato con sgRNA designer, SSC, sgRNA scorer e CRISPRator. Sorprendentemente, DeepCRISPR non solo ha superato significativamente sgRNA designer, l’attuale stato-of-the-art strumento di predizione on-target, con un miglioramento quasi due volte misurato con correlazione Spearmen, ma anche superato CRISPRator, che è stato progettato specificamente per questo set di dati delle cellule HEL (Fig. 2g, file aggiuntivo 3). Questo test indipendente indica ulteriormente che DeepCRISPR ha una buona capacità di generalizzazione per i dati non visti, anche senza il contributo delle caratteristiche specifiche del tipo di cellula.

In sintesi, sia per i modelli di classificazione che di regressione, DeepCRISPR ha generalmente superato le alternative per la previsione on-target come misurato da ROC-AUC e correlazione Spearman. Inoltre, ha una buona capacità di generalizzazione del tipo di cella. Inoltre, si può notare che la quantità di dati di allenamento influenza le prestazioni del modello, e il potenziale dei modelli di deep learning può essere potenziato con quantità maggiori di dati di allenamento.

Valutazione di DeepCRISPR per la predizione del profilo off-target degli sgRNA dell’intero genoma

Allora abbiamo valutato la capacità di DeepCRISPR di predire i siti off-target. A questo scopo, abbiamo curato i dati del profilo off-target degli sgRNA umani dell’intero genoma rilevati da GUIDE-seq, Digenome-seq, BLESS, HTGTS e IDLV. Questi dati includono 30 sgRNA da due diversi tipi di cellule: la linea cellulare HEK 293 e i suoi derivati (18 sgRNA), e K562 t (12 sgRNA), che rappresentano ~ 160.000 possibili loci con un massimo di sei mismatch di nucleotide (vedi la sezione “Fonti di dati off-target”). Abbiamo anche formulato DeepCRISPR in uno schema di classificazione e di regressione per un confronto completo e rigoroso. Per il modello di classificazione, i siti off-target sono etichettati come “1” e gli altri come “0” (vedi la sezione “Fonti di dati off-target”). Per il modello di regressione, i siti off-target sono etichettati con l’efficacia di targeting misurata con la frequenza indel rilevata da diversi saggi (vedi la sezione “Fonti di dati off-target”). Poi sono stati progettati tre diversi scenari di test per la valutazione della predizione del profilo off-target.

Scenario di test 1

Abbiamo trattenuto il 20% dei dati per ogni tipo di cella come set di test indipendente. Il restante 80% dei dati è stato combinato insieme per addestrare il nostro modello e sintonizzare i parametri durante il processo di cross-validazione. Poiché l’intero set di dati era altamente sbilanciato con ~ 700 siti off-target veri, un efficiente algoritmo di campionamento bootstrapping è stato adattato nella procedura di formazione per alleviare lo squilibrio dei dati (vedi la sezione “Integrare il bootstrapping nella formazione in batch delle reti neurali profonde per affrontare il problema dello squilibrio dei dati”). Come risultato, il nostro modello finale di predizione del sito off-target addestrato è stato testato sui set di dati indipendenti per ciascuna delle due linee cellulari e confrontato con quattro degli attuali strumenti di predizione del sito off-target allo stato dell’arte, CFD score, MIT score, CROP-IT e CCTop. Questi strumenti sono stati progettati per la predizione del sito off-target degli sgRNA umani utilizzando vari punteggi off-target empiricamente definiti. Poiché l’intero set di dati non è bilanciato, il confronto è stato valutato utilizzando i valori AUC dalla curva ROC e precisione-richiamo per il modello di classificazione, e la correlazione Spearman e la correlazione Spearman pesata per il modello di regressione. Per un massimo di sei disadattamenti nucleotidici, i risultati dei test hanno indicato che DeepCRISPR ha superato tutti e quattro i metodi nei due tipi di cellule (Fig. 3a-c, Additional file 2). Nel complesso, DeepCRISPR ha raggiunto un ROC-AUC di 0,981 (Fig. 3a), PR-AUC di 0,497 (Fig. 3b), correlazione Spearman di 0,133 (Fig. 3c) e correlazione Spearman pesata di 0,186 (Fig. 3c), superando il secondo miglior metodo, cioè, il punteggio CFD (Fig. 3a-c).

Fig. 3
figura3

Valutazione di DeepCRISPR per la previsione del profilo off-target. a Confronto delle previsioni del profilo off-target sgRNA in uno schema di classificazione per vari set di dati, cioè, tipi di cellule legate alla 293 e la linea cellulare K562 con un massimo di sei mismatch. Le prestazioni sono state valutate con ROC-AUC. b Confronto delle previsioni del profilo off-target degli sgRNA in uno schema di classificazione per vari set di dati, cioè, tipi di cellule 293 e la linea cellulare K562 con un massimo di sei mismatch. Le prestazioni sono state valutate con PR-AUC. c Confronto delle previsioni del profilo off-target degli sgRNA in uno schema di regressione per vari set di dati, cioè, tipi di cellule 293 e la linea cellulare K562 con un massimo di sei discordanze. La performance è stata valutata con la correlazione Spearman. d Confronto delle previsioni del profilo sgRNA off-target in uno schema di regressione per vari set di dati, ad esempio, 293 tipi di cellule correlate e linea cellulare K562 con un massimo di sei mismatches. La performance è stata valutata con la correlazione ponderata di Spearman

E’ da notare che il miglioramento nella predizione off-target con DeepCRISPR è un margine relativamente piccolo rispetto al punteggio CFD valutato con ROC-AUC poiché il punteggio CFD aveva già raggiunto alte performance; Tuttavia, tale miglioramento è molto importante dal momento che quasi zero off-target è l’obiettivo finale per tutte le terapie geniche basate su CRISPR. Inoltre, va notato che tutti gli strumenti esistenti, tra cui DeepCRISPR, tendono a evitare di perdere i veri siti di scissione off-target pesando di più sui campioni positivi. Questo ha anche senso per la terapia genica basata su CRISPR, in quanto la penalità di mancare un vero sito off-target è sempre superiore a quella di indurre un falso positivo nella previsione del sito off-target. Ecco perché abbiamo adottato la correlazione ponderata di Spearman proposta da Listgarten et al. per affrontare tali problemi di asimmetria del peso. Il peso per ogni sito off-target è impostato proporzionalmente al suo ordine di rango secondo l’efficacia knock-out corrispondente misurata dalla frequenza indel. Tuttavia, tale schema di ponderazione è in realtà un compromesso per i falsi positivi. Pertanto, ridurre i falsi positivi puramente dai dati non pesati è ancora necessario ed è molto impegnativo. Per questo caso, si può vedere che DeepCRISPR ha notevolmente migliorato il valore PR-AUC rispetto agli altri metodi, indicando che DeepCRISPR può ridurre drasticamente i falsi positivi durante la predizione off-target..

Scenario di test 2

In questo scenario, per tutti i 30 sgRNA da due diversi tipi di cellule, abbiamo eseguito un test “lascia fuori il gruppo sgRNA”, che è un caso d’uso più rappresentativo per il rilevamento del profilo off-target. Tale test tiene casualmente un gruppo di sgRNA fuori (nel nostro caso tre sgRNA sono stati tenuti fuori) come dati di test, presentando una stima delle prestazioni predittive su un gruppo di sgRNA non visti (Fig. 4a). Questo assicura che le guide off-target per un sgRNA siano interamente nel test o nei set di allenamento. In questo caso, per entrambi i modelli di classificazione e regressione, DeepCRISPR raggiunto una media ROC-AUC di 0,804, PR-AUC di 0,303, correlazione Spearman di 0,201, e ponderata correlazione Spearman di 0,246 (Fig. 4a, file aggiuntivo 2). Il ROC-AUC per DeepCRISPR è paragonabile al risultato con il punteggio CFD, mentre altre misure, in particolare il PR-AUC (0,303), sono significativamente più alte rispetto al punteggio CFD (0,034), indicando che DeepCRISPR può aiutare a ridurre i falsi positivi per sgRNA non visti nella predizione off-target.

Fig. 4
figura4

a Leave sgRNAs group out comparison of sgRNA off-target efficacy prediction with ROC-AUC, PR-AUC, Spearman correlation, and weighted Spearman correlation. b Lascia sgRNA fuori confronto di sgRNA fuori bersaglio previsione efficacia con ROC-AUC, PR-AUC, correlazione di Spearman, e ponderata correlazione di Spearman. Le barre di errore in Fig. 4b indicano le varianze delle prestazioni medie nei diversi test

Scenario di test 3

In questo scenario, per tutti i 30 sgRNA, abbiamo eseguito 30 volte il test “leave one sgRNA out”, che è un caso estremo del test “leave sgRNA group out” come mostrato nello scenario di test 2 (Fig. 4b). Per entrambi i modelli di classificazione e regressione, DeepCRISPR raggiunto una media ROC-AUC di 0.841, PR-AUC di 0.421, correlazione Spearman di 0.132, e ponderata correlazione Spearman di 0.181 (Fig. 4b, file aggiuntivo 2). In questo caso, il ROC-AUC di DeepCRISPR è paragonabile al risultato del punteggio CFD, mentre altre misure, in particolare PR-AUC (0.421), sono superiori a quelle del punteggio CFD (0.333).

In sintesi, per entrambi i modelli di classificazione e regressione, DeepCRISPR ha generalmente superato il punteggio CFD, soprattutto con prestazioni migliori per ridurre i falsi positivi nella previsione off-target altamente squilibrato. Una cosa da notare è che il modello di classificazione è più adatto per la previsione off-target rispetto al modello di regressione poiché in questo caso ci interessa solo distinguere i siti off-target tra gli altri piuttosto che prevedere le loro affinità di legame. Inoltre, il modello di regressione è più sensibile e quindi richiede più dati per allenarlo. La versione attuale di DeepCRISPR è stata addestrata solo su campioni limitati come studio prototipo. Ci aspettiamo di potenziare DeepCRISPR con più campioni di allenamento, sfruttando appieno i vantaggi dei modelli profondi rispetto a quelli poco profondi.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *