Allenamento di DeepCRISPR per la predizione del sito sgRNA on-target e off-target
Apprendimento profondo non supervisionato per la rappresentazione degli sgRNA
Il primo input di DeepCRISPR è il set completo di sequenze di sgRNA da 20 bp con un PAM NGG attraverso il genoma umano. Abbiamo estratto tutte le sequenze sgRNA con un NGG PAM dalle regioni umane codificanti e non codificanti. Questi dati rappresentano ~ 0,68 miliardi di sequenze sgRNA con diverse informazioni epigenetiche curate da 13 tipi di cellule umane (vedi la sezione “codifica sgRNA con caratteristiche genomiche ed epigenetiche”). Essi servono come fonte di dati sgRNA non etichettati su larga scala per la seguente procedura di pre-addestramento per derivare un’efficiente rappresentazione delle caratteristiche degli sgRNA. L’intera raccolta dei dati e la pre-elaborazione sono state realizzate utilizzando un’architettura di elaborazione dati su larga scala basata su SPARK con accelerazione dell’unità di elaborazione grafica (GPU). Ogni sgRNA viene inizialmente codificato con la sua sequenza e le informazioni epigenetiche (vedi la sezione “codifica degli sgRNA con caratteristiche genomiche ed epigenetiche”). Poi, con queste sequenze sgRNA non etichettate in mano, usiamo una strategia di apprendimento profonda rappresentazione non supervisionata per addestrare una profonda rete neurale convoluzionaria denotante (DCDNN)-based autoencoder per imparare automaticamente la sottostante rappresentazione significativa di sgRNAs in modo non supervisionato (Fig. 1c; vedi la sezione “DCDNN-based autoencoder per l’apprendimento di rappresentazione”). Tale strategia di de-noising aiuta ad addestrare l’autoencoder a tollerare in modo robusto il rumore nell’enorme quantità di dati sgRNA. La logica intuitiva di usare l’autoencoder è che i dati non etichettati con la codifica e la decodifica possono essere usati per imparare una rappresentazione efficiente delle caratteristiche. Tale rappresentazione delle caratteristiche appresa sarà adattata alla seguente costruzione del modello. La rete addestrata in questa fase è definita una rete madre non supervisionata e pre-addestrata per ulteriori analisi.
Una rete neurale profonda ibrida messa a punto per la previsione dell’efficacia degli sgRNA on-target knockout
Allora abbiamo generato una rete neurale profonda ibrida per la previsione dell’efficacia degli sgRNA on-target knockout, composta da due parti. La prima parte è la precedente rete pre-addestrata basata su DCDNN (rete madre), il cui output viene utilizzato come ingresso per una rete neurale convoluzionaria (CNN; Fig. 1b, c; vedi la sezione “modello CNN con pre-addestramento basato sulla messa a punto”). L’intera rete neurale ibrida è stato poi addestrato sulla base dei dati etichettati, cioè, i sgRNA raccolti con noto on-target knockout efficacia. La procedura di formazione non solo imparato i pesi per la rete CNN-based, ma anche messo a punto i pesi della rete madre. Pertanto, questa strategia utilizza limitati dati etichettati per sintonizzare i pesi originali di rete pre-addestramento e si prevede di aumentare la precisione di previsione (Fig. 1b, c; vedi il “modello CNN con pre-addestramento basato fine-tuning” sezione). Nel nostro studio, il set di dati etichettati sgRNA contiene ~ 0,2 milioni di sgRNA con efficacia knockout noto. Questo set di dati è stato generato da ~ 15.000 sgRNA attraverso 1071 geni con efficacia knockout noto in un modo di aumento dei dati (vedi il “On-target fonti di dati” sezione), come quello utilizzato per l’elaborazione dei dati di immagine (vedi il “Aumento dei dati per on-target dataset” sezione). I pesi finali sintonizzati per l’intera rete neurale profonda ibrida sono stati utilizzati per prevedere l’efficacia knockout on-target di un nuovo sgRNA. Inoltre, al fine di ottenere valutazioni rigorose di DeepCRISPR, sono stati costruiti entrambi i modelli di classificazione e regressione per la predizione on-target per un confronto completo.
Estendere il modello per la predizione del sito off-target degli sgRNA riutilizzando la rete madre
Abbiamo anche esteso la rete neurale ibrida per la predizione del profilo off-target degli sgRNA riutilizzando la rete madre pre-addestrata (Fig. 1c, d). In primo luogo, abbiamo trattato un dato sgRNA e il suo possibile locus off-target come una coppia di campioni, e queste coppie di campioni sono stati presi come i campioni di allenamento off-target. La coppia di campioni è stata codificata in due parti, dove una parte rappresenta la codifica del dato sgRNA e l’altra rappresenta la codifica del suo possibile locus off-target (Fig. 1c; vedi la sezione “codifica sgRNA con caratteristiche genomiche ed epigenetiche”). Tale codifica in due parti presenta una rappresentazione accurata e completa di un campione off-target considerando la sequenza sgRNA originale e la sequenza non corrispondente nel suo insieme. Durante l’addestramento, ogni parte del campione sgRNA off-target è stato inserito nella rete pre-addestrato DCDNN-based, cioè, la rete genitore, per l’apprendimento rappresentazione delle caratteristiche. Successivamente, le uscite di questa rete genitore sono stati combinati insieme channel-wise per il seguente classificatore CNN, simile a on-target sito previsione (Fig. 1c). Nel nostro studio, la rete neurale ibrida completa è stata addestrata sulla base delle raccolte etichettate sgRNA off-target set di dati contenenti ~ 160.000 campioni (vedi la sezione “Off-target fonti di dati”). Un efficiente algoritmo di bootstrapping è stato integrato nella formazione batch di questa rete ibrida, alleviando il problema dello squilibrio dei dati nella previsione del sito off-target (Fig. 5; vedi la sezione “Integrare il bootstrapping nella formazione batch delle reti neurali profonde per affrontare il problema dello squilibrio dei dati”). Simile a quella di on-target previsione sito, la procedura di formazione non solo imparato i pesi per la rete CNN, ma anche sintonizzato i pesi della rete genitore, con conseguente due diverse “reti bambino” per due parti del sgRNA off-target campione. I pesi finali sintonizzati per le due reti bambino così come la rete CNN sono stati utilizzati per prevedere il profilo off-target di un dato sgRNA. Allo stesso modo, per ottenere valutazioni rigorose di DeepCRISPR, sono stati costruiti entrambi i modelli di classificazione e regressione per la previsione off-target per un confronto completo.
Confronto di DeepCRISPR con lo stato dell’arte della predizione dell’efficacia degli sgRNA on-target
Per valutare la capacità di DeepCRISPR nella predizione dell’efficacia degli sgRNA on-target, abbiamo prima curato dati di riferimento completi sull’efficacia degli sgRNA knockout on-target per gli esseri umani, compresi quattro diversi tipi di cellule: cioè, hct116 , hek293t , hela , e hl60 . Si noti che tali set di dati sono stati utilizzati anche da Haeussler et al. per lo studio di riferimento. L’intero set di dati comprende ~ 15.000 sgRNA con efficacia knockout sperimentalmente convalidata da 1071 geni. Nel nostro studio, abbiamo formulato DeepCRISPR in uno schema di classificazione o in uno schema di regressione per un confronto completo e rigoroso. Per il modello di classificazione, l’efficacia knockout noto è stato etichettato in modo binario (vedi la sezione “On-target fonti di dati”). Per il modello di regressione, l’efficacia knockout conosciuta è stata integrata ed etichettata in modo numerico (vedi la sezione “Fonti di dati on-target”). Poi, otto diversi scenari di test sono stati accuratamente progettati per confronti completi e oggettivi di DeepCRISPR con strumenti all’avanguardia. Attraverso tali confronti, forniamo prove concrete che (1) i modelli di apprendimento profondo (senza pre-addestramento non supervisionato) sono superiori ai modelli di apprendimento superficiale; (2) la strategia di pre-addestramento non supervisionato aumenta le prestazioni del modello; (3) l’aumento dei dati migliora ulteriormente le prestazioni del modello e la robustezza del modello; (4) DeepCRISPR si è generalizzato generalmente bene in nuovi tipi di cellule per la previsione dell’efficacia degli sgRNA on-target knockout; (5) DeepCRISPR apprende in modo efficiente la rappresentazione delle caratteristiche di alto livello evitando l’ingegneria manuale delle caratteristiche per la progettazione di sgRNA, come indicato dai confronti mela-a-mela con il progettista di sgRNA riqualificato (i modelli di classificazione o regressione basati su gradient-boost) con gli stessi dati di formazione, ma con caratteristiche diverse; (6) DeepCRISPR è robusto con prestazioni superiori per entrambi i modelli di classificazione e regressione.
Testing scenario 1 – schema di classificazione
In questo test, per i ~ 15.000 sgRNA originali con efficacia di knockout nota da quattro tipi di cellule, il 20% dei dati di ogni tipo di cellula sono stati stratificati per etichette di dati e utilizzati come set di test indipendenti. Il restante 80% dei dati di ogni tipo di cellula sono stati combinati insieme per la formazione del modello e la regolazione dei parametri durante il processo di convalida incrociata. Il profondo modello di classificazione basato su CNN senza pre-addestramento non supervisionato e l’aumento dei dati (indicato come “CNN”) è stato addestrato e testato sui dati di test indipendenti per le quattro linee cellulari, rispettivamente, e confrontato con otto strumenti all’avanguardia che sono stati addestrati con dati di linee cellulari umane, tra cui sgRNA Designer, SSC, CHOPCHOP, CRISPR MultiTargeter, E-CRISP, sgRNA Scorer, Cas-Designer, e WU-CRISPR (Fig. 2a, b). Questi strumenti coprono tutti i metodi disponibili progettati per la previsione dell’efficacia sgRNA umano, sia da un modello di apprendimento o una funzione di punteggio basato su ipotesi (vedi file aggiuntivo 1 per un elenco completo degli strumenti attuali e le ragioni che abbiamo selezionato questi strumenti per il confronto). Il confronto è stato valutato utilizzando i valori dell’area sotto la curva delle caratteristiche operative del ricevitore (ROC) (AUC) . Il confronto ha indicato che, in media, DeepCRISPR ha raggiunto un ROC-AUC complessivo di 0,796, superando tutti gli otto metodi con un miglioramento massimo di ~ 113% rispetto a sgRNA Designer (con 0,5 ROC-AUC come linea di base), che è il prossimo strumento più performante (Fig. 2a, b, Additional file 2).