DeepCRISPR : Conception optimisée d’ARN guide CRISPR par apprentissage profond

Entraînement de DeepCRISPR pour la prédiction des sites on-target et off-target des sgRNA

Apprentissage profond non supervisé pour la représentation des sgRNA

La première entrée de DeepCRISPR est l’ensemble complet des séquences sgRNA de 20 pb avec un PAM NGG à travers le génome humain. Nous avons extrait toutes les séquences sgRNA avec un NGG PAM des régions codantes et non codantes humaines. Ces données représentent environ 0,68 milliard de séquences sgRNA avec différentes informations épigénétiques provenant de 13 types de cellules humaines (voir la section « codage sgRNA avec caractéristiques génomiques et épigénétiques »). Elles servent de source de données non étiquetées à grande échelle pour la procédure de pré-entraînement suivante, qui vise à dériver une représentation efficace des caractéristiques des sgRNA. L’ensemble de la collecte et du prétraitement des données a été réalisé à l’aide d’une architecture de traitement des données à grande échelle basée sur SPARK avec accélération par unité de traitement graphique (GPU). Chaque sgRNA est initialement codé avec sa séquence et ses informations épigénétiques (voir la section « Codage des sgRNA avec les caractéristiques génomiques et épigénétiques »). Ensuite, avec ces séquences sgRNA non étiquetées, nous utilisons une stratégie d’apprentissage de représentation non supervisée pour entraîner un autoencodeur basé sur un réseau de neurones convolutif profond (DCDNN) afin d’apprendre automatiquement la représentation significative sous-jacente des sgRNA de manière non supervisée (Fig. 1c ; voir la section  » Autoencodeur basé sur DCDNN pour l’apprentissage de représentation « ). Une telle stratégie de débruitage permet d’entraîner l’auto-codeur à tolérer de manière robuste le bruit dans l’énorme quantité de données sgRNA. La justification intuitive de l’utilisation d’un auto-codeur est que les données non étiquetées avec codage et décodage peuvent être utilisées pour apprendre une représentation efficace. Cette représentation des caractéristiques apprises sera adaptée à la construction du modèle suivant. Le réseau formé à cette étape est appelé un réseau parent non supervisé et pré-formé pour une analyse ultérieure.

Fig. 1
figure1

Détails de mise en œuvre de DeepCRISPR. un schéma de codage sgRNA. Pour une région d’ADN, la séquence nucléotidique est représentée par quatre canaux, à savoir le canal A, le canal C, le canal G et le canal T, et chaque caractéristique épigénétique est considérée comme un canal. b Détails d’entraînement de DeepCRISPR pour la prédiction de l’efficacité on-target des sgRNA. Les fonctions Softmax et Identity correspondent respectivement aux modèles de classification et de régression. c Apprentissage de représentation profonde non supervisé basé sur des milliards de séquences sgRNA génomiques. d Détails de l’entraînement de DeepCRISPR pour la prédiction du profil hors cible des sgRNA. Les fonctions Softmax et Identity correspondent respectivement aux modèles de classification et de régression

Un réseau neuronal profond hybride finement ajusté pour la prédiction de l’efficacité d’élimination sur cible des sgRNA

Nous avons ensuite généré un réseau neuronal profond hybride pour la prédiction de l’efficacité d’élimination sur cible des sgRNA, comprenant deux parties. La première partie est l’ancien réseau DCDNN pré-entraîné (réseau parent), dont la sortie est utilisée comme entrée pour un réseau neuronal convolutif (CNN ; Fig. 1b, c ; voir la section  » Modèle CNN avec réglage fin basé sur le pré-entraînement « ). L’ensemble du réseau neuronal hybride a ensuite été entraîné sur la base des données étiquetées, c’est-à-dire les sgRNA collectés dont l’efficacité d’élimination sur cible est connue. La procédure de formation a non seulement permis d’apprendre les poids du réseau CNN, mais aussi d’ajuster les poids du réseau parent. Par conséquent, cette stratégie utilise des données étiquetées limitées pour ajuster les poids du réseau original de pré-formation et devrait améliorer la précision de la prédiction (Fig. 1b, c ; voir la section  » Modèle CNN avec ajustement fin basé sur la pré-formation « ). Dans notre étude, l’ensemble de données sgRNA étiquetées contient environ 0,2 million de sgRNA dont l’efficacité d’élimination est connue. Cet ensemble de données a été généré à partir d’environ 15 000 sgRNA sur 1071 gènes dont l’efficacité d’élimination est connue, selon une méthode d’augmentation des données (voir la section « Sources de données sur cible »), comme celle utilisée pour le traitement des données d’image (voir la section « Augmentation des données pour l’ensemble de données sur cible »). Les poids finaux réglés pour l’ensemble du réseau neuronal profond hybride ont été utilisés pour prédire l’efficacité d’élimination on-target d’un nouveau sgRNA. En outre, afin de réaliser des évaluations rigoureuses de DeepCRISPR, des modèles de classification et de régression pour la prédiction on-target ont été construits pour une comparaison complète.

Extension du modèle pour la prédiction du site hors cible des sgRNA en réutilisant le réseau parent

Nous avons également étendu le réseau neuronal hybride pour la prédiction du profil hors cible des sgRNA en réutilisant le réseau parent pré-entraîné (Fig. 1c, d). Tout d’abord, nous avons traité un sgRNA donné et son locus hors cible possible comme une paire d’échantillons, et ces paires d’échantillons sont considérées comme des échantillons d’entraînement hors cible. La paire d’échantillons a été codée en deux parties, l’une représentant le codage du sgRNA donné et l’autre le codage de son éventuel locus hors cible (figure 1c ; voir la section  » Codage du sgRNA avec caractéristiques génomiques et épigénétiques « ). Ce codage en deux parties présente une représentation précise et complète d’un échantillon hors cible en considérant la séquence originale de l’ARNg et la séquence non appariée comme un tout. Au cours de la formation, chaque partie de l’échantillon hors cible sgRNA a été insérée dans le réseau DCDNN préformé, c’est-à-dire le réseau parent, pour l’apprentissage de la représentation des caractéristiques. Ensuite, les sorties de ce réseau parent ont été combinées ensemble par canal pour le classificateur CNN suivant, comme pour la prédiction du site on-target (Fig. 1c). Dans notre étude, le réseau neuronal hybride complet a été entraîné sur la base d’ensembles de données sgRNA hors cible étiquetés contenant environ 160 000 échantillons (voir la section  » Sources de données hors cible « ). Un algorithme efficace de bootstrapping a été intégré à la formation par lots de ce réseau hybride, ce qui a permis d’atténuer le problème de déséquilibre des données dans la prédiction des sites hors cible (figure 5 ; voir la section  » Intégration du bootstrapping à la formation par lots des réseaux neuronaux profonds pour résoudre le problème de déséquilibre des données « ). Comme pour la prédiction de sites on-target, la procédure de formation a non seulement appris les poids du réseau CNN, mais a également réglé les poids du réseau parent, ce qui a donné lieu à deux  » bébés réseaux  » différents pour deux parties de l’échantillon sgRNA hors cible. Les poids finaux accordés pour les deux réseaux bébés ainsi que le réseau CNN ont été utilisés pour prédire le profil hors cible d’un ARNg donné. De même, afin d’obtenir des évaluations rigoureuses de DeepCRISPR, des modèles de classification et de régression pour la prédiction hors cible ont été construits pour une comparaison complète.

Comparaison de DeepCRISPR avec la prédiction de l’efficacité on-target des sgRNA de pointe

Pour évaluer la capacité de DeepCRISPR dans la prédiction de l’efficacité on-target des sgRNA, nous avons d’abord curaté des données de référence complètes sur l’efficacité de knockout on-target des sgRNA pour les humains, y compris quatre types de cellules différentes : à savoir , hct116 , hek293t , hela , et hl60 . Notez que ces ensembles de données ont également été utilisés par Haeussler et al. pour l’étude de référence. L’ensemble du jeu de données comprend ~ 15 000 sgRNA avec des efficacités de knockout connues et validées expérimentalement pour 1071 gènes. Dans notre étude, nous avons formulé DeepCRISPR soit dans un schéma de classification soit dans un schéma de régression pour une comparaison complète et rigoureuse. Pour le modèle de classification, l’efficacité de knockout connue a été étiquetée de manière binaire (voir la section « Sources de données on-target »). Pour le modèle de régression, l’efficacité connue du knockout a été intégrée et étiquetée de manière numérique (voir la section « Sources de données sur la cible »). Ensuite, huit scénarios de test différents ont été soigneusement conçus pour des comparaisons complètes et objectives de DeepCRISPR avec des outils de pointe. Grâce à ces comparaisons, nous fournissons des preuves solides que (1) les modèles d’apprentissage profond (sans pré-entraînement non supervisé) sont supérieurs aux modèles d’apprentissage superficiel ; (2) la stratégie de pré-entraînement non supervisé augmente les performances du modèle ; (3) l’augmentation des données améliore encore les performances et la robustesse du modèle ; (4) DeepCRISPR se généralise généralement bien dans de nouveaux types de cellules pour la prédiction de l’efficacité de l’élimination on-target des sgRNA ; (5) DeepCRISPR apprend efficacement la représentation des caractéristiques de haut niveau en évitant l’ingénierie manuelle des caractéristiques pour la conception de sgRNA, indiquée par les comparaisons pomme à pomme avec le concepteur de sgRNA réentraîné (les modèles de classification ou de régression basés sur le gradient-boost) avec les mêmes données d’entraînement, tout en ayant des caractéristiques différentes ; (6) DeepCRISPR est robuste avec des performances supérieures pour les modèles de classification et de régression.

Scénario de test 1-schéma de classification

Dans ce test, pour les ~ 15 000 sgRNA originaux avec des efficacités de knockout connues de quatre types de cellules, 20 % des données de chaque type de cellule ont été stratifiées par étiquettes de données et utilisées comme ensembles de test indépendants. Les 80 % restants des données de chaque type de cellule ont été combinés ensemble pour l’entraînement du modèle et le réglage des paramètres pendant le processus de validation croisée. Le modèle de classification profond basé sur le CNN sans pré-entraînement non supervisé et sans augmentation des données (appelé « CNN ») a été entraîné et testé sur les données de test indépendantes pour les quatre lignées cellulaires, respectivement, et comparé à huit outils de pointe entraînés avec des données de lignées cellulaires humaines, notamment sgRNA Designer , SSC , CHOPCHOP , CRISPR MultiTargeter , E-CRISP , sgRNA Scorer , Cas-Designer et WU-CRISPR (Fig. 2a, b). Ces outils couvrent toutes les méthodes disponibles conçues pour la prédiction de l’efficacité des sgRNA humains, soit par un modèle d’apprentissage, soit par une fonction de notation basée sur des hypothèses (voir le fichier supplémentaire 1 pour une liste complète des outils actuels et les raisons pour lesquelles nous avons sélectionné ces outils pour la comparaison). La comparaison a été évaluée à l’aide des valeurs de l’aire sous la courbe caractéristique d’exploitation du récepteur (ROC) (AUC) . La comparaison a indiqué qu’en moyenne, DeepCRISPR a atteint une ROC-AUC globale de 0,796, surpassant les huit méthodes avec une amélioration maximale de ~ 113 % par rapport à sgRNA Designer (avec 0,5 ROC-AUC comme ligne de base), qui est l’outil le plus performant suivant (Fig. 2a, b, fichier supplémentaire 2).

Fig. 2
figure2

Evaluation de DeepCRISPR pour la prédiction de l’efficacité on-target. a, b Comparaison des prédictions d’efficacité on-target des sgRNA dans un schéma de classification pour divers ensembles de données, à savoir , a, b Comparaison des prédictions d’efficacité on-target des sgRNA dans un schéma de classification pour divers ensembles de données, à savoir la lignée cellulaire hct116, la lignée cellulaire hek293t, la lignée cellulaire hela, la lignée cellulaire hl60 et l’ensemble des données de test. c Comparaison de la perte d’apprentissage pour deux modèles de classification DeepCRISPR différents. d Comparaison de la prédiction d’efficacité on-target des sgRNA dans un schéma de classification sans tenir compte du type de cellule. e Comparaison des prédictions d’efficacité on-target des sgRNA dans un schéma de régression pour divers ensembles de données, à savoir la lignée cellulaire hct116, la lignée cellulaire hek293t, la lignée cellulaire hela et la lignée cellulaire hl60, la lignée cellulaire hct116, la lignée cellulaire hek293t, la lignée cellulaire hela, la lignée cellulaire hl60 et l’ensemble des données de test. f Ne pas tenir compte du type de cellule dans la comparaison de la prédiction de l’efficacité des sgRNA sur cible dans un schéma de régression. g Comparaison des prédictions d’efficacité on-target des sgRNA dans un ensemble de données indépendant avec une corrélation de Spearman

Testing scenario 2-schéma de classification

Dans ce test, nous avons encore construit notre modèle avec un pré-entraînement non supervisé sur ~ 0.68 milliards de sgRNAs non étiquetés (dénoté comme « pt CNN »). Nous avons utilisé les mêmes données de formation et de test que pour le scénario de test 1. Les sgRNA se chevauchant entre les données d’entraînement et de test ont été supprimés. Le CNN pré-entraîné a atteint un ROC-AUC global de 0,836 avec une amélioration de 142 % par rapport au concepteur de sgRNA (avec un ROC-AUC de 0,5 comme ligne de base ; Fig. 2a, b ; fichier additionnel 2).

Scénario de test 3-schéma de classification

Nous avons en outre construit notre modèle DeepCRISPR final avec un CNN basé sur le pré-entraînement plus une augmentation des données (désigné par  » pt + aug CNN « ). Les données de formation ont été augmentées tandis que les données de test étaient identiques à celles des scénarios de test 1 et 2. Les sgRNA qui se chevauchent entre les données de formation et de test ont été supprimés. Dans ce cas, DeepCRISPR a atteint un ROC-AUC global de 0,857, avec une amélioration de 157 % par rapport au concepteur de sgRNA (avec un ROC-AUC de 0,5 comme référence ; Fig. 2a, b ; fichier supplémentaire 2). On constate que l’amélioration des performances est relativement faible par rapport au scénario d’essai 2, tandis que la fonction de perte pendant la formation converge rapidement et devient très robuste par rapport à celle du scénario d’essai 2 (Fig. 2c). Cela indique que l’augmentation de la quantité de données d’étiquettes peut aider à rendre le modèle robuste et à converger rapidement pendant la formation.

Scénario de test 4-schéma de classification

Dans ce scénario, nous avons testé davantage la capacité de généralisation de DeepCRISPR dans de nouveaux types de cellules. Pour les ~ 15 000 sgRNA originaux avec des efficacités de knockout connues de quatre types de cellules, 20 % des données de chaque type de cellules ont été stratifiées par étiquettes de données et utilisées comme ensembles de test indépendants. Les 80 % restants des données provenant de différents types de cellules ont été augmentés en tant que données d’entraînement, identiques à celles du scénario de test 3. Notre modèle a ensuite été entraîné quatre fois, en laissant un type de cellule de côté, en utilisant chaque fois les données d’entraînement combinées de trois types de cellules et en les testant sur l’ensemble de données indépendant laissant un type de cellule de côté. Les sgRNA se chevauchant entre les données d’entraînement et de test ont été supprimés. Ce scénario de test permet d’étudier la capacité de généralisation de DeepCRISPR sur de nouveaux types de cellules (Fig. 2d, fichier supplémentaire 2). Dans ce cas, la performance de DeepCRISPR sur quatre types de cellules a atteint un ROC-AUC moyen de 0,722, surpassant la deuxième meilleure méthode, le concepteur de sgRNA. On peut voir que pour les types de cellules hct116 et hela, la performance de DeepCRISPR était assez bonne. Pour le type de cellule hek293t, tous les outils de test (y compris DeepCRISPR) ont obtenu de mauvaises performances, principalement parce que ce type de cellule contient la majorité des échantillons. Par conséquent, les modèles d’entraînement sans données sur ce type de cellule sont inefficaces avec des données d’entraînement insuffisantes. De plus, afin d’étudier si les caractéristiques spécifiques au type de cellule, c’est-à-dire les caractéristiques épigénétiques spécifiques aux cellules, ajoutent réellement aux performances de DeepCRISPR, nous avons réentraîné DeepCRISPR sans caractéristiques épigénétiques (c’est-à-dire le modèle DeepCRISPR Seq-only dans la Fig. 2d) pour comparer les performances. On peut voir dans ce cas que la performance du modèle DeepCRISPR Seq-only a légèrement baissé par rapport au modèle original, ce qui indique que (1) les caractéristiques épigénétiques spécifiques aux cellules ajoutent à la performance de DeepCRISPR et (2) la contribution à la performance de prédiction de l’ajout de caractéristiques épigénétiques spécifiques aux cellules semble inférieure à celle de l’augmentation de la quantité de données d’entraînement, comme on peut le voir pour le type de cellule HEK293T. DeepCRISPR a obtenu des résultats modérés dans le type de cellules HL60. Comme la plupart des autres outils (y compris sgRNA designer, SSC, etc.) ont été entraînés sur la base des données HL60, leurs performances étaient généralement meilleures que celles de DeepCRISPR dans ce type de cellule spécifique. En résumé, nous concluons que DeepCRISPR a obtenu des performances généralement bonnes dans de nouveaux types de cellules pour la prédiction de l’efficacité du knockout on-target de sgRNA.

Scénario de test 5-schéma de classification

Dans ce test, nous fournissons une comparaison pommes à pommes plus rigoureuse et solide de DeepCRISPR avec sgRNA designer, le meilleur outil suivant lors de nos précédents tests.

Premièrement, nous avons rigoureusement conservé un environnement de comparaison identique pour DeepCRISPR et sgRNA designer avec les mêmes données d’entraînement et de test. Pour ce cas, nous avons réentraîné sgRNA Designer (https://github.com/MicrosoftResearch/Azimuth, un modèle peu profond basé sur la classification gradient boost) avec le même ensemble de données étiquetées augmentées que DeepCRISPR utilisé dans le scénario de test 3, et nous avons également gardé les données de test identiques. Ensuite, les deux représentations différentes suivantes des caractéristiques ont été effectuées : (1) nous avons codé le sgRNA avec notre représentation de la caractéristique de bas niveau (dénommée « retrained sgRNA designer with low-level feature »). Ce modèle a obtenu un ROC-AUC global de 0,751 (Fig. 2a, b, fichier additionnel 2) ; (2) nous avons codé le sgRNA avec les caractéristiques manuelles originales adoptées par le concepteur de sgRNA (dénommé « concepteur de sgRNA recyclé avec caractéristique manuelle »). Ce modèle a obtenu un ROC-AUC global de 0,778 (Fig. 2a, b, fichier supplémentaire 2). Par rapport à ces deux représentations différentes des caractéristiques, il est indiqué que le codage des caractéristiques de bas niveau ne convient pas aux modèles peu profonds ; par conséquent, le concepteur de sgRNA recyclé a obtenu de meilleures performances avec l’ingénierie et le codage manuels des caractéristiques basés sur le domaine. Néanmoins, ces résultats indiquent en outre que le modèle d’apprentissage profond peut apprendre efficacement la représentation des caractéristiques de haut niveau à partir des caractéristiques de bas niveau et rivaliser avec les modèles peu profonds en évitant l’ingénierie manuelle des caractéristiques pour la conception de sgRNA.

Deuxièmement, nous avons également effectué une comparaison leave one cell type out de DeepCRISPR avec le concepteur de sgRNA recyclé en utilisant notre représentation des caractéristiques one-hot. Le test a été réalisé sur les mêmes données d’entraînement et de test que celles du scénario de test 4 (figure 2d, fichier additionnel 2). On peut voir qu’en moyenne, DeepCRISPR surpasse toujours le sgRNA designer entraîné, ce qui indique sa supériorité de prédiction sur cible par rapport aux autres méthodes.

Scénario de test 6-schéma de régression

Dans ce test, nous avons encore entraîné DeepCRISPR dans un schéma de régression avec les efficacités d’élimination numériques originales des sgRNA. Les données de différentes expériences ont été intégrées de manière élégante, comme démontré dans la section « Sources de données sur cible ». Les performances ont été évaluées à l’aide de la corrélation de Spearman, telle qu’elle a été adaptée dans des études antérieures. L’ensemble de la comparaison a été effectué de la même manière que dans les scénarios de test 3 et 5, sauf que le modèle a été entraîné par régression. Le concepteur de sgRNA a également été réentraîné par régression avec les mêmes données d’entraînement et de test. On peut voir que dans ce cas, DeepCRISPR surpasse toujours les autres méthodes, comme évalué par la corrélation de Spearman (Fig. 2e, fichier additionnel 2).

Scénario de test 7-schéma de régression

Nous avons également testé le DeepCRISPR basé sur la régression de manière à laisser un type de cellule de côté pour étudier sa capacité de généralisation dans de nouveaux types de cellules, de manière similaire au scénario de test 4. Pour ce cas, DeepCRISPR a obtenu des performances similaires à celles d’un schéma de classification et a surpassé les autres méthodes comme évalué par la corrélation de Spearman (Fig. 2f, fichier additionnel 2).

Test du scénario 8-schéma de régression sur un ensemble de données indépendant

Puisque tous les tests précédents (scénarios 1-7) ont été effectués sur les quatre types de cellules (hct116, hek293t, hela, et hl60) en séparant les données pour l’entraînement et le test, dans ce cas, nous avons appliqué un ensemble de données supplémentaire totalement indépendant de nos tests précédents pour étudier la performance de prédiction sur cible de DeepCRISPR. Ce jeu de données, qui a récemment fait l’objet d’un rapport sur l’utilisation d’essais de knock-out à l’aide de rapporteurs fluorescents avec vérification de loci endogènes sélectionnés pour mesurer l’efficacité du knock-out des sgRNA, contient un total de 425 sgRNA pour les cellules HEL. Le type de cellule et la distribution des données sont différents de ceux de nos essais précédents, et les sgRNA ne se chevauchent pas avec les ensembles de données précédents. Par conséquent, il peut servir d’ensemble de données de test indépendant idéal pour étudier la capacité de généralisation de DeepCRISPR. Dans ce test, nous avons réentraîné DeepCRISPR avec uniquement des caractéristiques au niveau de la séquence sur les quatre ensembles de données de type cellulaire originaux, puisque les caractéristiques épigénétiques du type de cellule HEL testé ne sont pas disponibles dans ENCODE. Le modèle DeepCRISPR recyclé a été testé sur ces données de cellules HEL et comparé à sgRNA designer, SSC, sgRNA scorer, et CRISPRator. De manière surprenante, DeepCRISPR a non seulement surpassé de manière significative sgRNA designer, l’outil de pointe actuel de prédiction on-target, avec une amélioration de près de deux fois mesurée par la corrélation de Spearmen, mais a également surpassé CRISPRator, qui est conçu spécifiquement pour cet ensemble de données de cellules HEL (Fig. 2g, fichier supplémentaire 3). Ce test indépendant indique en outre que DeepCRISPR possède une bonne capacité de généralisation pour les données non vues, même sans la contribution des caractéristiques spécifiques au type de cellule.

En résumé, pour les modèles de classification et de régression, DeepCRISPR surpasse généralement les alternatives pour la prédiction sur cible, mesurée par ROC-AUC et la corrélation de Spearman. De plus, il a une bonne capacité de généralisation du type de cellule. En outre, on peut voir que la quantité de données d’entraînement influence la performance du modèle, et le potentiel des modèles d’apprentissage profond peut être stimulé avec de plus grandes quantités de données d’entraînement.

Évaluation de DeepCRISPR pour la prédiction du profil hors cible des sgRNA sur l’ensemble du génome

Nous avons ensuite évalué la capacité de DeepCRISPR à prédire les sites hors cible. À cette fin, nous avons analysé les données de profil hors cible du génome entier des sgRNA humains détectées par GUIDE-seq, Digenome-seq, BLESS, HTGTS et IDLV. Ces données comprennent 30 sgRNA provenant de deux types cellulaires différents : la lignée cellulaire HEK 293 et ses dérivés (18 sgRNA), et K562 t (12 sgRNA), représentant environ 160 000 loci possibles avec un maximum de six mésappariements nucléotidiques (voir la section « Sources de données hors cible »). Pour le modèle de classification, les sites hors cible sont étiquetés « 1 » et les autres sont étiquetés « 0 » (voir la section « Sources de données hors cible »). Pour le modèle de régression, les sites hors cible sont étiquetés avec les efficacités de ciblage mesurées avec la fréquence d’indel détectée par différents tests (voir la section « Sources de données hors cible »). Ensuite, trois scénarios de test différents ont été conçus pour l’évaluation de la prédiction du profil hors cible.

Scénario de test 1

Nous avons retenu 20% des données pour chaque type de cellule comme ensemble de test indépendant. Les 80 % de données restantes ont été combinées ensemble pour entraîner notre modèle et régler les paramètres au cours du processus de validation croisée. Étant donné que l’ensemble des données était très déséquilibré avec environ 700 sites hors cible réels, un algorithme d’échantillonnage bootstrapping efficace a été adapté à la procédure d’entraînement pour atténuer le déséquilibre des données (voir la section « Intégration du bootstrapping dans l’entraînement par lots des réseaux neuronaux profonds pour résoudre le problème du déséquilibre des données »). Par conséquent, notre modèle final de prédiction de sites hors cible a été testé sur des ensembles de données indépendants pour chacune des deux lignées cellulaires et comparé à quatre outils de prédiction de sites hors cible à la pointe de la technologie, CFD score , MIT score , CROP-IT , et CCTop . Ces outils ont été conçus pour la prédiction de sites hors cible de sgRNA humains en utilisant différents scores hors cible définis de manière empirique. L’ensemble des données n’étant pas équilibré, la comparaison a été évaluée à l’aide des valeurs AUC de la courbe ROC et de la courbe précision-rappel pour le modèle de classification, et de la corrélation de Spearman et de la corrélation de Spearman pondérée pour le modèle de régression. Pour un maximum de six mésappariements nucléotidiques, les résultats des tests ont indiqué que DeepCRISPR surpassait les quatre méthodes dans les deux types de cellules (figure 3a-c, fichier supplémentaire 2). Dans l’ensemble, DeepCRISPR a obtenu un ROC-AUC de 0,981 (Fig. 3a), un PR-AUC de 0,497 (Fig. 3b), une corrélation de Spearman de 0,133 (Fig. 3c) et une corrélation de Spearman pondérée de 0,186 (Fig. 3c), surpassant la deuxième meilleure méthode, c’est-à-dire le score CFD (Fig. 3a), le score CFD (Fig. 3a-c).

Fig. 3
figure3

Evaluation de DeepCRISPR pour la prédiction de profils hors cible. a Comparaison des prédictions de profils hors cible des sgRNA dans un schéma de classification pour différents ensembles de données, à savoir , types de cellules liées à 293 et lignée cellulaire K562 avec un maximum de six mésappariements. La performance a été évaluée avec ROC-AUC. b Comparaison des prédictions de profils hors cible d’ARNg dans un schéma de classification pour divers ensembles de données, c’est-à-dire les types de cellules liées à 293 et la lignée cellulaire K562 avec un maximum de six mésappariements. La performance a été évaluée à l’aide de PR-AUC. c Comparaison des prédictions de profils hors cible d’ARNg dans un schéma de régression pour différents ensembles de données, à savoir les types de cellules liées à 293 et la lignée cellulaire K562 avec un maximum de six mésappariements. Les performances ont été évaluées à l’aide de la corrélation de Spearman. d Comparaison des prédictions de profils hors cible d’ARNg dans un schéma de régression pour différents ensembles de données, à savoir les types de cellules liées à 293 et la lignée cellulaire K562 avec un maximum de six mésappariements. La performance a été évaluée avec une corrélation de Spearman pondérée

Il convient de noter que l’amélioration de la prédiction hors cible avec DeepCRISPR est une marge relativement faible par rapport au score CFD évalué avec ROC-AUC puisque le score CFD avait déjà atteint une performance élevée ; Néanmoins, une telle amélioration est très importante puisque l’objectif ultime de toutes les thérapies géniques basées sur CRISPR est un ciblage quasi nul. Il convient également de noter que tous les outils existants, y compris DeepCRISPR, ont tendance à éviter de manquer les véritables sites de clivage hors cible en accordant plus de poids aux échantillons positifs. Cela est également logique pour la thérapie génique basée sur CRISPR, car la pénalité pour avoir manqué un vrai site hors cible est toujours plus élevée que celle pour avoir induit un faux positif dans la prédiction du site hors cible. C’est pourquoi nous avons adopté la corrélation de Spearman pondérée proposée par Listgarten et al. pour résoudre ces problèmes d’asymétrie de poids. Le poids de chaque site hors cible est fixé proportionnellement à son ordre de classement en fonction de l’efficacité d’élimination correspondante mesurée par la fréquence des indel. Néanmoins, un tel schéma de pondération est en fait un compromis pour les faux positifs. Par conséquent, la réduction des faux positifs à partir de données non pondérées est toujours nécessaire et constitue un véritable défi. Pour ce cas, on peut voir que DeepCRISPR a grandement amélioré la valeur PR-AUC par rapport aux autres méthodes, ce qui indique que DeepCRISPR peut réduire considérablement les faux positifs pendant la prédiction hors cible..

Scénario de test 2

Dans ce scénario, pour l’ensemble des 30 sgRNA de deux types de cellules différents, nous avons effectué un test  » leave sgRNA group out « , qui est un cas d’utilisation plus représentatif de la détection de profils hors cible. Un tel test exclut aléatoirement un groupe de sgRNA (dans notre cas, trois sgRNA ont été exclus) comme données de test, présentant une estimation de la performance prédictive sur un groupe de sgRNA non vus (Fig. 4a). Cela permet de s’assurer que les guides hors cible pour un sgRNA sont entièrement dans les ensembles de test ou d’entraînement. Dans ce cas, pour les modèles de classification et de régression, DeepCRISPR a obtenu un ROC-AUC moyen de 0,804, un PR-AUC de 0,303, une corrélation de Spearman de 0,201 et une corrélation de Spearman pondérée de 0,246 (Fig. 4a, fichier supplémentaire 2). Le ROC-AUC pour DeepCRISPR est comparable au résultat avec le score CFD, tandis que d’autres mesures, notamment le PR-AUC (0,303), sont significativement plus élevées qu’avec le score CFD (0,034), ce qui indique que DeepCRISPR peut contribuer à réduire les faux positifs pour les sgRNA non vus dans la prédiction hors cible.

Fig. 4
figure4

a Leave sgRNAs group out comparison of sgRNA off-target efficacy prediction with ROC-AUC, PR-AUC, Spearman correlation, and weighted Spearman correlation. b Comparaison de la prédiction de l’efficacité hors cible des sgRNA avec ROC-AUC, PR-AUC, corrélation de Spearman et corrélation de Spearman pondérée. Les barres d’erreur dans la Fig. 4b indiquent les variances des performances moyennes dans les différents tests

Scénario de test 3

Dans ce scénario, pour les 30 sgRNA, nous avons effectué un test 30 fois leave one sgRNA out, qui est un cas extrême du test leave sgRNA group out tel qu’illustré dans le scénario de test 2 (Fig. 4b). Pour les modèles de classification et de régression, DeepCRISPR a obtenu un ROC-AUC moyen de 0,841, un PR-AUC de 0,421, une corrélation de Spearman de 0,132 et une corrélation de Spearman pondérée de 0,181 (Fig. 4b, fichier supplémentaire 2). Dans ce cas, le ROC-AUC de DeepCRISPR est comparable au résultat du score CFD, tandis que d’autres mesures, en particulier le PR-AUC (0,421), sont plus élevées qu’avec le score CFD (0,333).

En résumé, pour les modèles de classification et de régression, DeepCRISPR a généralement surpassé le score CFD, en particulier avec une meilleure performance pour réduire les faux positifs dans la prédiction hors cible hautement déséquilibrée. Il convient de noter que le modèle de classification est plus adapté à la prédiction hors cible que le modèle de régression, car dans ce cas, nous ne cherchons qu’à distinguer les sites hors cible parmi d’autres plutôt qu’à prédire leurs affinités de liaison. En outre, le modèle de régression est plus sensible et nécessite donc plus de données pour l’entraîner. La version actuelle de DeepCRISPR n’a été entraînée que sur des échantillons limités dans le cadre d’une étude prototype. Nous prévoyons de dynamiser DeepCRISPR avec davantage d’échantillons d’entraînement, en tirant pleinement parti des modèles profonds par rapport aux modèles superficiels.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *