DeepCRISPR: diseño optimizado de ARN guía CRISPR mediante aprendizaje profundo

Entrenamiento de DeepCRISPR para la predicción de sitios sgRNA on-target y off-target

Aprendizaje profundo no supervisado para la representación de sgRNA

La primera entrada de DeepCRISPR es el conjunto completo de secuencias sgRNA de 20 pb con una PAM NGG en todo el genoma humano. Extrajimos todas las secuencias de sgRNA con un NGG PAM de las regiones codificantes y no codificantes humanas. Estos datos suponen unos 0,68 mil millones de secuencias de sgRNA con diferente información epigenética curada de 13 tipos de células humanas (véase la sección «codificación de sgRNA con características genómicas y epigenéticas»). Sirven como fuente de datos de sgRNA a gran escala sin etiquetar para el siguiente procedimiento de preentrenamiento para derivar una representación eficiente de características de sgRNA. Toda la recopilación de datos y el preprocesamiento se realizaron utilizando una arquitectura de procesamiento de datos a gran escala basada en SPARK con aceleración de la unidad de procesamiento gráfico (GPU). Cada sgRNA se codifica inicialmente con su secuencia e información epigenética (véase la sección «Codificación de sgRNA con características genómicas y epigenéticas»). A continuación, con estas secuencias de sgRNAs sin etiquetar, utilizamos una estrategia de aprendizaje de representación profunda no supervisada para entrenar un autoencoder basado en una red neuronal convolutiva profunda (DCDNN) para aprender automáticamente la representación significativa subyacente de los sgRNAs de forma no supervisada (Fig. 1c; véase la sección «Autoencoder basado en DCDNN para el aprendizaje de representación»). Esta estrategia de de-noising ayuda a entrenar al autoencoder para que tolere de forma robusta el ruido en la enorme cantidad de datos de sgRNAs. La razón intuitiva para utilizar el autocodificador es que los datos no etiquetados con codificación y decodificación pueden utilizarse para aprender una representación de características eficiente. Dicha representación de características aprendida se ajustará a la siguiente construcción del modelo. La red entrenada en este paso se denomina red madre no supervisada y preentrenada para su posterior análisis.

Fig. 1
figure1

Detalles de la implementación de DeepCRISPR. un esquema de codificación de sgRNA. Para una región de ADN, la secuencia de nucleótidos está representada por cuatro canales, es decir, el canal A, el canal C, el canal G y el canal T, y cada característica epigenética se considera como un canal. b Detalles del entrenamiento de DeepCRISPR para la predicción de la eficacia del sgRNA en el objetivo. Las funciones Softmax e Identity corresponden a los modelos de clasificación y regresión, respectivamente. c Aprendizaje de representación profunda no supervisado basado en miles de millones de secuencias de sgRNA de todo el genoma. d Detalles del entrenamiento de DeepCRISPR para la predicción del perfil off-target del sgRNA. Las funciones Softmax e Identity corresponden a los modelos de clasificación y regresión, respectivamente

Una red neuronal profunda híbrida afinada para la predicción de la eficacia del sgRNA on-target knockout

A continuación, generamos una red neuronal profunda híbrida para la predicción de la eficacia del sgRNA on-target knockout, que consta de dos partes. La primera parte es la anterior red basada en DCDNN preentrenada (red madre), cuya salida se utiliza como entrada para una red neuronal convolutiva (CNN; Fig. 1b, c; véase la sección «Modelo CNN con ajuste fino basado en preentrenamiento»). Toda la red neuronal híbrida se entrenó a partir de los datos etiquetados, es decir, los sgRNAs recogidos con eficacia conocida de knockout en el objetivo. El procedimiento de entrenamiento no sólo aprendió los pesos de la red basada en la CNN, sino que también afinó los pesos de la red principal. Por lo tanto, esta estrategia utiliza datos etiquetados limitados para ajustar los pesos originales de la red de preentrenamiento y se espera que aumente la precisión de la predicción (Fig. 1b, c; véase la sección «Modelo CNN con preentrenamiento basado en el ajuste fino»). En nuestro estudio, el conjunto de datos de sgRNAs etiquetados contiene ~ 0,2 millones de sgRNAs con eficacia de noqueo conocida. Este conjunto de datos se generó a partir de ~ 15.000 sgRNAs a través de 1071 genes con eficacias de knockout conocidas de una manera de aumento de datos (véase la sección «Fuentes de datos on-target»), como la utilizada para el procesamiento de datos de imágenes (véase la sección «Aumento de datos para el conjunto de datos on-target»). Los pesos finales ajustados para toda la red neuronal profunda híbrida se utilizaron para predecir la eficacia del knockout on-target de un nuevo sgRNA. Además, para lograr evaluaciones rigurosas de DeepCRISPR, se construyeron modelos de clasificación y regresión para la predicción on-target para una comparación exhaustiva.

Extensión del modelo para la predicción del sitio off-target del sgRNA mediante la reutilización de la red padre

También extendimos la red neuronal híbrida para la predicción del perfil off-target del sgRNA mediante la reutilización de la red padre pre-entrenada (Fig. 1c, d). En primer lugar, tratamos un sgRNA dado y su posible locus off-target como un par de muestras, y estos pares de muestras se toman como las muestras de entrenamiento off-target. El par de muestras se codificó en dos partes, donde una parte representa la codificación del sgRNA dado y la otra representa la codificación de su posible locus off-target (Fig. 1c; véase la sección «Codificación de sgRNA con características genómicas y epigenéticas»). Esta codificación en dos partes presenta una representación precisa y completa de una muestra fuera del objetivo al considerar la secuencia original del sgRNA y la secuencia no coincidente como un todo. Durante el entrenamiento, cada parte de la muestra de sgRNA off-target se ajustaba a la red basada en DCDNN preentrenada, es decir, la red madre, para el aprendizaje de la representación de características. A continuación, las salidas de esta red madre se combinaron entre sí por canales para el siguiente clasificador CNN, de forma similar a la predicción del sitio on-target (Fig. 1c). En nuestro estudio, la red neuronal híbrida completa se entrenó basándose en los conjuntos de datos etiquetados de sgRNA fuera del objetivo que contenían ~ 160.000 muestras (véase la sección «Fuentes de datos fuera del objetivo»). Se integró un algoritmo eficiente de bootstrapping en el entrenamiento por lotes de esta red híbrida, aliviando el problema del desequilibrio de datos en la predicción de sitios fuera del objetivo (Fig. 5; véase la sección «Integración del bootstrapping en el entrenamiento por lotes de redes neuronales profundas para abordar el problema del desequilibrio de datos»). Al igual que en la predicción de sitios on-target, el procedimiento de entrenamiento no sólo aprendió los pesos de la red CNN, sino que también ajustó los pesos de la red madre, dando como resultado dos «redes bebé» diferentes para dos partes de la muestra de sgRNA off-target. Los pesos finales ajustados para las dos redes bebé, así como la red CNN, se utilizaron para predecir el perfil fuera de objetivo de un sgRNA dado. Del mismo modo, con el fin de lograr evaluaciones rigurosas de DeepCRISPR, se construyeron tanto modelos de clasificación como de regresión para la predicción off-target para una comparación exhaustiva.

Comparación de DeepCRISPR con la predicción de eficacia on-target de sgRNAs de última generación

Para evaluar la capacidad de DeepCRISPR en la predicción de eficacia on-target de sgRNAs, primero curamos datos de referencia de eficacia on-target de sgRNAs para humanos, incluyendo cuatro tipos de células diferentes: i.e., hct116 , hek293t , hela , y hl60 . Obsérvese que estos conjuntos de datos también fueron utilizados por Haeussler et al. para el estudio de referencia. El conjunto de datos incluye ~ 15.000 sgRNAs con eficacias de knockout conocidas y validadas experimentalmente de 1071 genes. En nuestro estudio, formulamos DeepCRISPR en un esquema de clasificación o en un esquema de regresión para una comparación exhaustiva y rigurosa. Para el modelo de clasificación, la eficacia de knockout conocida se etiquetó de forma binaria (véase la sección «Fuentes de datos on-target»). Para el modelo de regresión, la eficacia conocida del knockout se integró y etiquetó de forma numérica (véase la sección «Fuentes de datos sobre el objetivo»). A continuación, se diseñaron cuidadosamente ocho escenarios de prueba diferentes para realizar comparaciones exhaustivas y objetivas de DeepCRISPR con las herramientas más modernas. A través de estas comparaciones, proporcionamos pruebas sólidas de que (1) los modelos de aprendizaje profundo (sin preentrenamiento no supervisado) son superiores a los modelos de aprendizaje superficial; (2) la estrategia de preentrenamiento no supervisado aumenta el rendimiento del modelo; (3) el aumento de datos mejora aún más el rendimiento y la solidez del modelo; (4) DeepCRISPR se generaliza generalmente bien en nuevos tipos de células para la predicción de la eficacia del knockout on-target de sgRNA; (5) DeepCRISPR aprende eficientemente la representación de características de alto nivel evitando la ingeniería manual de características para el diseño de sgRNA, indicado por las comparaciones manzana a manzana con el diseñador de sgRNA reentrenado (los modelos de clasificación o regresión basados en gradiente-boost) con los mismos datos de entrenamiento, mientras que con diferentes características; (6) DeepCRISPR es robusto con un rendimiento superior para ambos modelos de clasificación y regresión.

Escenario de prueba 1-esquema de clasificación

En esta prueba, para los ~ 15.000 sgRNAs originales con eficacias knockout conocidas de cuatro tipos de células, el 20% de los datos de cada tipo de célula fueron estratificados por etiquetas de datos y utilizados como conjuntos de prueba independientes. El 80% restante de los datos de cada tipo celular se combinó para el entrenamiento del modelo y el ajuste de los parámetros durante el proceso de validación cruzada. El modelo de clasificación profundo basado en CNN sin preentrenamiento no supervisado ni aumento de datos (denotado como «CNN») se entrenó y probó en los datos de prueba independientes para las cuatro líneas celulares, respectivamente, y se comparó con ocho herramientas de vanguardia que se entrenaron con datos de líneas celulares humanas, incluyendo sgRNA Designer , SSC , CHOPCHOP , CRISPR MultiTargeter , E-CRISP , sgRNA Scorer , Cas-Designer , y WU-CRISPR (Fig. 2a, b). Estas herramientas cubren todos los métodos disponibles diseñados para la predicción de la eficacia del sgRNA humano, ya sea mediante un modelo de aprendizaje o una función de puntuación basada en hipótesis (véase el archivo adicional 1 para una lista completa de las herramientas actuales y las razones por las que seleccionamos estas herramientas para la comparación). La comparación se evaluó utilizando los valores del área bajo la curva de características operativas del receptor (AUC) . La comparación indicó que, en promedio, DeepCRISPR alcanzó un ROC-AUC general de 0,796, superando a los ocho métodos con una mejora máxima de ~ 113% sobre sgRNA Designer (con 0,5 ROC-AUC como línea de base), que es la siguiente herramienta de mayor rendimiento (Fig. 2a, b, archivo adicional 2).

Fig. 2
figure2

Evaluación de DeepCRISPR para la predicción de la eficacia en el objetivo. a, b Comparación de las predicciones de eficacia del sgRNA en el objetivo en un esquema de clasificación para varios conjuntos de datos, es decir, línea celular hct116, línea celular hek293t, línea celular hela, línea celular hl60 y el conjunto de datos de prueba. c Comparación de la pérdida de entrenamiento para dos modelos de clasificación DeepCRISPR diferentes. d Comparación de la predicción de la eficacia del sgRNA en el objetivo en un esquema de clasificación sin incluir el tipo de célula. e Comparación de las predicciones de la eficacia del sgRNA en el objetivo en un esquema de regresión para varios conjuntos de datos, es decir, línea celular hct116, línea celular hek293t, línea celular hela, línea celular hl60 y el conjunto de datos de prueba global. g Comparación de las predicciones de eficacia del sgRNA en el objetivo en un conjunto de datos independiente con correlación de Spearman

Escenario de prueba 2-esquema de clasificación

En esta prueba, construimos además nuestro modelo con preentrenamiento no supervisado en ~ 0.68 mil millones de sgRNAs sin etiquetar (denotado como «pt CNN»). Se utilizaron los mismos datos de entrenamiento y prueba que en el escenario de prueba 1. Se eliminaron los sgRNAs que se solapaban entre los datos de entrenamiento y de prueba. La CNN preentrenada alcanzó un ROC-AUC general de 0,836 con una mejora del 142% sobre el diseñador de sgRNA (con un ROC-AUC de 0,5 como línea de base; Fig. 2a, b; archivo adicional 2).

Esquema de clasificación del escenario de prueba 3

Además, construimos nuestro modelo final de DeepCRISPR con una CNN basada en el preentrenamiento más el aumento de datos (denotado como «pt + aug CNN»). Los datos de entrenamiento fueron aumentados mientras que los datos de prueba fueron idénticos a los de los escenarios de prueba 1 y 2. Se eliminaron los sgRNAs superpuestos entre los datos de entrenamiento y de prueba. Para este caso, DeepCRISPR alcanzó un ROC-AUC general de 0,857, con una mejora del 157% sobre el diseñador de sgRNA (con un ROC-AUC de 0,5 como línea de base; Fig. 2a, b; archivo adicional 2). Se puede ver que la mejora en el rendimiento fue relativamente pequeña en comparación con el escenario de prueba 2, mientras que encontramos que la función de pérdida durante el entrenamiento convergió rápidamente y se hizo muy robusta en comparación con la del escenario de prueba 2 (Fig. 2c). Esto indica que el aumento de la cantidad de datos de la etiqueta puede ayudar a que el modelo sea robusto y converja rápidamente durante el entrenamiento.

Escenario de prueba 4-esquema de clasificación

En este escenario, probamos aún más la capacidad de generalización de DeepCRISPR en nuevos tipos de células. Para los ~ 15.000 sgRNAs originales con eficacias de knockout conocidas de cuatro tipos de células, el 20% de los datos de cada tipo de célula se estratificaron por etiquetas de datos y se utilizaron como conjuntos de pruebas independientes. El 80% restante de los datos de los diferentes tipos celulares se incrementó como datos de entrenamiento, idénticos a los del escenario de prueba 3. A continuación, nuestro modelo se entrenó de forma cuádruple «dejando fuera un tipo de célula», utilizando cada vez los datos de entrenamiento combinados de tres tipos de células y probando en el conjunto de datos independiente de un tipo de célula. Se eliminaron los sgRNAs que se solapaban entre los datos de entrenamiento y los de prueba. Este escenario de prueba investiga la capacidad de generalización de DeepCRISPR en nuevos tipos de células (Fig. 2d, archivo adicional 2). Para este caso, el rendimiento de DeepCRISPR en cuatro tipos de células alcanzó un ROC-AUC medio de 0,722, superando al segundo mejor método, el diseñador de sgRNA. Se puede observar que para los tipos celulares hct116 y hela, el rendimiento de DeepCRISPR fue bastante bueno. Para el tipo celular hek293t, todas las herramientas de prueba (incluyendo DeepCRISPR) tuvieron un rendimiento pobre, principalmente debido a que este tipo celular contiene la mayoría de las muestras. Por lo tanto, los modelos de entrenamiento sin datos de este tipo de células son ineficientes con datos de entrenamiento insuficientes. Además, para investigar si las características específicas del tipo de célula, es decir, las características epigenéticas específicas de la célula, realmente se suman al rendimiento de DeepCRISPR, volvimos a entrenar DeepCRISPR sin características epigenéticas (es decir, el modelo Seq-only DeepCRISPR en la Fig. 2d) para comparar el rendimiento. En este caso, se puede observar que el rendimiento del modelo DeepCRISPR sólo con Seq disminuyó ligeramente en comparación con el original, lo que indica que (1) las características epigenéticas específicas de la célula se suman al rendimiento de DeepCRISPR y (2) la contribución al rendimiento de la predicción de la adición de características epigenéticas específicas de la célula parece ser menor que la de aumentar la cantidad de datos de entrenamiento, como se puede ver para el tipo de célula HEK293T. DeepCRISPR tuvo un rendimiento moderado en el tipo celular HL60. Dado que la mayoría de las otras herramientas (incluyendo el diseñador de sgRNA, SSC, etc.) fueron entrenadas en base a los datos de HL60, su rendimiento fue generalmente mejor que el de DeepCRISPR en este tipo celular específico. Como resumen, concluimos que DeepCRISPR tuvo un buen rendimiento en general en los nuevos tipos de células para la predicción de la eficacia del sgRNA on-target knockout.

Prueba del escenario 5-esquema de clasificación

En esta prueba, proporcionamos una comparación más rigurosa y sólida de DeepCRISPR con sgRNA designer, la siguiente mejor herramienta durante nuestras pruebas anteriores.

En primer lugar, mantuvimos rigurosamente un entorno de comparación idéntico para DeepCRISPR y sgRNA designer con los mismos datos de entrenamiento y prueba. Para este caso, volvimos a entrenar a sgRNA Designer (https://github.com/MicrosoftResearch/Azimuth, un modelo superficial basado en gradient boost) con el mismo conjunto de datos etiquetados aumentados que DeepCRISPR utilizó en el escenario de prueba 3, y también mantuvimos los datos de prueba idénticos. A continuación, se realizaron las siguientes dos representaciones de características diferentes: (1) codificamos el sgRNA con nuestra representación de características de un solo nivel (denotado como «diseñador de sgRNA reentrenado con características de bajo nivel»). Este modelo alcanzó un ROC-AUC general de 0,751 (Fig. 2a, b, archivo adicional 2); (2) codificamos el sgRNA con las características originales diseñadas manualmente adoptadas por el diseñador de sgRNA (denotado como «diseñador de sgRNA reentrenado con característica manual»). Este modelo alcanzó un ROC-AUC general de 0,778 (Fig. 2a, b, archivo adicional 2). En comparación con estas dos representaciones de características diferentes, se indica que la codificación de características de bajo nivel no es adecuada para los modelos superficiales; por lo tanto, el diseñador de sgRNA reentrenado logró un mejor rendimiento con la ingeniería de características basada en el dominio manual y la codificación de características. Sin embargo, estos resultados indican además que el modelo de aprendizaje profundo puede aprender eficientemente la representación de características de alto nivel a partir de características de bajo nivel y competir con los modelos superficiales evitando la ingeniería manual de características para el diseño de sgRNA.

En segundo lugar, también realizamos una comparación de dejar un tipo de célula fuera de DeepCRISPR con el diseñador de sgRNA reentrenado utilizando nuestra representación de características de un solo disparo. La prueba se realizó con los mismos datos de entrenamiento y prueba que los del escenario de prueba 4 (Fig. 2d, archivo adicional 2). Se puede ver que, en promedio, DeepCRISPR todavía superó al diseñador de sgRNA reentrenado, lo que indica su superioridad de predicción en el objetivo en comparación con otros métodos.

Escenario de prueba 6-esquema de regresión

En esta prueba, entrenamos aún más a DeepCRISPR en un esquema de regresión con las eficacias numéricas originales del sgRNA knockout. Los datos de diferentes experimentos se integraron de una manera elegante, como se demostró en la sección «Fuentes de datos on-target». El rendimiento se evaluó con la correlación de Spearman, tal como se adaptó en estudios anteriores. Toda la comparación se realizó de forma similar a la de los escenarios de prueba 3 y 5, excepto que el modelo se entrenó de forma regresiva. También el diseñador de sgRNAs fue reentrenado de forma regresiva con los mismos datos de entrenamiento y prueba. Se puede ver que en este caso DeepCRISPR todavía superó a los otros métodos según la evaluación de la correlación de Spearman (Fig. 2e, archivo adicional 2).

Escenario de prueba 7-esquema de regresión

También probamos el DeepCRISPR basado en la regresión de una manera de dejar un tipo de célula fuera para investigar su capacidad de generalización en nuevos tipos de células, similar al escenario de prueba 4. Para este caso, DeepCRISPR logró un rendimiento similar a los de un esquema de clasificación y superó a los otros métodos según la evaluación de la correlación de Spearman (Fig. 2f, archivo adicional 2).

Prueba del escenario 8-esquema de regresión en un conjunto de datos independiente

Dado que todas las pruebas anteriores (escenarios 1-7) se llevaron a cabo en los cuatro tipos de células (hct116, hek293t, hela y hl60) separando los datos para el entrenamiento y la prueba, en este caso aplicamos un conjunto de datos adicional que era totalmente independiente de nuestras pruebas anteriores para investigar el rendimiento de predicción en el objetivo de DeepCRISPR. Este conjunto de datos, reportado recientemente utilizando ensayos de knock-out con reportero fluorescente con verificación en loci endógenos seleccionados para la medición de la eficacia del knock-out con sgRNA, contiene un total de 425 sgRNAs para células HEL . Tanto el tipo de célula como la distribución de los datos son diferentes a nuestros ensayos anteriores, y los sgRNAs no se solapan con los conjuntos de datos anteriores. Por lo tanto, puede servir como un conjunto de datos independiente ideal para investigar la capacidad de generalización de DeepCRISPR. En esta prueba, volvimos a entrenar a DeepCRISPR sólo con características a nivel de secuencia en los conjuntos de datos originales de los cuatro tipos de células, ya que las características epigenéticas del tipo de célula HEL probado no están disponibles en ENCODE. El modelo DeepCRISPR reentrenado se probó en estos datos de células HEL y se comparó con sgRNA designer, SSC, sgRNA scorer y CRISPRator. Sorprendentemente, DeepCRISPR no sólo superó significativamente a sgRNA designer, la actual herramienta de predicción on-target de última generación, con una mejora de casi el doble medida con la correlación de Spearmen, sino que también superó a CRISPRator, que está diseñado específicamente para este conjunto de datos de células HEL (Fig. 2g, archivo adicional 3). Esta prueba independiente indica además que DeepCRISPR tiene una buena capacidad de generalización para los datos no vistos, incluso sin la contribución de las características específicas del tipo de célula.

En resumen, tanto para los modelos de clasificación como de regresión, DeepCRISPR superó en general a las alternativas para la predicción en el objetivo, según lo medido por el ROC-AUC y la correlación de Spearman. Además, tiene una buena capacidad de generalización del tipo de célula. Además, se puede ver que la cantidad de datos de entrenamiento influye en el rendimiento del modelo, y el potencial de los modelos de aprendizaje profundo puede ser impulsado con mayores cantidades de datos de entrenamiento.

Evaluación de DeepCRISPR para la predicción del perfil off-target de sgRNA de todo el genoma

A continuación, evaluamos la capacidad de DeepCRISPR para predecir sitios off-target. Para ello, curamos los datos del perfil off-target de sgRNAs humanos de todo el genoma detectados por GUIDE-seq, Digenome-seq, BLESS, HTGTS e IDLV. Estos datos incluyen 30 sgRNAs de dos tipos celulares diferentes: la línea celular HEK 293 y sus derivados (18 sgRNAs) , y K562 t (12 sgRNAs) , que representan ~ 160.000 posibles loci con un máximo de seis desajustes de nucleótidos (véase la sección «Fuentes de datos off-target»).También formulamos DeepCRISPR en un esquema de clasificación y otro de regresión para una comparación exhaustiva y rigurosa. Para el modelo de clasificación, los sitios fuera del objetivo se etiquetan como «1» y los demás como «0» (véase la sección «Fuentes de datos fuera del objetivo»). Para el modelo de regresión, los sitios fuera de objetivo se etiquetan con las eficacias de focalización medidas con la frecuencia de indel detectada por diferentes ensayos (véase la sección «Fuentes de datos fuera de objetivo»). A continuación, se diseñaron tres escenarios de prueba diferentes para la evaluación de la predicción del perfil off-target.

Escenario de prueba 1

Se retuvo el 20% de los datos de cada tipo de célula como conjunto de prueba independiente. El 80% restante de los datos se combinó para entrenar nuestro modelo y ajustar los parámetros durante el proceso de validación cruzada. Debido a que el conjunto de datos estaba muy desequilibrado con ~ 700 sitios reales fuera del objetivo, se adaptó un algoritmo de muestreo bootstrapping eficiente en el procedimiento de entrenamiento para aliviar el desequilibrio de los datos (véase la sección «Integración de bootstrapping en el entrenamiento por lotes de redes neuronales profundas para abordar el problema del desequilibrio de los datos»). Como resultado, nuestro modelo final de predicción de sitios fuera del objetivo se probó en los conjuntos de datos independientes para cada una de las dos líneas celulares y se comparó con cuatro de las herramientas actuales de predicción de sitios fuera del objetivo, CFD score , MIT score , CROP-IT , y CCTop . Estas herramientas fueron diseñadas para la predicción de sitios fuera del objetivo de sgRNA humanos utilizando varias puntuaciones fuera del objetivo definidas empíricamente. Dado que todo el conjunto de datos está desequilibrado, la comparación se evaluó utilizando los valores AUC de la curva ROC y de precisión-recuerdo para el modelo de clasificación, y la correlación de Spearman y la correlación de Spearman ponderada para el modelo de regresión. Para un máximo de seis desajustes de nucleótidos, los resultados de las pruebas indicaron que DeepCRISPR superó a los cuatro métodos en los dos tipos de células (Fig. 3a-c, archivo adicional 2). En general, DeepCRISPR alcanzó un ROC-AUC de 0,981 (Fig. 3a), PR-AUC de 0,497 (Fig. 3b), correlación de Spearman de 0,133 (Fig. 3c) y correlación de Spearman ponderada de 0,186 (Fig. 3c), superando al segundo mejor método, es decir la puntuación CFD (Fig. 3a-c).

Fig. 3
figure3

Evaluación de DeepCRISPR para la predicción de perfiles off-target. a Comparación de las predicciones de perfiles off-target de sgRNA en un esquema de clasificación para varios conjuntos de datos, a saber, tipos celulares relacionados con 293 y la línea celular K562 con un máximo de seis desajustes. El rendimiento se evaluó con el ROC-AUC. b Comparación de las predicciones del perfil fuera del objetivo del sgRNA en un esquema de clasificación para varios conjuntos de datos, es decir, tipos celulares relacionados con 293 y la línea celular K562 con un máximo de seis desajustes. El rendimiento se evaluó con PR-AUC. c Comparación de las predicciones del perfil fuera del objetivo del sgRNA en un esquema de regresión para varios conjuntos de datos, es decir, tipos celulares relacionados con 293 y la línea celular K562 con un máximo de seis desajustes. El rendimiento se evaluó con la correlación de Spearman. d Comparación de las predicciones del perfil fuera de objetivo del sgRNA en un esquema de regresión para varios conjuntos de datos, es decir, tipos celulares relacionados con 293 y la línea celular K562 con un máximo de seis desajustes. El rendimiento se evaluó con la correlación de Spearman ponderada

Cabe destacar que la mejora en la predicción off-target con DeepCRISPR es un margen relativamente pequeño en comparación con la puntuación CFD evaluada con ROC-AUC ya que la puntuación CFD ya había alcanzado un alto rendimiento; Sin embargo, esta mejora es muy importante, ya que el objetivo final de todas las terapias génicas basadas en CRISPR es que el off-targeting sea casi nulo. Además, hay que tener en cuenta que todas las herramientas existentes, incluida DeepCRISPR, tienden a evitar que se pierdan los verdaderos sitios de escisión fuera del objetivo ponderando más las muestras positivas. Esto también tiene sentido para la terapia génica basada en CRISPR, ya que la penalización por omitir un verdadero sitio fuera del objetivo es siempre mayor que la de inducir un falso positivo en la predicción del sitio fuera del objetivo. Por ello, adoptamos la correlación ponderada de Spearman propuesta por Listgarten et al. para abordar estos problemas de asimetría de pesos. El peso de cada sitio fuera del objetivo se establece de forma proporcional a su orden de clasificación de acuerdo con la correspondiente eficacia de knock-out medida por la frecuencia de indel. Sin embargo, este esquema de ponderación es en realidad un compromiso para los falsos positivos. Por lo tanto, sigue siendo necesario reducir los falsos positivos únicamente a partir de datos no ponderados, lo que supone un gran reto. Para este caso, se puede ver que DeepCRISPR mejoró en gran medida el valor PR-AUC en comparación con los otros métodos, lo que indica que DeepCRISPR puede reducir drásticamente los falsos positivos durante la predicción off-target.

Escenario de prueba 2

En este escenario, para todos los 30 sgRNAs de dos tipos de células diferentes, realizamos una prueba de «dejar el grupo de sgRNA fuera», que es un caso de uso más representativo para la detección de perfiles off-target. Esta prueba excluye aleatoriamente un grupo de sgRNAs (en nuestro caso se excluyeron tres sgRNAs) como datos de prueba, presentando una estimación del rendimiento predictivo en un grupo de sgRNAs no vistos (Fig. 4a). Se asegura que las guías fuera del objetivo para un sgRNA están completamente en los conjuntos de prueba o de entrenamiento. En este caso, tanto para los modelos de clasificación como para los de regresión, DeepCRISPR alcanzó un promedio de ROC-AUC de 0,804, PR-AUC de 0,303, correlación de Spearman de 0,201 y correlación de Spearman ponderada de 0,246 (Fig. 4a, archivo adicional 2). El ROC-AUC para DeepCRISPR es comparable al resultado con la puntuación CFD, mientras que otras medidas, especialmente el PR-AUC (0,303), son significativamente más altas que con la puntuación CFD (0,034), lo que indica que DeepCRISPR puede ayudar a reducir los falsos positivos para los sgRNAs no vistos en la predicción off-target.

Fig. 4
figure4

a Dejar el grupo de sgRNAs fuera de la comparación de la predicción de eficacia off-target de sgRNA con ROC-AUC, PR-AUC, correlación de Spearman y correlación de Spearman ponderada. b Dejar el sgRNA fuera de la comparación de la predicción de la eficacia del sgRNA fuera del objetivo con ROC-AUC, PR-AUC, correlación de Spearman y correlación de Spearman ponderada. Las barras de error en la Fig. 4b indican las varianzas de los rendimientos medios en diferentes pruebas

Escenario de prueba 3

En este escenario, para todos los 30 sgRNAs, realizamos 30 veces la prueba de dejar un sgRNA fuera, que es un caso extremo de la prueba de dejar el grupo de sgRNA fuera como se muestra en el escenario de prueba 2 (Fig. 4b). Tanto para los modelos de clasificación como para los de regresión, DeepCRISPR alcanzó un promedio de ROC-AUC de 0,841, PR-AUC de 0,421, correlación de Spearman de 0,132 y correlación de Spearman ponderada de 0,181 (Fig. 4b, archivo adicional 2). En este caso, el ROC-AUC de DeepCRISPR es comparable al resultado de la puntuación CFD, mientras que otras medidas, especialmente el PR-AUC (0,421), son más altas que con la puntuación CFD (0,333).

En resumen, tanto para los modelos de clasificación como para los de regresión, DeepCRISPR superó en general a la puntuación CFD, especialmente con un mejor rendimiento para reducir los falsos positivos en la predicción fuera de objetivo altamente desequilibrada. Una cosa a tener en cuenta es que el modelo de clasificación es más adecuado para la predicción off-target en comparación con el modelo de regresión, ya que en este caso sólo nos importa distinguir los sitios off-target entre otros en lugar de predecir sus afinidades de unión. Además, el modelo de regresión es más sensible y por lo tanto requiere más datos para entrenarlo. La versión actual de DeepCRISPR sólo se ha entrenado con muestras limitadas como estudio prototipo. Esperamos potenciar DeepCRISPR con más muestras de entrenamiento, aprovechando al máximo las ventajas de los modelos profundos en comparación con los superficiales.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *