h3>Formação DeepCRISPR para sgRNA on-target e off-target site prediction
Deepervisionar aprendizagem não supervisionada para representação de sgRNA
A primeira entrada do DeepCRISPR é o conjunto completo de sequências sgRNA de 20-bp com um NGG PAM em todo o genoma humano. Extraímos todas as sequências de sgRNA com um NGG PAM de regiões codificadoras e não codificadoras humanas. Estes dados representam ~ 0,68 bilhões de sequências de sgRNA com diferentes informações epigenéticas curadas a partir de 13 tipos de células humanas (ver a secção “codificação de sgRNA com características genómicas e epigenéticas”). Servem como uma fonte de dados sgRNA não rotulada em grande escala para o seguinte procedimento de pré-treino para obter uma representação eficiente das características do sgRNA. Toda a recolha e pré-processamento de dados foi conseguida através da utilização de uma arquitectura de processamento de dados em larga escala baseada em SPARK com aceleração da unidade de processamento gráfico (GPU). Cada sgRNA é inicialmente codificado com a sua sequência e informação epigenética (ver a secção “codificação de sgRNA com características genómicas e epigenéticas”). Depois, com estas sequências de sgRNA não rotuladas em mãos, utilizamos uma estratégia de aprendizagem de representação profunda não supervisionada para treinar um autocodificador de rede neural (DCDNN) profundo e convolutivo para aprender automaticamente a representação significativa subjacente dos sgRNAs de uma forma não supervisionada (Fig. 1c; ver a secção “Autocodificador baseado em DCDNN para aprendizagem de representação”). Esta estratégia de desnudamento ajuda a treinar o autocodificador a tolerar robustamente o ruído na enorme quantidade de dados sgRNA. A razão intuitiva para utilizar o autocodificador é que os dados não etiquetados com codificação e descodificação podem ser utilizados para aprender uma representação eficiente de características. Tal representação de características aprendidas será adaptada ao seguinte modelo de construção. A rede treinada nesta etapa é denominada uma rede de pais não supervisionada e pré-formada para análise posterior.
Uma rede neural profunda híbrida afinada para a previsão da eficácia eliminatória do sgRNA on-target
A seguir geramos uma rede neural profunda híbrida para a previsão da eficácia eliminatória do sgRNA on-target, compreendendo duas partes. A primeira parte é a antiga rede pré-formada baseada em DCDNN (rede mãe), cuja saída é utilizada como entrada para uma rede neural convolutiva (CNN; Fig. 1b, c; ver a secção “Modelo CNN com afinação pré-formada baseada em afinação”). Toda a rede neural híbrida foi então treinada com base nos dados rotulados, ou seja, os sgRNAs recolhidos com eficácias nocturnas conhecidas no alvo. O procedimento de formação não só aprendeu os pesos para a rede baseada na CNN, mas também afinou os pesos da rede de origem. Por conseguinte, esta estratégia utiliza dados rotulados limitados para afinar os pesos originais da rede de pré-formação e espera-se que aumente a precisão da previsão (Fig. 1b, c; ver a secção “Modelo CNN com afinação baseada na pré-formação”). No nosso estudo, o conjunto de dados rotulado sgRNA contém ~ 0,2 milhões de sgRNAs com eficácia nocturna conhecida. Este conjunto de dados foi gerado a partir de ~ 15.000 sgRNAs através de 1071 genes com eficácia nocturna conhecida de uma forma de aumento de dados (ver a secção “Fontes de dados on-target”), como a utilizada para o processamento de dados de imagem (ver a secção “Aumento de dados para o conjunto de dados on-target”). Os pesos finais afinados para toda a rede neural profunda híbrida foram utilizados para prever a eficácia nocturna de um novo sgRNA. Além disso, a fim de obter avaliações rigorosas do DeepCRISPR, foram construídos modelos de classificação e regressão para a previsão on-target para uma comparação abrangente.
Extendendo o modelo para a previsão sgRNA fora do alvo reutilizando a rede mãe
Extendemos também a rede neural híbrida para a previsão do perfil sgRNA fora do alvo reutilizando a rede mãe pré-formada (Fig. 1c, d). Primeiro, tratámos um determinado sgRNA e o seu possível locus off-target como um par de amostras, e estes pares de amostras são colhidos como amostras de treino off-target. O par de amostras foi codificado em duas partes, onde uma parte representa a codificação do sgRNA dado e a outra representa a codificação do seu possível locus fora do alvo (Fig. 1c; ver a secção “codificação do sgRNA com características genómicas e epigenéticas”). Esta codificação em duas partes apresenta uma representação precisa e abrangente de uma amostra fora do alvo, considerando a sequência original de sgRNA e a sequência não correspondida como um todo. Durante a formação, cada parte da amostra sgRNA fora do alvo foi encaixada na rede pré-treinada baseada no DCDNN, ou seja, a rede mãe, para aprendizagem da representação de características. Em seguida, os resultados desta rede-mãe foram combinados em conjunto em termos de canais para o seguinte classificador CNN, semelhante à previsão no local alvo (Fig. 1c). No nosso estudo, a rede neural híbrida completa foi treinada com base nos conjuntos de dados sgRNA fora do alvo recolhidos, contendo ~ 160.000 amostras (ver a secção “Fontes de dados fora do alvo”). Foi integrado um algoritmo eficiente de bootstrapping na formação em lote desta rede híbrida, aliviando o problema do desequilíbrio de dados na previsão de locais fora do alvo (Fig. 5; ver a secção “Integração de bootstrapping na formação em lote de redes neurais profundas para abordar o problema do desequilíbrio de dados”). Semelhante ao da previsão no local alvo, o procedimento de formação não só aprendeu os pesos para a rede CNN, mas também afinou os pesos da rede dos pais, resultando em duas “redes de bebés” diferentes para duas partes da amostra de sgRNA fora do alvo. Os pesos finais afinados para as duas redes de bebés, bem como para a rede CNN, foram utilizados para prever o perfil fora do alvo de um determinado sgRNA. Da mesma forma, a fim de obter avaliações rigorosas do DeepCRISPR, foram construídos modelos de classificação e regressão para a previsão fora do alvo, para uma comparação abrangente.
Comparação do DeepCRISPR com a mais moderna previsão da eficácia do sgRNA on-target
Para avaliar a capacidade do DeepCRISPR na previsão da eficácia do sgRNA on-target, primeiro curámos dados abrangentes de referência da eficácia do sgRNA on-target, incluindo quatro tipos diferentes de células: i.e, hct116 , hek293t , hela , e hl60 . Note-se que tais conjuntos de dados também foram utilizados por Haeussler et al. para o estudo de referência. Todo o conjunto de dados inclui ~ 15.000 sgRNAs com eficácia nocturna conhecida validada experimentalmente a partir de 1071 genes. No nosso estudo, formulámos o DeepCRISPR quer num esquema de classificação quer num esquema de regressão para uma comparação abrangente e rigorosa. Para o modelo de classificação, a eficácia nocturna conhecida foi rotulada de uma forma binária (ver a secção “Fontes de dados no alvo”). Para o modelo de regressão, a eficácia knockout conhecida foi integrada e rotulada de forma numérica (ver a secção “Fontes de dados no alvo”). Depois, oito cenários de teste diferentes foram cuidadosamente concebidos para comparações abrangentes e objectivas do DeepCRISPR com ferramentas de última geração. Através dessas comparações, fornecemos provas sólidas de que (1) os modelos de aprendizagem profunda (sem pré-treino não supervisionado) são superiores aos modelos de aprendizagem pouco profundos; (2) a estratégia de pré-treino não supervisionado aumenta o desempenho do modelo; (3) o aumento de dados melhora ainda mais o desempenho do modelo e a robustez do modelo; (4) o DeepCRISPR generalizou geralmente bem em novos tipos de células para a previsão da eficácia do sgRNA on-target knockout; (5) O DeepCRISPR aprende eficazmente a representação de características de alto nível, evitando a engenharia manual de características para sgRNA design, indicada pelas comparações maçã-por-maçã com o desenhador de sgRNA retraído (os modelos de classificação ou regressão baseados em gradiente) com os mesmos dados de treino, enquanto que com características diferentes; (6) O DeepCRISPR é robusto com desempenho superior tanto para modelos de classificação como de regressão.
Esquema de teste do cenário 1-classificação
Neste teste, para os originais ~ 15.000 sgRNAs com eficácia eliminatória conhecida de quatro tipos de células, 20% dos dados de cada tipo de célula foram estratificados por etiquetas de dados e utilizados como conjuntos de testes independentes. Os restantes 80% dos dados de cada tipo de célula foram combinados para treino do modelo e afinação dos parâmetros durante o processo de validação cruzada. O modelo de classificação profundo baseado na CNN sem pré-treino não supervisionado e aumento de dados (denotado como “CNN”) foi treinado e testado nos dados de teste independentes para as quatro linhas de células, respectivamente, e comparado com oito ferramentas de última geração que foram treinadas com dados de linhas de células humanas, incluindo sgRNA Designer , SSC , CHOPCHOP , CRISPR MultiTargeter , E-CRISP , sgRNA Scorer , Cas-Designer , e WU-CRISPR (Fig. 2a, b). Estas ferramentas cobrem todos os métodos disponíveis concebidos para a previsão da eficácia do sgRNA humano, quer através de um modelo de aprendizagem ou de uma função de pontuação baseada em hipóteses (ver Ficheiro adicional 1 para uma lista completa das ferramentas actuais e as razões pelas quais seleccionámos estas ferramentas para comparação). A comparação foi avaliada utilizando os valores da área sob a curva da característica de funcionamento do receptor (ROC) (AUC) . A comparação indicou que, em média, o DeepCRISPR atingiu uma ROC-AUC global de 0,796, superando todos os oito métodos com uma melhoria máxima de ~ 113% em relação ao sgRNA Designer (com 0,5 ROC-AUC como linha de base), que é a próxima ferramenta de maior desempenho (Fig. 2a, b, Ficheiro adicional 2).
Esquema de teste de 2-classificação do cenário
Neste teste, construímos o nosso modelo com pré-treino não supervisionado em ~ 0.68 mil milhões de sgRNAs não rotulados (denotizados como “pt CNN”). Foram utilizados os mesmos dados de formação e testes que para o cenário de testes 1. Os sgRNAs sobrepostos entre os dados de formação e os dados de teste foram removidos. A CNN pré-formada atingiu um ROC-AUC global de 0,836 com uma melhoria de 142% em relação à sgRNA designer (com 0,5 ROC-AUC como base; Fig. 2a, b; Ficheiro adicional 2).
Esquema de teste do cenário 3-classificação
Construímos ainda o nosso modelo final DeepCRISPR com CNN baseada na pré-formação mais o aumento de dados (denotado como “pt + aumentar CNN”). Os dados de formação foram aumentados enquanto os dados de teste eram idênticos aos dos cenários de teste 1 e 2. Os sgRNAs sobrepostos entre os dados de formação e os dados de teste foram removidos. Para este caso, o DeepCRISPR atingiu um ROC-AUC global de 0,857, com uma melhoria de 157% em relação ao sgRNA designer (com 0,5 ROC-AUC como linha de base; Fig. 2a, b; ficheiro adicional 2). Pode-se ver que a melhoria no desempenho foi relativamente pequena em comparação com o cenário de testes 2, enquanto que descobrimos que a função de perda durante o treino convergiu rapidamente e tornou-se muito robusta em comparação com a do cenário de testes 2 (Fig. 2c). Isto indica que o aumento da quantidade de dados da etiqueta pode ajudar a tornar o modelo robusto e convergir rapidamente durante o treino.
Esquema de teste do cenário 4-classificação
Neste cenário, testámos ainda mais a capacidade de generalização do DeepCRISPR em novos tipos de células. Para os originais ~ 15.000 sgRNAs com eficácias knockout conhecidas de quatro tipos de células, 20% dos dados de cada tipo de célula foram estratificados por etiquetas de dados e utilizados como conjuntos de testes independentes. Os restantes 80% dos dados de diferentes tipos de células foram aumentados como os dados de formação, idênticos aos do cenário de testes 3. Depois o nosso modelo foi treinado de quatro vezes “deixar um tipo de célula de fora”, cada vez utilizando os dados de formação combinados a partir de três tipos de células e testando no conjunto de dados independente de deixar um tipo de célula de fora. Os sgRNAs sobrepostos entre os dados de formação e os dados de teste foram removidos. Este cenário de teste investiga a capacidade de generalização do DeepCRISPR em novos tipos de células (Fig. 2d, Ficheiro adicional 2). Para este caso, o desempenho do DeepCRISPR em quatro tipos de células atingiu uma média ROC-AUC de 0,722, superando o segundo melhor método, o sgRNA designer. Pode-se ver que para os tipos de células hct116 e hela, o desempenho do DeepCRISPR foi bastante bom. Para o tipo de célula hek293t, todas as ferramentas de teste (incluindo o DeepCRISPR) tiveram um mau desempenho, principalmente devido a este tipo de célula contendo a maioria das amostras. Portanto, os modelos de treino sem este tipo de células são ineficientes com dados de treino insuficientes. Além disso, a fim de investigar se as características específicas do tipo de célula, ou seja, as características epigenéticas específicas da célula, contribuem realmente para o desempenho do DeepCRISPR, reeducámos o DeepCRISPR sem características epigenéticas (ou seja, o modelo Seq-only DeepCRISPR na Fig. 2d) para comparação do desempenho. Pode-se ver neste caso que o desempenho do modelo DeepCRISPR apenas Seq caiu ligeiramente em comparação com o original, indicando que (1) as características epigenéticas específicas da célula adicionam de facto ao desempenho do DeepCRISPR e (2) a contribuição para a previsão do desempenho da adição de características epigenéticas específicas da célula parece ser menor do que a do aumento da quantidade de dados de treino, como se pode ver para o tipo de célula HEK293T. O DeepCRISPR teve um desempenho moderado no tipo de célula HL60. Uma vez que a maioria das outras ferramentas (incluindo sgRNA designer, SSC, etc.) foram treinadas com base em dados HL60, o seu desempenho foi geralmente melhor do que o do DeepCRISPR neste tipo específico de célula. Como resumo, concluímos que o DeepCRISPR teve geralmente um bom desempenho em novos tipos de células para sgRNA on-target knockout effectiveness prediction.
Testing scenario 5-classification schema
Neste teste, fornecemos uma comparação mais rigorosa e sólida entre maçãs e maçãs do DeepCRISPR com o sgRNA designer, a próxima melhor ferramenta durante os nossos testes anteriores.
Em primeiro lugar, mantivemos rigorosamente um ambiente de comparação idêntico para DeepCRISPR e sgRNA designer, com os mesmos dados de formação e testes. Para este caso, requalificámos o sgRNA Designer (https://github.com/MicrosoftResearch/Azimuth, um modelo raso baseado na classificação por gradiente) com o mesmo conjunto de dados etiquetados aumentados que o DeepCRISPR utilizado no cenário de testes 3, e também mantivemos idênticos os dados dos testes. Em seguida, foram realizadas as duas representações de características diferentes que se seguem: (1) codificámos o sgRNA com a nossa representação de característica única (designada por “retraining sgRNA designer com característica de baixo nível”). Este modelo atingiu um ROC-AUC total de 0,751 (Fig. 2a, b, Ficheiro adicional 2); (2) codificámos o sgRNA com as características originais de engenharia manual adoptadas pelo sgRNA designer (denotado como “retraining sgRNA designer with manual feature”). Este modelo atingiu um ROC-AUC total de 0,778 (Fig. 2a, b, Ficheiro adicional 2). Em comparação com estas duas representações diferentes de características, é indicado que a codificação de baixo nível de características não é adequada para modelos pouco profundos; portanto, o desenhador sgRNA reconvertido alcançou um melhor desempenho com a engenharia de características manual baseada no domínio e codificação de características. No entanto, estes resultados indicam ainda mais que o modelo de aprendizagem profunda pode aprender eficientemente a representação de características de alto nível a partir de características de baixo nível e competir com os modelos rasos, evitando a engenharia manual de características para sgRNA design.
Segundo, também realizámos uma comparação de um tipo de célula do DeepCRISPR com o sgRNA designer requalificado, utilizando a nossa representação de características de um nível. O teste foi realizado com os mesmos dados de formação e teste que os do cenário de teste 4 (Fig. 2d, Ficheiro adicional 2). Pode-se ver que, em média, o DeepCRISPR ainda teve um desempenho superior ao do sgRNA designer retraído, indicando a sua superioridade de previsão no alvo em comparação com outros métodos.
Esquema de teste do cenário 6 de regressão
Neste teste, treinámos ainda mais o DeepCRISPR num esquema de regressão com as eficácias de knockout sgRNA numéricas originais. Os dados de diferentes experiências foram integrados de forma elegante, como demonstrado na secção “On-target data sources”. O desempenho foi avaliado com a correlação Spearman, conforme adaptado em estudos anteriores. Toda a comparação foi realizada de forma semelhante à dos cenários de teste 3 e 5, excepto que o modelo foi treinado de forma regressiva. Também o sgRNA designer foi requalificado de forma regressiva com os mesmos dados de treino e teste. Pode-se ver que neste caso o DeepCRISPR ainda teve um desempenho superior aos outros métodos avaliados pela correlação Spearman (Fig. 2e, Ficheiro adicional 2).
Esquema de teste do cenário 7 de regressão
Testamos ainda o DeepCRISPR baseado na regressão, deixando um tipo de célula de fora para investigar a sua capacidade de generalização em novos tipos de células, semelhante ao cenário de teste 4. Para este caso, o DeepCRISPR alcançou um desempenho semelhante aos de um esquema de classificação e superou os outros métodos avaliados pela correlação Spearman (Fig. 2f, Ficheiro adicional 2).
Esquema de teste do cenário 8-regressão num conjunto de dados independente
Desde que todos os testes anteriores (cenários 1-7) foram realizados nos quatro tipos de células (hct116, hek293t, hela, e hl60) separando os dados para treino e teste, neste caso aplicámos um conjunto de dados adicional que foi totalmente independente dos nossos testes anteriores para investigar o desempenho da previsão no alvo do DeepCRISPR. Este conjunto de dados, reportado recentemente através da utilização de ensaios de knock-out fluorescentes com verificação em loci endógenos seleccionados para a medição da eficácia do sgRNA knock-out, contém um total de 425 sgRNAs para células HEL . Tanto o tipo de célula como a distribuição de dados são diferentes dos nossos testes anteriores, e os sgRNAs não se sobrepõem aos conjuntos de dados anteriores. Por conseguinte, pode servir como um conjunto de dados de teste independente ideal para investigar a capacidade de generalização do DeepCRISPR. Neste teste, requalificámos o DeepCRISPR com apenas características de nível de sequência nos conjuntos de dados originais de quatro células, uma vez que as características epigenéticas do tipo de célula HEL testado não estão disponíveis no ENCODE. O modelo DeepCRISPR requalificado foi testado nos dados desta célula HEL e comparado com sgRNA designer, SSC, sgRNA scorer, e CRISPRator. Surpreendentemente, o DeepCRISPR não só superou significativamente o desempenho do sgRNA designer, o actual estado da arte em previsão do alvo, com uma melhoria quase dupla medida com a correlação Spearmen, mas também superou o CRISPRator, que foi concebido especificamente para este conjunto de dados da célula HEL (Fig. 2g, Ficheiro adicional 3). Este teste independente indica ainda que o DeepCRISPR tem uma boa capacidade de generalização para dados não vistos, mesmo sem a contribuição de características específicas do tipo de célula.
Em resumo, tanto para os modelos de classificação como de regressão, o DeepCRISPR tem geralmente um desempenho superior às alternativas de previsão no alvo, tal como medido pela correlação ROC-AUC e Spearman. Além disso, tem uma boa capacidade de generalização do tipo celular. Além disso, pode-se ver que a quantidade de dados de treino influencia o desempenho do modelo, e o potencial dos modelos de aprendizagem profunda pode ser impulsionado com maiores quantidades de dados de treino.
Avaliação do DeepCRISPR para a previsão de perfis de sgRNA fora do alvo de todo o genoma
A seguir avaliamos a capacidade do DeepCRISPR de prever locais fora do alvo. Para este efeito, curámos os dados do perfil de sgRNA do genoma humano inteiro fora do alvo detectados pelo GUIDE-seq,Digenome-seq, BLESS, HTGTS, e IDLV. Estes dados incluem 30 sgRNAs de dois tipos diferentes de células: a linha de células HEK 293 e seus derivados (18 sgRNAs) , e K562 t (12 sgRNAs) , representando ~ 160.000 loci possíveis com um máximo de seis desajustes de nucleótidos (ver a secção “Fontes de dados fora do alvo”). Para o modelo de classificação, os sítios fora do alvo são rotulados como “1” e os outros como “0” (ver a secção “Fontes de dados fora do alvo”). Para o modelo de regressão, os sítios fora do alvo são rotulados com as eficácias de mira medidas com frequência indel detectadas por diferentes ensaios (ver a secção “Fontes de dados fora do alvo”). Depois, foram concebidos três cenários de teste diferentes para avaliação da previsão de perfis fora do alvo.
Cenário de teste 1
Retemos 20% dos dados para cada tipo de célula como um conjunto de teste independente. Os restantes 80% dos dados foram combinados para treinar o nosso modelo e afinar os parâmetros durante o processo de validação cruzada. Como todo o conjunto de dados foi altamente desequilibrado com ~ 700 locais verdadeiros fora do alvo, um algoritmo de amostragem de bootstrapping eficiente foi adaptado no procedimento de formação para aliviar o desequilíbrio de dados (ver a secção “Integrar bootstrapping em formação em lote de redes neurais profundas para abordar a questão do desequilíbrio de dados”). Como resultado, o nosso modelo final de previsão de locais fora do alvo foi testado nos conjuntos de dados independentes para cada uma das duas linhas de células e comparado com quatro das actuais ferramentas de previsão de locais fora do alvo, CFD score , MIT score , CROP-IT , e CCTop. Estas ferramentas foram concebidas para a previsão de locais humanos sgRNA fora do alvo utilizando várias pontuações empiricamente definidas fora do alvo. Uma vez que todo o conjunto de dados é desequilibrado, a comparação foi avaliada utilizando valores AUC da ROC e curva de precisão para o modelo de classificação, e correlação Spearman e correlação Spearman ponderada para o modelo de regressão. Para um máximo de seis desajustes de nucleótidos, os resultados dos testes indicaram que o DeepCRISPR superou os quatro métodos nos dois tipos de células (Fig. 3a-c, Ficheiro adicional 2). Globalmente, o DeepCRISPR atingiu um ROC-AUC de 0,981(Fig. 3a), PR-AUC de 0,497(Fig. 3b), correlação Spearman de 0,133 (Fig. 3c) e correlação Spearman ponderada de 0,186 (Fig. 3c), superando o segundo melhor método, ou seja a pontuação CFD (Fig. 3a-c).
É de notar que a melhoria na previsão fora do alvo com DeepCRISPR é uma margem relativamente pequena quando comparada com a pontuação CFD avaliada com ROC-AUC, uma vez que a pontuação CFD já tinha alcançado um alto desempenho; no entanto, tal melhoria é muito importante, uma vez que a quase nula previsão fora do alvo é o objectivo final de todas as terapias genéticas baseadas no CRISPR. Além disso, é de notar que todas as ferramentas existentes, incluindo o DeepCRISPR, tendem a evitar a falta de verdadeiros sítios de clivagem fora do alvo, através de uma maior ponderação nas amostras positivas. Isto também faz sentido para a terapia genética baseada no CRISPR, uma vez que a penalidade de faltar um verdadeiro sítio fora do alvo é sempre maior do que a de induzir um falso positivo na previsão de sítios fora do alvo. Foi por isso que adoptámos a correlação ponderada Spearman proposta por Listgarten et al. para abordar tais questões de assimetria de peso. O peso para cada local fora do alvo é definido proporcionalmente à sua ordem de classificação de acordo com a correspondente eficácia de knock-out medida pela frequência indel. No entanto, tal esquema de ponderação é na realidade um compromisso para falsos positivos. Portanto, a redução de falsos positivos puramente a partir de dados não ponderados continua a ser necessária e é muito desafiante. Para este caso, pode-se ver que o DeepCRISPR melhorou muito o valor PR-AUC em comparação com os outros métodos, indicando que o DeepCRISPR pode reduzir drasticamente os falsos positivos durante a previsão fora do alvo..
Cenário de teste 2
Neste cenário, para todos os 30 sgRNAs de dois tipos diferentes de células, realizámos um teste “deixar o grupo sgRNA fora”, que é um caso de uso mais representativo para a detecção de perfis fora do alvo. Tal teste mantém aleatoriamente um grupo de sgRNAs fora (no nosso caso três sgRNAs foram mantidos fora) como dados de teste, apresentando uma estimativa do desempenho preditivo num grupo de sgRNAs invisíveis (Fig. 4a). Assegura que os guias fora do alvo para um sgRNA ou estão inteiramente nos conjuntos de teste ou de treino. Neste caso, tanto para modelos de classificação como de regressão, o DeepCRISPR alcançou uma média ROC-AUC de 0,804, PR-AUC de 0,303, correlação Spearman de 0,201, e correlação Spearman ponderada de 0,246 (Fig. 4a, Ficheiro adicional 2). A ROC-AUC para DeepCRISPR é comparável ao resultado com a pontuação CFD, enquanto outras medidas, especialmente a PR-AUC (0,303), são significativamente mais elevadas do que com a pontuação CFD (0,034), indicando que DeepCRISPR pode ajudar a reduzir os falsos positivos para sgRNAs não vistos na previsão fora do alvo.
Cenário de teste 3
Neste cenário, para todos os 30 sgRNAs, realizámos 30 vezes, deixando um sgRNA fora do teste, o que é um caso extremo de deixar o grupo sgRNA fora do teste, como mostrado no cenário de teste 2 (Fig. 4b). Para ambos os modelos de classificação e regressão, o DeepCRISPR alcançou uma média ROC-AUC de 0,841, PR-AUC de 0,421, correlação Spearman de 0,132, e correlação Spearman ponderada de 0,181 (Fig. 4b, Ficheiro adicional 2). Neste caso, a ROC-AUC do DeepCRISPR é comparável ao resultado da pontuação CFD, enquanto outras medidas, especialmente PR-AUC (0,421), são mais elevadas do que com a pontuação CFD (0,333).
Em resumo, tanto para modelos de classificação como de regressão, o DeepCRISPR tem geralmente um desempenho superior à pontuação CFD, especialmente com um melhor desempenho para reduzir os falsos positivos na previsão altamente desequilibrada fora do alvo. Uma coisa a notar é que o modelo de classificação é mais adequado para a previsão fora do alvo em comparação com o modelo de regressão, uma vez que neste caso apenas nos preocupamos em distinguir os locais fora do alvo entre outros, em vez de prever as suas afinidades de ligação. Além disso, o modelo de regressão é mais sensível e, portanto, requer mais dados para a sua formação. A versão actual do DeepCRISPR só foi treinada em amostras limitadas como um estudo de protótipo. Esperamos impulsionar o DeepCRISPR com mais amostras de treino, tirando pleno partido de modelos profundos em comparação com modelos pouco profundos.