Uma estrutura de rede neural esparsa escalável para anotação de tipo de célula rara de um único

Notícias

LarLar / Notícias / Uma estrutura de rede neural esparsa escalável para anotação de tipo de célula rara de um único

Mar 14, 2023

Uma estrutura de rede neural esparsa escalável para anotação de tipo de célula rara de um único

Volume de Biologia da Comunicação

Communications Biology volume 6, Número do artigo: 545 (2023) Citar este artigo

1312 acessos

15 Altmétrica

Detalhes das métricas

Os métodos automáticos de anotação de tipo de célula são cada vez mais usados ​​na análise de sequenciamento de RNA de célula única (scRNA-seq) devido às suas vantagens rápidas e precisas. No entanto, os métodos atuais geralmente falham em explicar o desequilíbrio dos conjuntos de dados scRNA-seq e ignoram informações de populações menores, levando a erros significativos de análise biológica. Aqui, apresentamos o scBalance, uma estrutura de rede neural esparsa integrada que incorpora amostragem de peso adaptável e técnicas de abandono para tarefas de anotação automática. Usando 20 conjuntos de dados scRNA-seq com diferentes escalas e graus de desequilíbrio, demonstramos que o scBalance supera os métodos atuais em tarefas de anotação intra e interconjunto de dados. Além disso, o scBalance exibe uma escalabilidade impressionante na identificação de tipos de células raras em conjuntos de dados de milhões de níveis, conforme mostrado na paisagem de células broncoalveolares. O scBalance também é significativamente mais rápido do que as ferramentas comumente usadas e vem em um formato amigável, tornando-o uma ferramenta superior para análise scRNA-seq na plataforma baseada em Python.

Desde o primeiro estabelecimento de sequenciamento de RNA de célula única (scRNA-seq) por Tang et al. em 20091, esta tecnologia tornou-se rapidamente popular entre os cientistas em vários campos de pesquisa biológica. Em comparação com o sequenciamento tradicional de RNA em massa, que mede apenas o nível médio de expressão gênica das amostras, o scRNA-seq fornece um método poderoso para traçar o perfil de transcriptomas no nível específico da célula. Portanto, poderia permitir a análise de células individuais e fornecer uma visão mais informativa sobre a heterogeneidade celular. O desenvolvimento da tecnologia scRNA-seq tem sido amplamente utilizado em várias áreas de pesquisa biológica, como pesquisa de câncer2,3, análise de COVID4,5, pesquisa de biologia do desenvolvimento6, etc. Nesses estudos, descobrir e identificar populações celulares é um dos mais críticos tarefas.

Normalmente, a anotação do tipo de célula envolve duas etapas: (1) agrupar células em diferentes subgrupos e (2) rotular cada grupo com um tipo específico manualmente com base nos genes marcadores conhecidos anteriormente. Vários algoritmos de aprendizado de máquina não supervisionados foram desenvolvidos, incluindo métodos clássicos baseados em aprendizado de máquina, como Seurat7 e Scanpy8, e métodos baseados em aprendizado profundo recentemente publicados, como scDHA9 e CLEAR10. No entanto, esses métodos podem ser demorados e onerosos. Para quem não tem muito conhecimento dos genes marcadores, essa abordagem pode custar muito mais tempo do que o esperado. Os métodos automáticos de anotação de tipo de célula, em contraste, não sofrem com o processo de rotulagem manual. Diferente dos métodos não supervisionados, as ferramentas de identificação automática do tipo de célula são projetadas principalmente com base em estruturas de aprendizado supervisionado. Aproveitando seus recursos rápidos e precisos, eles estão se tornando ferramentas predominantes para identificar tipos de células em experimentos de célula única. Com o boom sem precedentes no atlas scRNA-seq bem anotado e a rápida promoção do projeto Human Cell Atlas11,12, as ferramentas de anotação automática estão enfrentando uma perspectiva mais ampla do que nunca. Até agora, 32 ferramentas de anotação automática foram desenvolvidas e publicadas13. Por exemplo, SingleCellNet14 utiliza um classificador de floresta aleatória para resolver as tarefas de anotação entre plataformas e espécies cruzadas. O ACTINN15 implementa uma rede neural artificial simples para superar o efeito de lote.

Embora inúmeras ferramentas tenham sido estabelecidas nos últimos anos, a maioria delas muitas vezes não consegue identificar toda a população devido à existência de tipos de células raras. Do ponto de vista da composição celular, os conjuntos de dados scRNA-seq são sempre desequilibrados, que possuem tipos de células comuns e tipos de células raras. A população rara é uma pequena proporção de células no conjunto de dados de célula única. Por exemplo, a célula dendrítica geralmente leva de 1 a 5% das células mononucleares do sangue periférico (PBMCs), especialmente em grandes conjuntos de dados16,17. Quando treinamos uma ferramenta de anotação automática, o classificador é consistentemente incapaz de aprender suas informações, dificultando a identificação desses tipos de células no conjunto de dados da consulta. No entanto, essas populações raras podem ser cruciais, especialmente na pesquisa de doenças18. Recentemente, alguns métodos de detecção de agrupamentos observaram esse ponto19,20, mas poucos métodos de classificação focaram no desequilíbrio da população celular. Enquanto isso, também descobrimos que os métodos existentes têm duas outras deficiências principais. (1) Falta de escalabilidade. Plataformas experimentais scRNA-seq recentes permitem investigações de células com milhões de níveis21,22. Notavelmente, um dos mais recentes atlas COVID PBMC atingiu 1,5 milhão de células17. Assim, a restrição de velocidade de computação tornará os pacotes de anotação automática pouco escaláveis ​​para o conjunto de dados de um milhão de níveis. Além disso, conjuntos de dados de referência em larga escala adicionam mais desafios para aprender tipos de células raras no treinamento do classificador, o que torna o software atual mais difícil de identificar grupos menores. O artigo publicado mais recentemente elevou a escala de treinamento para 600 K células23, no entanto, nenhuma ferramenta publicada relata com sucesso a escalabilidade no atlas de células de um milhão de níveis. (2) A compatibilidade das ferramentas existentes não é tão boa quanto o esperado. Entre as ferramentas existentes baseadas em Python, a maioria das ferramentas como ACTINN15, scPretrain24, scCapNet25 e MarkerCount26 são baseadas em script. Considerando que Seurat e Scanpy são pacotes que podem ser baixados de um repositório de software padrão (por exemplo, PyPI), executar um script Python externo no servidor adicionará uma carga adicional ao usuário. Além disso, algumas das ferramentas não são mais mantidas ou não podem ser usadas. Todos esses desafios juntos tornam necessária uma nova ferramenta de anotação que tenha uma capacidade equilibrada de rotular tipos de células principais e secundárias de maneira escalável.