Extração de informações de materiais via corpus gerado automaticamente

Notícias

LarLar / Notícias / Extração de informações de materiais via corpus gerado automaticamente

Nov 19, 2023

Extração de informações de materiais via corpus gerado automaticamente

Dados Científicos volume 9,

Scientific Data volume 9, Número do artigo: 401 (2022) Cite este artigo

2608 Acessos

1 Citações

1 Altmétrica

Detalhes das métricas

A Extração de Informação (IE) em Processamento de Linguagem Natural (NLP) visa extrair informações estruturadas de texto não estruturado para auxiliar um computador na compreensão da linguagem natural. Os métodos de IE baseados em aprendizado de máquina trazem mais inteligência e possibilidades, mas exigem um corpus rotulado extenso e preciso. No domínio da ciência dos materiais, dar rótulos confiáveis ​​é uma tarefa trabalhosa que requer o esforço de muitos profissionais. Para reduzir a intervenção manual e gerar corpus de materiais automaticamente durante o IE, neste trabalho, propomos uma estrutura de IE semi-supervisionada para materiais via corpus gerado automaticamente. Tomando como exemplo a extração de dados de superliga em nosso trabalho anterior, a estrutura proposta usando Snorkel rotula automaticamente o corpus contendo valores de propriedade. Em seguida, a rede Ordered Neurons-Long Short-Term Memory (ON-LSTM) é adotada para treinar um modelo de extração de informações no corpus gerado. Os resultados experimentais mostram que a pontuação F1 da temperatura γ' solvus, densidade e temperatura solidus das superligas são 83,90%, 94,02%, 89,27%, respectivamente. Além disso, realizamos experimentos semelhantes em outros materiais, os resultados experimentais mostram que a estrutura proposta é universal no campo dos materiais.

O Processamento de Linguagem Natural (NLP) concentra-se em um computador que entende o conhecimento do texto para que um computador possa analisar e processar a linguagem natural1. A Extração de Informações (IE) em NLP é uma das tecnologias de mineração de texto mais proeminentes e visa extrair informações estruturadas de textos não estruturados2. A literatura científica na área de materiais contém um grande número de dados confiáveis, o que promove a pesquisa e o desenvolvimento de materiais baseados em dados3,4,5. É demorado confiar apenas na extração manual humana6. Assim, a extração automática de dados de substâncias químicas orgânicas e inorgânicas de artigos nas áreas de química e ciência dos materiais fez sentido usando técnicas de PNL7,8,9,10,11.

Com o desenvolvimento do aprendizado de máquina e da PNL, a tecnologia IE se desenvolveu rapidamente6, principalmente em biologia e medicina. Sunil et ai. propuseram que a IE é um processo de detecção e classificação de relações semânticas e utilizou uma Rede Neural Convolucional (CNN) para obter características semânticas para extrair as informações no domínio biomédico12. Muitos artigos aplicaram modelos de aprendizado profundo para otimização de recursos; por exemplo, Xinbo et al. usaram Campos Aleatórios Condicionais (CRFs) para classificar as características do contexto e usaram autoencoders e limitações de esparsidade para resolver o problema de esparsidade de palavras13. Recentemente, outros sistemas IE também foram investigados na busca de possíveis informações com Long Short-Term Memory (LSTM). Raghavendra et ai. palavras incorporadas em LSTM e CRF bidirecionais. Eles usaram uma rede neural recorrente para obter características e concluíram a extração de conceitos clínicos14. Arshad et ai. apresentou um método LSTM para entender a gramática da linguagem e deduzir a relação entre as palavras15. No entanto, todas as redes neurais acima requerem um extenso e preciso corpus rotulado para treinar a rede.

Infelizmente, existem relativamente poucos artigos sobre muitos assuntos de materiais, como superligas, e extrair as informações necessárias do documento torna-se uma tarefa complicada. Em nosso trabalho anterior11, desenvolvemos um pipeline de NLP para capturar dados de composição química e propriedades da literatura científica de superligas. Um método de Reconhecimento de Entidade Nomeada (NER) baseado em regras e um algoritmo heurístico de extração de relações múltiplas baseado em distância para o pipeline foram propostos para superar a desvantagem de rótulos de corpus de treinamento limitados e alcançar alta precisão e recuperação simultaneamente. O algoritmo IE proposto é um método baseado em regras, enquanto o método de aprendizado de máquina foi abandonado após a comparação porque o corpus rotulado não era suficiente para o treinamento. É uma tarefa trabalhosa que requer o esforço de muitos profissionais se realizada apenas por humanos. A estratégia baseada em regras é eficiente sob tais condições, mas sem a capacidade de aprender e atualizar de forma independente. Portanto, a geração automática de corpus no domínio material, permitindo reduzir a intervenção manual, é necessária para o IE baseado em aprendizado de máquina, o que tornará realidade para os computadores ler documentos e extrair conjuntos de dados por conta própria.