Cleanlab aberto

Notícias

LarLar / Notícias / Cleanlab aberto

Oct 27, 2023

Cleanlab aberto

Dados rotulados são essenciais para treinar modelos de aprendizado de máquina supervisionados, mas

Dados rotulados são essenciais para treinar modelos de aprendizado de máquina supervisionados, mas erros cometidos por anotadores de dados podem afetar a precisão do modelo. É comum coletar várias anotações por ponto de dados para reduzir os erros de anotação e estabelecer um rótulo de consenso mais confiável, mas essa abordagem pode ser cara. Para otimizar o modelo de ML com o mínimo de rotulagem de dados, é fundamental determinar quais novos dados exigem rotulagem ou quais rótulos atuais precisam ser verificados novamente.

O ActiveLab, um método de aprendizado ativo publicado recentemente, foi disponibilizado como uma ferramenta de código aberto para ajudar nesse processo de tomada de decisão. O ActiveLab ajuda a identificar os dados que requerem rotulagem ou re-rotulação para alcançar a melhoria máxima no modelo de ML enquanto adere a um orçamento de anotação limitado. Os conjuntos de dados de treinamento gerados com o ActiveLab produziram modelos de ML superiores em comparação com outras técnicas de aprendizado ativo ao trabalhar com um número fixo de anotações.

O ActiveLab aborda a questão crucial de determinar se obter uma anotação adicional para um ponto de dados rotulado anteriormente é mais vantajoso ou rotular uma instância completamente nova do pool não rotulado. A resposta a esta questão depende do grau de confiança nas anotações atuais. Em casos com apenas uma anotação de um anotador não confiável ou duas anotações com resultados conflitantes, obter outra opinião por meio de reetiquetagem é crucial. Esse processo torna-se particularmente significativo quando as consequências negativas do treinamento de um modelo com dados rotulados incorretamente não podem ser remediadas simplesmente rotulando novos pontos de dados do pool não rotulado.

Os pesquisadores começaram com um conjunto de treinamento inicial de 500 exemplos rotulados e treinaram um modelo classificador para várias rodadas, plotando sua precisão de teste após cada iteração. Anotações adicionais para 100 exemplos foram coletadas em cada rodada, escolhidas desse conjunto de 500 ou de um conjunto separado de 1.500 exemplos inicialmente não rotulados. Vários métodos de aprendizado ativo foram usados ​​para decidir quais dados rotular/re-rotular a seguir. A seleção aleatória foi comparada com Good Random, que prioriza os dados não rotulados primeiro, bem como Entropy e Uncertainty, métodos populares de aprendizado ativo baseados em modelos. O ActiveLab também foi usado, que se baseia em previsões de modelo para estimar o quão informativo outro rótulo será para cada exemplo, contabilizando quantas anotações um exemplo recebeu até agora e sua concordância, bem como o quão confiável cada anotador é em geral em relação ao treinado modelo. Resultados semelhantes foram encontrados para outros modelos e conjuntos de dados de classificação de imagens, conforme detalhado no artigo dos pesquisadores sobre o desenvolvimento desse método.

Confira aPapeleGithub. Todo o crédito por esta pesquisa vai para os pesquisadores deste projeto. Além disso, não se esqueça de participarnosso SubReddit de 15k+ ML,Canal do Discord, eNoticiário por e-mail, onde compartilhamos as últimas notícias de pesquisa de IA, projetos interessantes de IA e muito mais.

Niharika é estagiária de consultoria técnica na Marktechpost. Ela está no terceiro ano de graduação, atualmente cursando B.Tech no Indian Institute of Technology (IIT), Kharagpur. Ela é uma pessoa altamente entusiasmada com grande interesse em aprendizado de máquina, ciência de dados e IA e uma ávida leitora dos últimos desenvolvimentos nesses campos.

Github de papel. nosso boletim informativo por e-mail do canal de discórdia de mais de 15 mil ML SubReddit