Quão aberto

Notícias

LarLar / Notícias / Quão aberto

Nov 01, 2023

Quão aberto

Junte-se aos principais executivos em São Francisco de 11 a 12 de julho para saber como os líderes estão

Junte-se aos principais executivos em São Francisco de 11 a 12 de julho para saber como os líderes estão integrando e otimizando os investimentos em IA para o sucesso. Saber mais

A rotulagem de dados é um dos aspectos mais fundamentais do aprendizado de máquina. Também costuma ser uma área em que as organizações lutam – tanto para categorizar dados com precisão quanto para reduzir possíveis vieses.

Com a tecnologia de rotulagem de dados, um conjunto de dados usado para treinar um modelo de aprendizado de máquina é primeiro analisado e recebe um rótulo que fornece uma categoria e uma definição do que realmente são os dados. Embora a rotulagem de dados seja um componente crítico do processo de aprendizado de máquina, recentemente também provou ser altamente inconsistente, de acordo com vários estudos. A necessidade de rotulagem de dados precisa alimentou um mercado movimentado de fornecedores de rotulagem de dados.

Entre as tecnologias de rotulagem de dados mais populares está o Label Studio, de código aberto, apoiado pela startup Heartex, com sede em São Francisco. A nova atualização do Label Studio 1.6 lançada hoje fornecerá aos usuários novos recursos para ajudar a analisar e rotular melhor os dados dentro dos vídeos.

De acordo com Michael Malyuk, cofundador e CEO da Heartex, o desafio para a maioria das empresas com inteligência artificial (IA) é ter bons dados para trabalhar.

Transforme 2023

Junte-se a nós em São Francisco de 11 a 12 de julho, onde os principais executivos compartilharão como eles integraram e otimizaram os investimentos em IA para o sucesso e evitaram armadilhas comuns.

"Pensamos na rotulagem como uma categoria mais ampla de desenvolvimento de conjunto de dados e o Label Studio é uma solução que permite que você faça qualquer tipo de desenvolvimento de conjunto de dados", disse Malyuk.

Embora a versão 1.6 do Label Studio tenha um recurso de reprodutor de vídeo como principal novo recurso, Malyuk enfatizou que a tecnologia é útil para qualquer tipo de dados, incluindo texto, áudio, série temporal e vídeo.

Entre os maiores problemas com qualquer abordagem de rotulagem para todos os tipos de dados está a definição das categorias usadas para rótulos de dados.

“Algumas pessoas podem nomear as coisas de uma maneira, algumas pessoas podem nomear as coisas de uma maneira diferente, mas essencialmente significam a mesma coisa”, disse Malyuk.

Ele explicou que o Label Studio fornece taxonomias para rótulos que os usuários podem escolher para descrever um dado, seja um arquivo de texto, áudio ou imagem. Se duas ou mais pessoas da mesma organização rotularem os mesmos dados de forma diferente, o sistema Label Studio identificará o conflito para que possa ser analisado e remediado. O Label Studio fornece um sistema manual de resolução de conflitos e uma abordagem automatizada.

O processo de rotulagem de dados geralmente envolve trabalho manual, com humanos atribuindo um rótulo ou validando se um rótulo é preciso.

Existem várias abordagens para automatizar o processo, a startup Lightly AI está usando um modelo de aprendizado de máquina autossupervisionado que pode se integrar ao Label Studio. Depois, há fornecedores que usarão um banco de dados vetorial para converter dados em matemática, em vez de usar rotulagem de dados para identificar dados e seus relacionamentos.

Malyuk disse que os bancos de dados vetoriais têm seus usos e podem ser eficazes para realizar tarefas como pesquisas por similaridade. O problema, em sua opinião, é que a abordagem vetorial não é tão eficaz com tipos de dados não estruturados, como áudio e vídeo. Ele observou que um banco de dados vetorial pode fazer uso de tipos de identificação para objetos comuns.

"Assim que você começar a se desviar desse conhecimento comum para algo um pouco diferente, ficará muito complicado sem a rotulagem manual", disse Malyuk.

O viés na IA é um desafio contínuo que muitos na indústria estão tentando combater. Na raiz do aprendizado de máquina estão os dados reais, e a maneira como os dados são rotulados também pode levar a vieses. O viés pode ser intencional e também pode ser circunstancial.

"Se você rotular um conjunto de dados muito subjetivo pela manhã antes do café e novamente depois do café, poderá obter respostas muito diferentes", disse Malyuk.