Por que os dados continuam sendo o maior desafio para projetos de aprendizado de máquina

Notícias

LarLar / Notícias / Por que os dados continuam sendo o maior desafio para projetos de aprendizado de máquina

Nov 04, 2023

Por que os dados continuam sendo o maior desafio para projetos de aprendizado de máquina

Junte-se aos principais executivos em São Francisco de 11 a 12 de julho para saber como os líderes estão

Junte-se aos principais executivos em São Francisco de 11 a 12 de julho para saber como os líderes estão integrando e otimizando os investimentos em IA para o sucesso. Saber mais

Dados de qualidade estão no centro do sucesso da inteligência artificial (IA) empresarial. E, consequentemente, continua sendo a principal fonte de desafios para empresas que desejam aplicar machine learning (ML) em seus aplicativos e operações.

A indústria fez avanços impressionantes para ajudar as empresas a superar as barreiras para obter e preparar seus dados, de acordo com o mais recente relatório State of AI da Appen. Mas ainda há muito a ser feito em diferentes níveis, incluindo a estrutura organizacional e as políticas da empresa.

O ciclo de vida da IA ​​corporativa pode ser dividido em quatro estágios: fornecimento de dados, preparação de dados, teste e implantação de modelo e avaliação de modelo.

Os avanços na computação e nas ferramentas de ML ajudaram a automatizar e acelerar tarefas como treinamento e teste de diferentes modelos de ML. As plataformas de computação em nuvem possibilitam treinar e testar dezenas de modelos diferentes de diferentes tamanhos e estruturas simultaneamente. Mas, à medida que os modelos de aprendizado de máquina crescem em número e tamanho, eles exigem mais dados de treinamento.

Transforme 2023

Junte-se a nós em São Francisco de 11 a 12 de julho, onde os principais executivos compartilharão como eles integraram e otimizaram os investimentos em IA para o sucesso e evitaram armadilhas comuns.

Infelizmente, a obtenção de dados de treinamento e anotação ainda requer um esforço manual considerável e é amplamente específico do aplicativo. De acordo com o relatório de Appen, “falta de dados suficientes para um caso de uso específico, novas técnicas de aprendizado de máquina que exigem maiores volumes de dados ou equipes que não possuem os processos corretos para obter os dados de forma fácil e eficiente”.

“Dados de treinamento de alta qualidade são necessários para o desempenho preciso do modelo; e conjuntos de dados grandes e inclusivos são caros”, disse Sujatha Sagiraju, diretor de produtos da Appen, ao VentureBeat. “No entanto, é importante observar que dados valiosos de IA podem aumentar as chances de seu projeto passar do piloto para a produção; portanto, a despesa é necessária”.

As equipes de ML podem começar com conjuntos de dados pré-rotulados, mas eventualmente precisarão coletar e rotular seus próprios dados personalizados para dimensionar seus esforços. Dependendo da aplicação, a rotulagem pode se tornar extremamente cara e trabalhosa.

Em muitos casos, as empresas têm dados suficientes, mas não conseguem lidar com problemas de qualidade. Dados tendenciosos, mal rotulados, inconsistentes ou incompletos reduzem a qualidade dos modelos de ML, o que, por sua vez, prejudica o ROI das iniciativas de IA.

"Se você treinar modelos de ML com dados ruins, as previsões do modelo serão imprecisas", disse Sagiraju. “Para garantir que sua IA funcione bem em cenários do mundo real, as equipes devem ter uma mistura de conjuntos de dados de alta qualidade, dados sintéticos e avaliação humana em loop em seu kit de treinamento”.

De acordo com Appen, os líderes de negócios têm muito menos probabilidade do que a equipe técnica de considerar o fornecimento e a preparação de dados como os principais desafios de suas iniciativas de IA. “Ainda há lacunas entre tecnólogos e líderes de negócios ao entender os maiores gargalos na implementação de dados para o ciclo de vida da IA. Isso resulta em desalinhamento de prioridades e orçamento dentro da organização”, de acordo com o relatório da Appen.

“O que sabemos é que alguns dos maiores gargalos para iniciativas de IA estão na falta de recursos técnicos e adesão executiva”, disse Sagiraju. “Se você der uma olhada nessas categorias, verá que os cientistas de dados, engenheiros de aprendizado de máquina, desenvolvedores de software e executivos estão dispersos em diferentes áreas, então não é difícil imaginar uma falta de estratégia alinhada devido a prioridades conflitantes entre as várias equipes. dentro da organização".

A variedade de pessoas e funções envolvidas nas iniciativas de IA dificulta esse alinhamento. Desde os desenvolvedores que gerenciam os dados até os cientistas de dados que lidam com questões locais e os executivos que tomam decisões estratégicas de negócios, todos têm objetivos diferentes em mente e, portanto, prioridades e orçamentos diferentes.