Oct 26, 2023
O que é rotulagem de dados? (Definição, Exemplos)
Rotulagem de dados refere-se à prática de identificar itens de dados brutos para dar
A rotulagem de dados refere-se à prática de identificar itens de dados brutos para dar-lhes significado para que um modelo de aprendizado de máquina possa usar esses dados. Vamos supor que nossos dados brutos sejam uma imagem de animais. Nesse caso, você deve rotular todos os diferentes animais do modelo, incluindo pássaros, cavalos e coelhos. Sem rótulos adequados, o modelo de aprendizado de máquina não saberá quais tipos de dados diferentes estão na imagem.
A rotulagem de dados é uma etapa essencial antes de treinar ou usar qualquer modelo de aprendizado de máquina. Está envolvido em muitas aplicações, como visão computacional, processamento de linguagem natural (NLP) e reconhecimento de imagem e fala.
Mais de Sara A. MetwalliO que é validação de dados?
Existem duas categorias principais de algoritmos de aprendizado de máquina: supervisionados e não supervisionados.
Em algoritmos de aprendizado de máquina supervisionado, precisamos fornecer ao algoritmo dados rotulados para que ele aprenda e, em seguida, aplique o que aprendeu a novos dados. Quanto mais precisos forem os dados rotulados, melhores serão os resultados do algoritmo. Na maioria dos casos, a rotulagem de dados começa com uma pessoa (geralmente chamada de "rotulador") tomando algumas decisões sobre dados não rotulados para o algoritmo aprender.
Digamos que queremos que nosso algoritmo identifique árvores. Para treinar o modelo, o rotulador pode primeiro ser apresentado com figuras e deve responder "verdadeiro" ou "falso", indicando se a imagem contém uma árvore. O algoritmo então usa essas decisões para identificar o padrão da imagem, aprender o que é uma árvore e, em seguida, usar isso para prever se as imagens futuras contêm árvores.
Como a rotulagem de dados é essencial no desenvolvimento de um bom modelo de aprendizado de máquina, empresas e desenvolvedores a levam muito a sério. No entanto, a rotulagem de dados pode ser demorada, portanto, algumas empresas podem terceirizar ou automatizar o processo usando uma ferramenta ou serviço.
Podemos usar várias abordagens para rotular os dados; a decisão entre essas abordagens depende do tamanho de seus dados, do escopo do projeto e do tempo necessário para finalizá-lo. Uma maneira de categorizar diferentes métodos de rotulagem é se um ser humano ou um computador está rotulando. Se os humanos estão fazendo a rotulagem, ela pode assumir uma das três formas.
Essa abordagem é usada em grandes empresas com muitos cientistas de dados especializados que podem trabalhar na rotulagem dos dados. A rotulagem interna é mais segura e precisa do que a terceirização porque é feita internamente sem enviar os dados a um contratado ou fornecedor externo. Essa abordagem protege seus dados contra vazamentos ou uso indevido se o agente de terceirização não for confiável.
Essa opção pode ser o caminho a seguir para projetos grandes e de alto nível que exigem mais recursos do que a empresa pode dispensar. Dito isto, requer o gerenciamento de um fluxo de trabalho freelance que pode ser caro e demorado porque, nesses casos, as empresas contratam equipes diferentes para trabalhar em paralelo para fazer o trabalho no prazo. Para manter o fluxo e a qualidade do trabalho, todas as equipes precisam usar uma abordagem semelhante ao entregar os resultados. Caso contrário, é necessário mais esforço para colocar os resultados no mesmo formato.
Nessa abordagem, a empresa ou o desenvolvedor utiliza um serviço para rotular os dados de forma rápida e com menor custo. Uma das plataformas de crowdsourcing mais famosas é o reCAPTCHA, que basicamente gera CAPTCHA e pede aos usuários que rotulem os dados. Em seguida, o programa compara os resultados de diferentes usuários e gera dados rotulados.
No entanto, se quisermos automatizar a rotulagem e usar um computador para fazê-lo, podemos usar um dos dois métodos.
Nesta abordagem, geramos dados sintéticos usando os dados originais para melhorar a qualidade do processo de rotulagem. Embora essa abordagem leve a melhores resultados do que a rotulagem programática, ela requer muito poder de computação porque você precisa de mais poder para gerar mais dados. Essa abordagem é uma boa escolha se a empresa tiver acesso a um supercomputador ou a um computador que possa processar e gerar grandes quantidades de dados em um período de tempo razoável.
Para economizar poder de computação, essa abordagem usa um script para executar o processo de rotulagem em vez de gerar mais dados. No entanto, a rotulagem programática geralmente requer alguma anotação humana para garantir a qualidade da rotulagem.