Mais dados, mais problemas? 10 dicas para gerenciar dados de IA generativos

O conteúdo dos dados e as recomendações de produtos são editorialmente independentes. Podemos ganhar dinheiro quando você clica em links de nossos parceiros. Saber mais.

A maioria dos líderes de TI e muitos executivos de alto escalão estão pensando – se não planejando e já executando – iniciativas lideradas por IA. Existem dezenas de ferramentas nos três maiores provedores de nuvem pública apenas para IA e aprendizado de máquina, além das muitas tecnologias de código aberto que surgiram desde o lançamento do ChatGPT no outono de 2022.

O potencial é enorme: o mercado de IA generativa deverá crescer para 1,3 biliões de dólares nos próximos 10 anos, a partir de um tamanho de mercado de apenas 40 mil milhões de dólares em 2022, de acordo com um novo relatório da Bloomberg Intelligence.

Acertar a IA depende de dados de qualidade, especialmente dados não estruturados. O sucesso da IA depende da curadoria e gestão adequadas destes dados de ficheiros e objetos, que constituem pelo menos 80% de todos os dados no mundo. Este artigo identifica os desafios desses esforços e oferece 10 dicas para enfrentá-los.

Dados não estruturados, dado seu volume e os diversos tipos de arquivos e formatos que compreendem – desde documentos e imagens até dados de sensores e instrumentos, vídeo e muito mais – são difíceis de gerenciar. Frequentemente distribuído em vários sistemas de armazenamento em empresas cada vez mais híbridas e com múltiplas nuvens, é difícil pesquisar, segmentar e movimentar conforme necessário.

Devido ao seu crescimento, os dados não estruturados são caros para armazenar e fazer backup. Na verdade, a maioria (68%) das organizações empresariais pesquisadas em 2022 gasta 30% ou mais dos seus orçamentos de TI em armazenamento. Esses problemas são agravados em setores com uso intensivo de dados, pois cópias de dados redundantes, obsoletos e triviais (ROT) raramente são excluídas por pesquisadores e outras equipes quando os projetos são concluídos.

O gerenciamento de dados não estruturados para IA requer novas soluções e táticas, incluindo uma abordagem centrada em dados para orientar decisões econômicas de armazenamento e mobilidade de dados entre fornecedores e nuvens.

Há também uma necessidade crescente de garantir que os conjuntos de dados corretos sejam aproveitados. Uma nova pesquisa de Stanford descobriu que o desempenho de modelos de linguagem grandes (LLMs) “diminui substancialmente à medida que o contexto de entrada aumenta, mesmo para modelos de contexto explicitamente longo”. Em outras palavras, a curadoria dos conjuntos de dados certos pode ser mais importante do que grandes conjuntos de dados, dependendo do projeto.

As soluções, diretrizes e práticas de IA generativa mudam diariamente. Mas estabelecer uma base para o gerenciamento inteligente de dados não estruturados pode ajudar as organizações a se flexibilizarem e a mudarem nesta era transformadora. Aqui estão algumas táticas a serem consideradas.

A indexação de dados é uma maneira poderosa de categorizar todos os dados não estruturados em toda a empresa e torná-los pesquisáveis por metadados importantes (dados em seus dados), como tamanho do arquivo, extensão do arquivo, data de criação do arquivo e data do último acesso. A visibilidade é fundamental para o posicionamento correto dos dados para atender às necessidades de negócios em constante mudança de arquivamento, análise, conformidade e assim por diante.

Ao estabelecer as bases para a IA, mais informação é melhor. Quanto mais informações você tiver sobre seus dados, mais bem preparado você estará para fornecê-los às ferramentas de IA e ML no momento certo – e mais bem preparado você estará para garantir que terá a infraestrutura de armazenamento certa para esses novos casos de uso . No mínimo, você precisará entender os volumes de dados e as taxas de crescimento, os custos de armazenamento, os principais tipos e tamanhos de dados, as estatísticas de uso de dados departamentais e os dados “quentes” ou ativos versus “frios” ou raramente acessados.

Depois de ter um nível básico de compreensão sobre seus ativos de dados, você poderá enriquecê-los com metadados para obter recursos de pesquisa adicionais. Por exemplo, você pode querer pesquisar arquivos que contenham informações de identificação pessoal (PII) ou dados de clientes, dados de propriedade intelectual (IP), nome do experimento ou ID do instrumento. Esses arquivos podem ser segmentados para armazenamento compatível ou para alimentar uma plataforma analítica.

Com tantos casos de uso em organizações hoje para IA e outras pesquisas, os contatos centrais de TI e de departamentos de TI precisam trabalhar juntos para projetar estratégias de gerenciamento de dados. Isso garante que os usuários tenham acesso rápido aos seus dados mais importantes, mas também possam acessar dados mais antigos arquivados em armazenamento de baixo custo quando precisarem.