O que é esparsidade? O segredo do DeepSeek AI, revelado por pesquisadores da Apple
O modelo de IA que abalou o mundo faz parte de uma ampla tendência de extrair mais dos chips. Veja como funciona.
O mercado de inteligência artificial (IA) - e todo o mercado de ações - foi abalado no mês passado pela súbita popularidade do DeepSeek, o modelo de linguagem grande (LLM) de código aberto desenvolvido por um fundo de hedge com sede na China que superou o melhor da OpenAI em algumas tarefas, custando muito menos.
Como detalha Radhika Rajkumar, da ZDNET, o sucesso do R1 destaca uma mudança radical na IA que pode capacitar laboratórios e pesquisadores menores a criar modelos competitivos e diversificar as opções disponíveis.
Por que o DeepSeek funciona tão bem?
Seu sucesso se deve a uma ampla abordagem dentro das formas de aprendizado profundo de IA para extrair mais dos chips de computador, explorando um fenômeno conhecido como "esparsidade".
A esparsidade vem de várias formas. Às vezes, envolve a eliminação de partes dos dados que a IA usa quando esses dados não afetam materialmente a saída do modelo.
Outras vezes, a dispersão envolve cortar partes inteiras de uma rede neural se isso não afetar o resultado.
O DeepSeek é um exemplo deste último: uso parcimonioso de redes neurais.
O principal avanço que a maioria das pessoas identificou no DeepSeek é que ele pode ativar e desativar grandes seções de "pesos" ou "parâmetros" de redes neurais. Os parâmetros moldam como uma rede neural pode transformar a entrada (o prompt digitado) em texto ou imagens gerados. Os parâmetros têm um impacto direto em quanto tempo leva para executar cálculos. Mais parâmetros normalmente significam mais esforço de computação.
Esparsidade e seu papel na IA
A capacidade de usar apenas alguns dos parâmetros totais de um LLM e desligar o restante é um exemplo de esparsidade. Essa escassez pode ter um grande impacto sobre o quão grande ou pequeno é o orçamento de computação para um modelo de IA.
Os pesquisadores de IA da Apple, em um relatório publicado em 21 de janeiro, explicaram como o DeepSeek e abordagens semelhantes usam a dispersão para obter melhores resultados para uma determinada quantidade de poder de computação.
A Apple não tem conexão com o DeepSeek, mas a gigante da tecnologia faz sua própria pesquisa de IA. Portanto, os desenvolvimentos de empresas externas, como a DeepSeek, fazem parte do envolvimento contínuo da Apple na pesquisa de IA.
No artigo, intitulado "Parâmetros vs FLOPs: Leis de Escala para Esparsidade Ideal para Modelos de Linguagem de Mistura de Especialistas", postado no servidor de pré-impressão arXiv, o autor principal Samir Abnar e outros pesquisadores da Apple, juntamente com o colaborador Harshay Shah do MIT, estudaram como o desempenho variava à medida que exploravam a esparsidade desligando partes da rede neural.
Abnar e sua equipe conduziram seus estudos usando uma biblioteca de códigos lançada em 2023 por pesquisadores de IA da Microsoft, Google e Stanford, chamada MegaBlocks. No entanto, eles deixam claro que seu trabalho pode ser aplicado ao DeepSeek e a outras inovações recentes.
Abnar e a equipe perguntam se há um nível "ideal" de dispersão no DeepSeek e modelos semelhantes: para uma determinada quantidade de poder de computação, existe um número ideal desses pesos neurais para ativar ou desativar?
A pesquisa sugere que você pode quantificar totalmente a esparsidade como a porcentagem de todos os pesos neurais que você pode desligar, com essa porcentagem se aproximando, mas nunca igualando 100% da rede neural sendo "inativa".
Os gráficos mostram que, para uma determinada rede neural, em um determinado orçamento de computação, há uma quantidade ideal da rede neural que pode ser desativada para atingir um nível de precisão. A mesma regra econômica tem sido verdadeira para cada nova geração de computadores pessoais: ou um resultado melhor para o mesmo dinheiro ou o mesmo resultado para menos dinheiro.
Para uma rede neural de um determinado tamanho em parâmetros totais, com uma determinada quantidade de computação, você precisa de cada vez menos parâmetros para obter a mesma ou melhor precisão em um determinado teste de benchmark de IA, como matemática ou resposta a perguntas.
Dito de outra forma, seja qual for o seu poder de computação, você pode desligar cada vez mais partes da rede neural e obter os mesmos ou melhores resultados.
Otimizando a IA com menos parâmetros
Como Abnar e sua equipe declararam em termos técnicos: "Aumentar a dispersão enquanto expande proporcionalmente o número total de parâmetros leva consistentemente a uma menor perda de pré-treinamento, mesmo quando limitado por um orçamento fixo de computação de treinamento". O termo "perda de pré-treinamento" é o termo de IA para a precisão de uma rede neural. Menor perda de treinamento significa resultados mais precisos.
Essa descoberta explica como o DeepSeek poderia ter menos poder de computação, mas alcançar os mesmos ou melhores resultados simplesmente desligando mais partes da rede.
A esparsidade é como um mostrador mágico que encontra a melhor correspondência para seu modelo de IA e computação disponível.
A mesma regra econômica tem sido verdadeira para cada nova geração de computadores pessoais: ou um resultado melhor para o mesmo dinheiro ou o mesmo resultado para menos dinheiro.
Existem alguns outros detalhes a serem considerados sobre o DeepSeek. Por exemplo, outra inovação do DeepSeek, conforme explicado por Ege Erdil, da Epoch AI, é um truque matemático chamado "atenção latente de várias cabeças". Sem entrar muito fundo nas ervas daninhas, a atenção latente de várias cabeças é usada para compactar um dos maiores consumidores de memória e largura de banda, o cache de memória que contém o texto de entrada mais recente de um prompt.
O futuro da pesquisa esparsa
Detalhes à parte, o ponto mais profundo sobre todo esse esforço é que a escassez como fenômeno não é nova na pesquisa de IA, nem é uma nova abordagem na engenharia.
Os pesquisadores de IA mostraram por muitos anos que a eliminação de partes de uma rede neural poderia alcançar uma precisão comparável ou até melhor com menos esforço.
A Intel , concorrente da Nvidia, identificou a escassez como uma via chave de pesquisa para mudar o estado da arte no campo por muitos anos. As abordagens de startups baseadas em esparsidade também obtiveram altas pontuações nos benchmarks do setor nos últimos anos.
O mostrador mágico da dispersão não reduz apenas os custos de computação, como no caso do DeepSeek. A esparsidade também funciona na outra direção: pode tornar os computadores de IA cada vez mais eficientes.
O mostrador mágico da escassez é profundo porque não apenas melhora a economia para um orçamento pequeno, como no caso do DeepSeek, mas também funciona na outra direção: gaste mais e você obterá benefícios ainda melhores por meio da dispersão. À medida que você aumenta seu poder de computação, a precisão do modelo de IA melhora, descobriram Abnar e a equipe.
Eles sugeriram: "À medida que a dispersão aumenta, a perda de validação diminui para todos os orçamentos de computação, com orçamentos maiores alcançando perdas menores em cada nível de dispersão".
Em teoria, então, você pode fazer modelos cada vez maiores, em computadores cada vez maiores, e obter um retorno melhor para seu investimento.
Todo esse trabalho esparso significa que o DeepSeek é apenas um exemplo de uma ampla área de pesquisa que muitos laboratórios já estão seguindo - e muitos outros agora vão pular para replicar o sucesso do DeepSeek.