StableLM e foi projetado para gerar texto e código com eficiência
Foi divulgada a notícia de que IA de estabilidade, a empresa por trás do modelo de IA de imagem Stable Diffusion, anunciou o primeiro de seu conjunto de modelos de linguagem StableLM.
Com ele Stability espera replicar os efeitos de seu modelo de síntese de imagem de código aberto Difusão Estável, lançado em 2022. Com refinamento, o StableLM pode ser usado para criar uma alternativa de código aberto ao ChatGPT.
Para aqueles que não estão familiarizados com Stability AI, você deve saber que esta é uma empresa com sede em Londres que se posiciona como uma rival de código aberto da OpenAI, uma empresa que desenvolve modelos de linguagem artificial poderosos, mas proprietários, como o ChatGPT.
Sobre o StableLM
EstávelLM é o nome da família de modelos de linguagem artificial criados pela Stability AI, que estão disponíveis como código aberto no GitHub sob a licença Creative Commons BY-SA-4.0. StableLM é um modelo de geração de texto que pode compor texto humano e escrever programas prevendo a próxima palavra em uma sequência. Ele usa uma técnica chamada “previsão de chip” que envolve adivinhar o próximo fragmento de palavra do contexto fornecido por um humano na forma de uma “dica”.
Como outros LLMs "pequenos" StableLM afirma alcançar desempenho semelhante ao modelo de referência GPT-3 de OpenAI usando muito menos parâmetros gerais (7 bilhões para StableLM vs. 175 bilhões para GPT-3).
O lançamento do StableLM se baseia em nossa experiência com modelos de linguagem de código aberto anteriores com EleutherAI, um centro de pesquisa sem fins lucrativos. Esses modelos de linguagem incluem GPT-J, GPT-NeoX e o pacote Pythia, que foram treinados no conjunto de dados de código aberto The Pile.
EstávelLM afirma ter desempenho semelhante ao GPT-3, o modelo de linguagem que alimenta o ChatGPT, enquanto usa muito menos parâmetros (7 bilhões contra 175 bilhões). Parâmetros são variáveis que o modelo usa para aprender com os dados de treinamento. Ter menos parâmetros torna o modelo menor e mais eficiente, o que pode facilitar a execução em dispositivos locais como smartphones e laptops.
EstávelLM treinados em um novo conjunto de dados baseado em The Pile, contendo 1,5 trilhão de tokens, que é cerca de 3 vezes o tamanho da pilha. The Pile é um conjunto de dados diversificado e de alta qualidade para modelos de linguagem de treinamento.
A Stability AI menciona que os modelos já estão disponíveis no repositório GitHub e que um white paper completo será lançado em breve, e espera continuar a colaborar com desenvolvedores e pesquisadores à medida que lança o pacote StableLM.
Além disso, eles mencionam o lançamento do programa de colaboração aberta RLHF e o trabalho com esforços da comunidade, como o Open Assistant, para criar um conjunto de dados de código aberto para assistentes de IA.
Por último, mas não menos importante, Falando em lançamentos de Stability AI, podemos destacar também que ela anunciou a versão beta de SDXL (que significa Stable Diffusion Extra Large), um novo modelo de inteligência artificial capaz de gerar imagens a partir de descrições textuais. O SDXL é a mais recente adição ao pacote Stable Diffusion, que também inclui os modelos SD, SDT e SDC.
O SDXL difere de outros modelos em seu tamanho e recursos. Com 2300 bilhões de parâmetros, o SDXL é mais de 2,5 vezes maior que o modelo SD original, que tinha apenas 890 milhões. Esses parâmetros adicionais permitem que o SDXL gere imagens que aderem melhor a padrões complexos. Por exemplo, o SDXL pode produzir texto legível em imagens ou criar retratos incrivelmente realistas de personagens fictícios.
O SDXL está atualmente em versão beta no DreamStudio e em outros aplicativos de imagem populares, como o NightCafe Creator. Como todos os modelos Stability AI, o SDXL será lançado em breve como código aberto para acessibilidade ideal. A Stability AI anuncia que o SDXL é licenciado de forma permissiva para uso comercial e não comercial, desde que você siga as diretrizes éticas e legais.
Por fim, se você tiver interesse em saber mais sobre o assunto, pode consultar os detalhes no link a seguir.