Em maio de 2020, a OpenAI, empresa de IA cofundada por Elon Musk e Sam Altman, publicou o GPT-3, então apresentado como a grande rede neural do momento. Um modelo de linguagem de última geração, GPT-3 inclui 175 bilhões de parâmetros em comparação com os 1,5 bilhão de parâmetros de seu antecessor GPT-2.
GPT-3 vencer o modelo NLG Turing (Turing Natural Language Generation) da Microsoft com 17 bilhões de parâmetros que anteriormente detinham o recorde da maior rede neural. O modelo de linguagem tem sido admirado, criticado e até submetido a escrutínio; também encontrou aplicações novas e interessantes.
E agora rumores foram divulgados de que o lançamento do GPT-4, a próxima versão do modelo de linguagem OpenAI, pode chegar em breve.
Embora nenhuma data de lançamento foi anunciada ainda, O OpenAI deu algumas indicações sobre as características do sucessor do GPT-3, com o que muitos podem esperar, que o GPT-4 não deve ser maior que o GPT-3, mas deve usar mais recursos computacionais, o que limitará seu impacto ambiental.
Durante a sessão, Altman deu a entender que, contrário à crença popular, GPT-4 não será o maior modelo de linguagem. O modelo será, sem dúvida, maior do que as gerações anteriores de redes neurais, mas o tamanho não será sua marca registrada.
Primeiro, as empresas perceberam que usar o tamanho do modelo como um indicador para melhorar o desempenho não é a única ou melhor maneira de fazê-lo. Em 2020, Jared Kaplan e seus colegas do OpenAI concluíram que o desempenho melhora mais quando os aumentos no orçamento de computação são alocados principalmente para aumentar o número de parâmetros, seguindo uma relação de lei de energia. Google, Nvidia, Microsoft, OpenAI, DeepMind e outras empresas que desenvolvem modelos de linguagem adotaram essas diretrizes como valor nominal.
Mas MT-NLG (Megatron-Turing NLG, uma rede neural construída pela Nvidia e Microsoft no ano passado com 530 bilhões de parâmetros), por melhor que seja, não é a melhor quando se trata de desempenho. Na verdade, não é classificado como o melhor em nenhuma categoria de benchmark. Modelos menores como Gopher ou Chinchilla (70 bilhões de parâmetros), apenas uma fração de seu tamanho, seriam muito melhores que o MT-NLG em todas as tarefas. Assim, ficou claro que o tamanho do modelo não é o único fator que leva a uma melhor compreensão da linguagem.
De acordo com Altman, os modelos de linguagem sofrem de uma limitação crítica. quando se trata de otimização. O treinamento seria tão caro que as empresas teriam que comprometer a precisão e o custo. Isso geralmente resulta em modelos mal otimizados.
O CEO informou que o GPT-3 foi treinado apenas uma vez, apesar de alguns erros que em outros casos teriam levado ao retreinamento. Por causa disso, a OpenAI supostamente decidiu contra isso devido ao custo inacessível, o que impediu os pesquisadores de encontrar o melhor conjunto de hiperparâmetros para o modelo.
Outra consequência dos altos custos de treinamento é que as análises do comportamento do modelo seriam restritas. De acordo com um relatório, quando pesquisadores de IA concluíram que o tamanho do modelo era a variável mais relevante para melhorar o desempenho, eles não consideraram o número de tokens de treinamento, ou seja, a quantidade de dados fornecidos aos modelos. Isso exigiria quantidades extraordinárias de recursos de computação. As empresas de tecnologia seguiram as descobertas dos pesquisadores porque eram as melhores que tinham.
Altman disse que o GPT-4 usará muito mais cálculos do que seu antecessor. Espera-se que o OpenAI implemente ideias relacionadas à otimização no GPT-4, embora até que ponto não possa ser previsto, pois seu orçamento é desconhecido.
No entanto, as declarações de Altman mostram que o OpenAI deve se concentrar em otimizar variáveis além do tamanho do modelo.. Encontrar o melhor conjunto de hiperparâmetros, o tamanho ideal do modelo e o número de parâmetros pode levar a melhorias incríveis em todos os benchmarks.
De acordo com analistas, todas as previsões para modelos de linguagem entrarão em colapso se essas abordagens forem combinadas em um único modelo. Altman também disse que as pessoas não acreditariam no quanto os modelos podem ser melhores sem necessariamente serem maiores. Pode estar sugerindo que os esforços de dimensionamento acabaram por enquanto.
A OpenAI supostamente se esforçou muito para resolver o problema de alinhamento da IA: como fazer os modelos de linguagem seguirem as intenções humanas e aderirem aos valores humanos?
Analistas dizem que este não é apenas um problema matemático difícil (como fazemos com que a IA entenda exatamente o que queremos?), mas também filosófico (não existe uma maneira universal de alinhar a IA com os humanos, já que a variabilidade dos valores humanos de grupo para grupo é enorme e muitas vezes conflitante).
Finalmente se você estiver interessado em saber mais sobre issovocê pode consultar o post original no link a seguir.