A OpenAI e o ChatGPT

E, seguindo o roteiro que montamos, hoje vamos aprender mais sobre a OpenAI. Ela já foi muito mencionada aqui no blog, mas não paramos para descobrir os fundamentos sobre ela e entender o porquê ela é tão falada.

A estrutura da OpenAI em 22/06/202. Fonte: Our structure | OpenAI

A OpenAI é uma empresa que revirou o mundo, ficando muita famosa pelo seu principal produto: O ChatGPT. A área da IA existe há muito tempo, e não é algo novo… E não só a área, como muitas tecnologias usando a Inteligência Artificial de fato… Mas, se tornou muito popular, em nível global, furando a bolha técnica, quando a OpenAI soltou o ChatGPT pro mundo! Com ele, qualquer pessoa no mundo consegue interagir com uma máquina, respondendo questões em tempo real, com um bom nível de lógica.

E por isso, acho que vale um post pra gente explorar um pouco do que é a OpenAI!

A OpenAI se define como uma organização sem fins lucrativos que faz pesquisas em Inteligência Artificial. Segundo eles, o objetivo é desenvolver inteligência artificial para beneficiar a humanidade, independente do retorno financeiro disso. Assim, o foco não sendo o retorno financeiro, eles podem concentrar em gerar algo direcionado para o resultado benéfico para a humanidade. E também mencionam que sua missão é garantir que a AGI (IA Forte) seja segura e beneficie toda a humanidade.

Na verdade, essa afirmação deles como “sem fins lucrativos” é antiga… Isso é apenas uma parte da empresa. Eles viram que ser apenas sem fins lucrativos não iria ser o suficiente para gerar o investimento necessário para os objetivos e então montaram uma estrutura com fins lucrativos. Mas, a OpenAI afirma que o core, essa sem fins lucrativos, é quem gerencia e direciona as outras, então, todo o desenvolvimento de Inteligência Artificial por eles, ainda segue os mesmos princípios, que é desenvolver IA voltado para beneficiar a humanidade.

A OpenAI diz que investir nela é um investimento de alto risco, sem garantias de retorno… E aí, se você tivesse muito dinheiro, investiria?

E, uma das granes polêmicas envolvendo a OpenAI, está nos investimentos recebidos de gente famosa, como Elon Musk e a Microsoft.

O ChatGPT

Agora que você conhece um pouco sobre a OpenAI e sua atividade, vamos falar um pouco de quem realmente traz a fama a OpenAI. Até antes de 2023 eu só ouvia falar de IA através do nome “Machine Learning”, algoritmo de rede social, os bonequinhos controlados em um jogo de video game ou algo um filme ficção-científica. E olha que sou da área de TI (enquanto o Machine Learning estava se tornando a IA que conhecemos hoje, meu foco era estudar e trabalhar muito SQL Server, Hardware e Sistemas Operacionais).

Mas aí, no final de 2022, um nome começou a ser falado pra todo lado: O ChatGPT. E, não apenas programadores, mas todo mundo, de todas as áreas, e de repente, ele já era uma das ferramentas mais acessadas do mundo, sendo noticiada até na TV!

E, obviamente, louco por tecnologia que sou, isso me chamou muito a atenção: Será que é só mais programinha que responde coisa com coisa (um gerador de bla bla), ou o negócio realmente parece alguém mesmo? Fui conferir e fiquei impressionado… Na minha primeira conversa com o ChatGPT eu fiz pergunta de todo o tipo pra ele: Se sabia falar em português, se conseguia resolver um problema de SQL Server, sobre a própria arquitetura dele e até sobre DNA kkkkk! Não vou botar o link da conversa aqui por ter algumas partes que não quero expor, mas veja alguns prints:

Conversa1-p4

Image 3 of 24

O ChatGPT é um site web onde você pode digitar mensagens e receber respostas, com uma interface semelhante a esses programas de mensagens (como Teams, Skype, WhatsApp, etc.). A diferença é que quem está do outro lado respondendo, em tempo real, não é uma pessoa, e sim uma programa de computador. Você pode acessar aí agora, e não precisa nem criar um login e senha, basta começar a conversar e pode ver com seus próprios olhos! É fascinante.

A versão gratuita possui algumas limitações, como quantidade de mensagens que você pode enviar, etc. Eles possuem versões pagas, que trazem mais recursos, aumentam esses limites, etc.

Esse nome “GPT”, vem de um tecnologia chamada Generative Pre-training Transformer. Essa é a tecnologia por trás das respostas que você está recebendo. E isso é o que é mais interessante (e foi surpresa pra mim, que não vinha acompanhando): quando eu descobri o ChatGPT, ele usava o GPT3.5, isto é, já tinha o GPT1, GPT2, e, para minha surpresa, outros, muitas outras tecnologias para gerar texto!… O ChatGPT foi apenas quem popularizou isso em uma escala mundial.

Você consegue usar o ChatGPT, e é muito simples: Basta entrar neste link, e começar a conversar. Faça pergunta de assuntos que você conheça e avalie se a resposta foi boa ou não.

Além do ChatGPT

E a OpenAI não se limita ao ChatGPT. Além do ChatGPT, que é um produto com vários serviços envolvidos, eles ainda tem outros projetos, alguns incorporados dentro do próprio ChatGPT, outros que você pode executar no seu computador (se tiver o hardware adequado), alguns que foram apenas anunciados e outros que estão em pesquisa (pelo menos até o momento em que esse post foi escrito):

O DALL-E, que é uma IA que consegue gerar imagens a partir do texto que você escreve. Para se ter uma ideia do poder do DALL-E, vão ao seu ChatGPT e peça para ele gerar alguma imagem, fornecendo uma descrição. (você precisa criar sua conta, gratuitamente, para acessar essa funcionalidade)
Ex.: Gere uma imagem de um leão correndo no meio da capital do Brasil
Whisper, que transcreve áudio para texto, com uma boa qualidade nos resultados e é open source
Voice Engine, para transformar texto em fala
O Sora, que foi anunciado há alguns meses (em relação a esse post), e gera vídeos INCRIVELMENTE realistas, mas, até o momento em que este post foi publicado, ainda não estava disponível para o público como os anteriores estão.

API

Além dessas ferramentas que já estão prontas pra você usar em forma de aplicativo ou site, a OpenAI disponibiliza uma API, que você pode usar para integrar suas aplicações com a maioria desses serviços. Na API você paga pelo uso: Crie uma conta, coloque créditos na sua conta e comece a chamar os serviços da API.

Você é cobrado baseado no tanto de texto que você envia e no tanto de texto que a IA te responde. E, não é em números de caracteres. A unidade são os “tokens” (no caso da funcionalidade que gera texto).

Estas IAs que geram texto (chamadas de LLM, Large Language Models) não entendem texto (ao contrário do que você pode pensar). Elas entendem e produzem “tokens” (Que são números). Um token é uma espécie de codificação do seu texto. Um tokenizador transforma o seu texto em um array de números. Estes números são enviados ao GPT e são esses números retornados. Antes de te devolver, ele são convertidos de volta para o texto respectivo.

Existem diversas razões para isso, e o que podemos resumir é: Com tokens, é muito mais eficiente e preciso para uma máquina processar o texto.

Outro conceito importante que você deve levar em consideração é o “Context Size”, isto é, o tamanho do contexto. Esses modelos não conseguem ler qualquer quantidade de tokens de uma vez. Tem um limite: É como se fosse você, quantas palavras, frases ou parágrafos você consegue ler de uma só vez, memorizar, e gerar uma resposta em cima disso? Não é infinito! Com pouco texto, você pode tirar conclusões precipitadas. Com muito, você pode acabar se atrapalhando e esquecendo de algo…

Aqui temos uma situação muito semelhante. Cada versão de modelo tem um limite de contexto, que é o máximo de tokens que você pode enviar de uma só vez pra ele. Se o seu texto passa desse limite, você vai precisar quebrar em várias requisições, e em cada requisição mandar algum resumo para que o seu modelo continue mantendo o contexto, ou, simplesmente, você descarta o mais antigo (e acredito que é provavelmente assim que o ChatGPT funciona, por isso, a medida que você conversa com ele, ele tende a esquecer do início). Os contextos mais comuns que vejo são de 4 mil tokens (4k), 16k,32k e incríveis 128k tokens. (o do Google, Gemini, tem 1 milhão de tokens 🤯 )

Agora que você entende melhor o que é um token e o context size, vai conseguir ler melhor a documentação da API da OpenAI, e até a documentação de preços. A maioria dos preços são baseados na quantidade de tokens que você envia + quantidade de tokens que você recebe. Você pode usar esta ferramenta da OpenAI e digitar um texto e ver como ele é transformado em tokens:

Como um texto é quebrado pelo tokenizer da OpenAI

Image 1 of 2

Os preços geralmente são mostrado em um “pacote” de tokens. E cada versão do GPT possui um preço diferente. As versões mais novas tendem a ser mais caras, por serem muito melhores.

Por exemplo, na data em que post foi escrito, 1 milhão tokens do gpt-3.5, a versão mais antiga, custavam U$ 0.5 de entrada + U$ 1.5 de saída. Isto é, se eu enviasse o texto da imagem acima, e o modelo me respondesse como 500 tokens, isso consumiria dos meus créditos:

preço por token entrada = $0.5/1M = U$ 0,0000005
preço por token de saída = $1,5/1M = U$ 0,0000015
entrada: 18 * 0,0000005 = $ 0,000009
saída: 500 * 0,0000015 = 0,00075
Total = 0,00075 + 0,000009 = 0,000759 (isso mesmo menos de 1 centavo)

Eu, particularmente, acho muito barato em vista dos retornos que você pode ter. A tabela abaixo é um comparativo de alguns modelos considerando um que você enviaria de 100 mil tokens e receberia 100 mil tokens. Isso é muita, mas muita coisa mesmo: Para você ter uma ideia, uma transcrição de uma live de 2h, resultou em 200 mil caracteres, e tinha os tempos da fala incluídos no texto, totalizou 98 mil tokens. Então, 100 mil tokens é muita coisa (1 livro inteiro do Harry Potter cabe em 100 mil tokens):

Modelo	Descrição	Preço (por 1000 tokens)	Custo do Exemplo (100k tokens/1k = 100)
gpt-4o	O modelo mais avançado até a data de publicação desst post, e com melhor custo benefício	Input = U$ 0,005 Output = U$ 0.015	Input = 0,005100 = 0,5 Output = 0,015100 = 1,5 Total = 2 dólares
gpt-4o-mini	Modelo quase tão avançado quanto o 4o, porém muito mais barato até que o 3.5!	Input = U$ 0,000150 Output = U$ 0.000600	Input=0,00015100= 0,015 Out = 0,0006100 = 0,06 Total = 7 cents de dólar!
gpt-4-turbo	Modelo GPT-4, que foi por muito tempo o principal e ainda em alguns momentos consegue responder bem!	Input = U$ 0,01 Output = U$ 0,03	Input = 0,01100 = 1 Output = 0,03 100 = 3 Total = 3 dólares
gpt-4	GPT-4, com meno contexto, mas que eventualmente ainda pode desempenhar melhor em alguns cenários	Input = U$ 0,03 Output = U$ 0,06	Input = 0,03 * 100 = 3 Output = 0,06 * 100 = 6 Total = 9 dólares
gpt-3.5-turbo	Este é o modelo mais rápido e mais barato. Porém, com menor qualidade na respostas. Mas, mesmo assim, ainda é de útil para muitos cenários, especialmente os mais simples	Input = U$ 0,0005 Output = U$ 0,0015	Input = 0,0005100 = 0,02 Out = 0,0015 100 = 0,15 Total = 0,17 17 centavos de dólar!

Comparativo até 04/07/2024. Verifique a página de preços da OpenAI para informações mais atualizadas. Utilize os cálculo aqui para facilitar o entendimento de como o preço da API é calculo e pode variar conforme modelo!

Existem outros serviços, como a API de assistentes (Que é muito incrível também, facilitando você criar algo muito próximo a funcionalidade do ChatGPT, sem a interface é claro), Transcrição de Áudio (com o Whisper hospedado deles), DALL-E, etc. Você deve sempre consultar a página de preços e a documentação da API que deixei acima (e abaixo) para ficar por dentro dos preços!

API vs ChatGPT

Note que a API e o ChatGPT são coisas diferentes: o ChatGPT é um produto, um app (web ou smartphone) em que você conversa com uma IA, pode gerar imagens (usando o DALL-E), e muitas outras funcionalidades. Ele combina diversos modelos de IA da OpenAI em um produto só que você paga mensalmente pra usar (ou sua empresa pode pagar por usuário). Você não é cobrado por token, mas não tem controle sobre como o modelo responde e um monte de parâmetros que existem. Também, você não precisa se preocupar com o preço de Token. A única “preocupação” seria com o contexto, pois isso influencia no que você pode mandar ali, mas, de todo jeito, você não tem muito controle sobre isso, a não ser optando por pagar um plano, onde você tem acesso a modelos com mais contexto.

Já a API é um serviço em que você tem acesso direto a varias versões dos modelos de IA criado pela OpenAI. E você paga pelo uso, em tokens, desses modelos. Você bota um crédito na sua conta, e, esse crédito vai sendo consumido a medida que você usa. Via API, você tem um monte de parâmetros, mas você é o responsável por criar uma interface para exibir e enviar as mensagens (se quiser fazer um Chatbot, por exemplo).

Links úteis da OpenAI

Research | OpenAI
Todas as pesquisas publicadas
News | OpenAI
Novidades direto da OpenAI
OpenAI API | OpenAI
A API da OpenAI, que é paga, que serve para você ter acesso a vários serviços usando programação e integrar nos seus projetos!
ChatGPT Pricing | OpenAI
Planos e preços do ChatGPT
Pricing | OpenAI
Páginas de preços da API
Chat Playground – OpenAI API
Local onde você pode testar a API e também gerenciar
OpenAI Platform
Referência da API
Overview – OpenAI API
tem muito conteúdo bom ai, com dicas, explicações internas, documentação oficial, guias, etc.
openai (OpenAI) (huggingface.co)
Página da OpenAI no Hugging Face

E, o que eu acho disso tudo

Independente do interesse econômico da OpenAI, o que eu posso dizer é que ela é um dos grandes pilares dessa nova fase da IA nas nossas vidas. Hoje você tem acesso a uma IA poderosa, de forma gratuita, graças ao trabalho que essa empresa tem feito (também). O ChatGPT, se usado da forma correta, pode te ajudar em muitas tarefas do dia a dia. Eu não imagino mais um mundo sem algo como ele, pois é, literalmente, seu próprio Jarvis.

E eu acho que eles tem que ter retorno financeiros mesmo, pois creio que muitos produtos e soluções (e milionários) vão ser criados usando o que eles desenvolverem! A OpenAI é hoje o que a Microsoft, o Google, Apple, etc. foi no passado e graças a empresas como estas é que o mundo consegue dar gigantes saltos de tecnologias acessíveis para todo mundo. A OpenAI, independente do seu interesse, ajudou a popularizar a Inteligência Artificial, a torná-la mais tangível e real para quem não é do mundo de tecnologia: Hoje, do meu filho, ao meu pai, conseguem ter acesso e interagir com esse tipo de tecnologia de uma maneira muito simples. E acho que elas merecem os méritos e glórias por isso, pelo menos até aqui. Vamos ver como essa história continua!

Como sempre, eu estou muito empolgado para ver o que vem por aí. Ainda vamos falar muito de OpenAI aqui no blog! Fica ligado!

Rodrigo Ribeiro Gomes

Apaixonado por tecnologia e veterano em bancos de dados SQL Server, este entusiasta agora se aventura no fascinante universo da Inteligência Artificial.

Atualmente é o Head de Inovação da Power Tuning, onde é o responsável por trazer novas ideias para produtos e serviços, que melhorem a produtividade do time ou a experiência do cliente! Com muita experiência em programação, hardware, sistemas operacionais, e mais, agora quer juntar tudo isso nesse novo mundo e trazer muitas ideias e conhecimento sobre Inteligência Artificial!

Neste blog, vai compartilhar sua jornada de aprendizado e uso da IA, focando em como transformar nossa maneira de resolver problemas e inovar.

Contents