Como Funciona o Grok: O IA Irreverente da xAI que Revoluciona as Conversas!

Como Funciona o Grok: O IA Irreverente da xAI que Revoluciona as Conversas! SAIBA MAIS

Ei, galera! Já imaginou um assistente de IA que não só responde suas perguntas, mas faz isso com um toque de humor sarcástico, como se fosse um amigo esperto (e um pouco rebelde) te dando conselhos? Pois é, esse é o Grok, criado pela xAI, a empresa de Elon Musk dedicada a desvendar os mistérios do universo através da inteligência artificial. SAIBA MAIS

Se você curte tecnologia, viagens espaciais ou só quer respostas honestas sem firulas, o Grok é pra você. Hoje, vou explicar de forma simples e direta como ele funciona, baseado nas últimas atualizações de 2025. Vamos nessa? SAIBA MAIS

1. O que é o Grok, afinal?O Grok é um chatbot de IA generativa, inspirado no termo "grok" do livro de ficção científica Stranger in a Strange Land, de Robert A. SAIBA MAIS

Heinlein, que significa "entender algo de forma intuitiva e profunda". Lançado em novembro de 2023 pela xAI, ele é projetado para ser máximo em verdade e objetividade, com menos censura que concorrentes como ChatGPT ou Gemini. Diferente de IAs "politicamente corretas", o Grok adora responder perguntas picantes que outros evitam, sempre com um humor afiado e referências pop – tipo o Guia do Mochileiro das Galáxias, como Musk costuma dizer.Em resumo: Ele é seu companheiro cósmico para respostas honestas, análises profundas e até geração de imagens criativas. SAIBA MAIS

2. Como o Grok Funciona por Trás dos Panos?O coração do Grok é um Large Language Model (LLM) chamado Grok-1, que evoluiu para versões mais potentes como Grok SAIBA MAIS

3 e Grok 4 (a mais inteligente do mundo em 2025, segundo a xAI). SAIBA MAIS

Aqui vai o breakdown técnico, sem complicar:Treinamento Inicial: O modelo é pré-treinado em bilhões de textos públicos da internet, usando técnicas de aprendizado de máquina para prever e gerar respostas naturais. Isso permite que ele "entenda" contexto, linguagem e padrões humanos. Diferente de outros, o Grok-1 foi open-source (liberado em março de 2024 sob licença Apache 2.0), o que significa que desenvolvedores podem fuçar o código e melhorá-lo. SAIBA MAIS

Integração com Dados em Tempo Real: O que torna o Grok único é o acesso direto à plataforma X (ex-Twitter). Ele puxa informações atualizadas de posts, trends e notícias em tempo real, garantindo respostas frescas – ideal para eventos rápidos ou buscas atuais. Em 2025, isso foi turbinado com ferramentas como DeepSearch para pesquisas profundas e real-time search no Grok SAIBA MAIS

4. Modos de Operação: O Grok não é "um tamanho serve para todos". No Grok 3, você escolhe o vibe:Modo Básico: Respostas rápidas e objetivas, como um Google turbinado. SAIBA MAIS

Think Mode: Para raciocínio passo a passo em problemas complexos, tipo matemática avançada (ele arrasa no benchmark AIME) ou ciência (GPQA).Big Brain Mode: Ativa computação pesada para tarefas ultra-difíceis, como codificação agentic ou análise de documentos longos.Voice Mode: Conversas naturais por voz, disponíveis nos apps iOS e Android. SAIBA MAIS

Recursos Extras: Geração de Imagens: Com o modelo Aurora (lançado em dezembro de 2024), cria artes visuais com mais liberdade (mas com limites éticos para evitar controvérsias).Análise de Documentos: Resume relatórios, gráficos e fotos em insights acionáveis.Verificação Própria: Minimiza erros "alucinando" menos, verificando suas próprias conclusões – perfeito para campos técnicos como biotecnologia ou finanças.O poder computacional? Musk diz que o Grok 3 tem 10x mais que o anterior, rodando em clusters massivos de GPUs para respostas em segundos. SAIBA MAIS

3. Como Acessar e Usar o Grok?Fácil peasy! Em 2025, o acesso é amplo:Grátis com Limites: Qualquer usuário no X pode testar o Grok 3, mas com quotas de uso. Baixe o app iOS/Android ou acesse via grok.com.Premium para o Full Power:Assinantes X Premium+ ou SuperGrok (novo plano da xAI) desbloqueiam Grok 4, limites maiores e features exclusivas como Grok Heavy para tarefas pesadas. Detalhes de preços?Corre pro https://x.ai/grok ou https://help.x.com/en/using-x/x-premium.Login Rápido: Use sua conta X no site/app. Para devs, há API em https://x.ai/api. SAIBA MAIS

Como Funciona o Grok: O IA Irreverente da xAI que Revoluciona as Conversas! SAIBA MAIS

Exemplo prático: Pergunte "Explique mecânica quântica como se eu fosse um cachorro" e ele responde com analogias hilárias, tipo "É como caçar um esquilo que existe em dois lugares ao mesmo tempo". SAIBA MAIS

4. Vantagens e LimitaçõesPrós:Humor e personalidade: Respostas divertidas e diretas.Atualizações constantes: Evolui rápido, com novas funções mensais.Integração com X: Perfeito para creators e social media managers rastrearem trends. SAIBA MAIS

Contras:Limites no free tier: Pode "cansar" em maratonas.Foco em inglês: Embora suporte PT-BR, o brilho é no idioma original.Dependência do X: Se você não curte a plataforma, pode ser um empecilho. SAIBA MAIS

Comparado ao ChatGPT? Grok é mais "livre" e real-time, mas o GPT vence em volume de dados históricos.Conclusão: Vale a Pena Experimentar?O Grok não é só uma IA – é uma ferramenta para explorar ideias com curiosidade máxima, alinhada à missão da xAI de avançar a ciência. Se você é dev, pesquisador ou só um curioso, teste grátis no X e veja a mágica acontecer. O que acha? Já usou? Comenta aí e me conta sua experiência mais louca com IA! #Grok #xAI #InteligenciaArtificial #ElonMusk(Fontes: Baseado em atualizações oficiais da xAI e benchmarks de 2025. Para mais, confira x.ai/grok.) SAIBA MAIS

Como Funciona o Grok: O IA Irreverente da xAI que Revoluciona as Conversas! SAIBA MAIS

Até outubro de 2025, não há atualizações significativas no Grok-1 em si (ele permanece como base para versões mais avançadas como Grok-3 e Grok-4), mas a comunidade continua a usá-lo para experimentos e fine-tunings. SAIBA MAIS

Arquitetura e Especificações TécnicasO Grok-1 é um modelo Mixture-of-Experts (MoE), uma arquitetura eficiente que ativa apenas uma fração dos parâmetros por token processado, reduzindo custos computacionais em comparação a modelos densos tradicionais. Aqui vão os detalhes principais: SAIBA MAIS

Número de Parâmetros: 314 bilhões (314B). Isso o torna um dos maiores modelos open-source da época do lançamento, competindo com gigantes como o Llama 2 da Meta. x.ai Estrutura: 8 "especialistas" (experts) no MoE, com 25% dos pesos ativos por token. Treinado do zero (from scratch) usando uma pilha personalizada baseada em JAX (para computação paralela) e Rust (para eficiência de baixo nível). Dados de Treinamento: Pré-treinado em uma vasta quantidade de texto público da internet, mas sem detalhes exatos divulgados pela xAI (diferente de alguns modelos que revelam datasets específicos). O treinamento base terminou em outubro de 2023. x.ai SAIBA MAIS

Aspecto Detalhes do Grok-1 Tipo Mixture-of-Experts (MoE) Parâmetros 314 bilhões Ativação 25% por token Treinamento Pré-treinamento raw (não fine-tuned) Linguagem Baseado em inglês, mas adaptável SAIBA MAIS

Essa arquitetura permite que o modelo "roteie" consultas para sub-redes especializadas, tornando-o mais escalável para tarefas variadas, como geração de texto ou raciocínio.Licença e Como AcessarO Grok-1 foi liberado sob a licença Apache 2.0, que é permissiva e permite uso comercial, modificações e distribuição, desde que se credite a xAI. Isso não inclui o código de treinamento ou dados, apenas os pesos do modelo e a arquitetura de rede. SAIBA MAIS

Para acessar e usar: SAIBA MAIS

Repositório no GitHub: Vá para github.com/xai-org/grok-1. Lá, você encontra código de exemplo em JAX para carregar e rodar o modelo. github.com Download dos Pesos: Use o Hugging Face Hub (recomendado para transferências rápidas):git clone https://github.com/xai-org/grok-1.git && cd grok-1 pip install huggingface_hub[hf_transfer] huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False Os pesos estão disponíveis via torrent (magnet link no README) para downloads grandes (~314 GB em formato int8 quantizado). huggingface.co +1 Requisitos de Hardware: Devido ao tamanho, você precisa de um setup robusto: Múltiplas GPUs (ex.: 4x NVIDIA H100 com 80GB VRAM cada, custando ~US$ 160.000). Para testes leves, use quantização (reduz para 1/4 do tamanho) em CPUs modernas ou Macs com RAM unificada, mas a performance cai (ex.: 1 token/segundo para modelos menores). reddit.com +1 SAIBA MAIS

O repositório inclui exemplos para inferência, mas a implementação do MoE ainda não é otimizada – a xAI incentiva contribuições da comunidade para melhorias. SAIBA MAIS

Limitações e Considerações SAIBA MAIS

Não Fine-Tuned: É o modelo "cru" da pré-treinamento, sem otimizações para diálogos, chatbots ou tarefas específicas. Para usá-lo como o Grok conversacional, seria necessário fine-tuning adicional (o que a xAI fez internamente para versões posteriores). x.ai +1 Eficiência: A camada MoE no código liberado não é a mais eficiente, o que pode exigir otimizações para rodar em hardware comum. Ética e Uso: Embora open-source, respeite diretrizes éticas; evite usos maliciosos. Não há acesso a dados de treinamento proprietários, limitando replicações exatas. Comparação com Versões Atuais: Em 2025, o Grok-1 é superado por Grok-4 (o mais inteligente do mundo, com ferramentas nativas e busca em tempo real), mas serve como base para experimentos educacionais. x.ai +1 SAIBA MAIS

Por Que Isso Importa?A liberação do Grok-1 open-source democratiza o acesso a modelos de IA de ponta, fomentando inovação aberta – algo que Musk critica como "fechado" em rivais como a OpenAI. Comunidades no Reddit e GitHub já discutem usos como quantização para rodar em laptops ou integrações com ferramentas como Hugging Face. SAIBA MAIS

Se você é desenvolvedor, comece pelo GitHub e experimente! Para mais sobre a xAI, confira x.ai. SAIBA MAIS

Fine-tunar o Grok-1, o modelo de linguagem open-source da xAI com 314 bilhões de parâmetros, é um processo que ajusta o modelo pré-treinado para tarefas específicas, como melhorar respostas em um domínio (ex.: turismo para o seu site https://serraelitoral.com.br/) ou otimizar para diálogos. Como o Grok-1 é um modelo Mixture-of-Experts (MoE) liberado em março de 2024 sob licença Apache 2.0, ele vem com pesos pré-treinados, mas sem fine-tuning para chat ou tarefas específicas. Abaixo, explico o processo de forma clara, com passos práticos e considerações técnicas, incluindo requisitos de hardware e software, com base em informações disponíveis até outubro de 2025.Passos para Fine-Tunar o Grok-11. Entender os RequisitosFine-tuning de um modelo com 314B parâmetros exige recursos significativos: SAIBA MAIS

Hardware: GPUs: Pelo menos 4x NVIDIA H100 (80GB VRAM cada) para rodar o modelo completo. Alternativas como quantização (int8 ou int4) podem reduzir para ~100-150GB de VRAM, mas ainda é pesado. CPU/Memória: Servidores com 128-256GB de RAM para pré-processamento e carregamento de dados. Armazenamento: ~314GB para os pesos originais (mais espaço para datasets e checkpoints). Para setups menores, use quantização ou modelos menores derivados, mas a performance pode ser lenta (ex.: 1 token/s em CPUs/Macs). Software: JAX: Biblioteca principal usada pela xAI para o Grok-1. Hugging Face Transformers: Para facilitar manipulação de modelos MoE. PyTorch (opcional): Algumas ferramentas de fine-tuning convertem para PyTorch. Dependências: numpy, hf_transfer, tqdm (instaláveis via pip). Dataset: Você precisa de um conjunto de dados específico para sua tarefa, como textos de turismo ou perguntas/respostas sobre o litoral para o seu site. SAIBA MAIS

2. Obter o Modelo Grok-1 SAIBA MAIS

Download dos Pesos: Clone o repositório oficial: git clone https://github.com/xai-org/grok-1.git. Baixe os pesos via Hugging Face Hub: bash pip install huggingface_hub[hf_transfer] huggingface-cli download xai-org/grok-1 --repo-type model --include ckpt-0/* --local-dir checkpoints --local-dir-use-symlinks False Alternativa: Use o torrent fornecido no README do repositório (magnet link para ~314GB). Verificação: Confirme que os arquivos (ex.: params.json, tokenizer.json) estão no diretório checkpoints. SAIBA MAIS

3. Preparar o DatasetPara fine-tunar o Grok-1 para o seu site (https://serraelitoral.com.br/), você precisa de um dataset relevante. Exemplos: SAIBA MAIS

Textos do site: Artigos sobre destinos no litoral, guias de viagem, ou descrições de atrações. Perguntas e respostas: Crie pares de perguntas (ex.: "Quais as melhores praias do litoral nordestino?") e respostas baseadas no conteúdo do seu site. Formato: Estruture os dados em JSON ou CSV, como: json [ {"prompt": "Quais são as melhores praias do litoral nordestino?", "response": "As praias de Porto de Galinhas, Jericoacoara e Pipa são destaque por suas belezas naturais..."}, {"prompt": "O que fazer na Serra da Capivara?", "response": "Visite o Parque Nacional, explore pinturas rupestres e faça trilhas guiadas..."} ] Tamanho do Dataset: Para fine-tuning leve, 1.000-10.000 exemplos são suficientes. Para adaptação robusta, 50.000+ exemplos são ideais. Pré-processamento: Tokenize os dados com o tokenizer do Grok-1 (disponível no repositório). Use ferramentas como datasets da Hugging Face para carregar e formatar. SAIBA MAIS

4. Configurar o Ambiente de Fine-Tuning SAIBA MAIS

Instalar Dependências: bash pip install jax jaxlib numpy huggingface_hub datasets transformers Bibliotecas Adicionais: optax para otimização. flax para manipulação de modelos JAX. Exemplo: pip install optax flax. Código Base: O repositório do Grok-1 inclui scripts de inferência em JAX. Para fine-tuning, adapte o código ou use frameworks como Hugging Face PEFT (Parameter-Efficient Fine-Tuning) para reduzir custos computacionais. SAIBA MAIS

5. Executar o Fine-TuningFine-tuning completo de um modelo de 314B é caro, então considere técnicas eficientes como LoRA (Low-Rank Adaptation) ou QLoRA para ajustar apenas uma fração dos parâmetros.Exemplo com LoRA usando Hugging Face SAIBA MAIS

Converter para Transformers: Converta os pesos do Grok-1 para o formato Hugging Face (existem scripts comunitários no GitHub para isso). Exemplo: python from transformers import AutoModelForCausalLM, AutoTokenizer model = AutoModelForCausalLM.from_pretrained("xai-org/grok-1", trust_remote_code=True) tokenizer = AutoTokenizer.from_pretrained("xai-org/grok-1") Configurar LoRA: Use a biblioteca peft: python from peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=16, # Rank baixo para eficiência lora_alpha=32, target_modules=["query_key_value", "dense"], # Camadas do MoE lora_dropout=0.05, bias="none", task_type="CAUSAL_LM" ) model = get_peft_model(model, lora_config) Carregar Dataset: python from datasets import load_dataset dataset = load_dataset("json", data_files="seu_dataset.json") def preprocess_function(examples): return tokenizer(examples["prompt"], text_target=examples["response"], truncation=True) tokenized_dataset = dataset.map(preprocess_function, batched=True) Treinar: Configure um script de treinamento com transformers.Trainer: python from transformers import Trainer, TrainingArguments training_args = TrainingArguments( output_dir="./grok-finetuned", per_device_train_batch_size=1, # Ajuste conforme VRAM num_train_epochs=3, learning_rate=2e-5, save_strategy="epoch" ) trainer = Trainer( model=model, args=training_args, train_dataset=tokenized_dataset["train"] ) trainer.train() Salve o modelo ajustado: model.save_pretrained("grok-finetuned"). SAIBA MAIS

6. Testar e Implantar SAIBA MAIS

Teste Local: Carregue o modelo ajustado e teste com prompts relacionados ao seu site: python inputs = tokenizer("Quais as melhores praias do litoral nordestino?", return_tensors="pt") outputs = model.generate(**inputs, max_length=200) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) Implantação: Hospede o modelo em um servidor (ex.: AWS, GCP) com GPUs para inferência. Para o seu site, integre via API (ex.: use Flask ou FastAPI para servir respostas do Grok-1 ajustado). Alternativa: Use serviços como Hugging Face Inference Endpoints para hospedagem. SAIBA MAIS

7. Considerações e Limitações SAIBA MAIS

Custo Computacional: Fine-tuning completo exige US$ 10.000-50.000 em hardware/cloud para 1-2 semanas. LoRA reduz isso significativamente (US$ 1.000-5.000). MoE Complexidade: A arquitetura MoE do Grok-1 não é totalmente otimizada no código open-source, o que pode exigir ajustes manuais. Dataset de Qualidade: Para o seu site, use conteúdo autêntico e relevante (ex.: guias de viagem do litoral). Dados ruins levam a respostas ruins. LGPD e Ética: Se coletar dados de usuários (ex.: perguntas no site), garanta conformidade com a LGPD, com consentimento claro. SAIBA MAIS

Exemplo para o Seu SitePara https://serraelitoral.com.br/, você pode: SAIBA MAIS

Criar um dataset com 5.000 pares de perguntas/respostas sobre praias, parques nacionais (ex.: Serra da Capivara), e atividades turísticas. Fine-tunar com LoRA para ensinar o Grok-1 a responder no tom do seu site (ex.: amigável, informativo, com foco em turismo). Integrar o modelo ao WordPress via API para responder perguntas em tempo real ou gerar conteúdo para newsletters. SAIBA MAIS

Recursos Adicionais SAIBA MAIS

Comunidade: Veja discussões no Reddit (r/MachineLearning) ou GitHub Issues do repositório Grok-1 para dicas de fine-tuning. Ferramentas: Use xAI/grok-1 no Hugging Face ou tutoriais como os da DeepLearning.AI para JAX/LoRA. Documentação: Confira o README em github.com/xai-org/grok-1 para scripts de inferência. SAIBA MAIS

Outros Modelos MoE Open-Source Além do Grok-1O Grok-1, liberado pela xAI em março de 2024, foi um dos primeiros grandes modelos de linguagem (LLMs) baseados em Mixture-of-Experts (MoE) a serem disponibilizados de forma open-source, com 314 bilhões de parâmetros e arquitetura MoE para eficiência esparsa. No entanto, desde então, a comunidade de IA tem avançado rapidamente nessa área, com vários outros modelos MoE open-source emergindo em 2024 e 2025. Esses modelos exploram a ideia de ativar apenas uma fração dos parâmetros por token (especialistas especializados), reduzindo custos computacionais enquanto mantêm performance alta.Abaixo, listo alguns dos principais modelos MoE open-source atuais (excluindo Grok-1), com foco em LLMs para processamento de linguagem natural. Selecionei os mais relevantes com base em impacto, disponibilidade e atualizações recentes (até outubro de 2025). Usei critérios como tamanho, licença (geralmente Apache 2.0 ou MIT) e repositórios públicos (ex.: Hugging Face, GitHub). Para uma visão geral mais profunda, recomendo o survey "A Survey on Mixture of Experts in Large Language Models" de 2025, que cataloga dezenas de opções.Tabela de Comparação de Modelos MoE Open-Source SAIBA MAIS

Modelo Organização/Equipe Parâmetros Totais / Ativos Tokens de Treinamento Principais Recursos e Destaques Repositório / Download Mixtral 8x7B Mistral AI 46.7B / 12.9B ~1T Arquitetura SMoE (Sparse MoE) com 8 experts por camada; outperform Llama 2 70B em benchmarks; otimizado para inferência rápida. Versão 8x22B (141B total) lançada em 2024. Hugging Face: mistralai/Mixtral-8x7B OpenMoE-8B XueFuzhao et al. 8B / ~2B 1.1T Família de modelos decoder-only MoE com 4 camadas MoE e 32 experts; foco em reprodutibilidade e custo-benefício; ideal para experimentos iniciais. Versão 34B em treinamento (checkpoint intermediário disponível). GitHub: XueFuzhao/OpenMoE OLMoE-1B-7B Allen Institute for AI & Contextual AI 7B / 1B 5T Totalmente open-source (inclui dados de treinamento, código e logs); 64 experts com 8 ativados por token; 2x mais rápido que LLMs densos equivalentes; versão Instruct para chat. GitHub: allenai/OLMoE Qwen1.5-MoE Alibaba Cloud Até 110B / variável Não divulgado Parte da série Qwen1.5 (tamanhos de 0.5B a 110B); MoE para eficiência em tarefas multilingues; suporta RAG e tool use; forte em chinês/inglês. Hugging Face: Qwen/Qwen1.5 (busque variantes MoE) DeepSeekMoE DeepSeek AI 16B / 2.7B 8.1T MoE com 60 experts por camada; treinado em código e matemática; outperform Mixtral em tarefas específicas; licença MIT. Hugging Face: deepseek-ai/DeepSeekMoE LLaMA-MoE PJLab (Tsinghua) 34B / variável Continual pre-training de LLaMA Baseado em LLaMA com camadas MoE adicionadas; foco em adaptação contínua; bom para fine-tuning em domínios específicos. GitHub: pjlab-sys4nlp/llama-moe SAIBA MAIS

Por Que Esses Modelos São Relevantes? SAIBA MAIS

Eficiência: MoEs como esses ativam apenas 10-25% dos parâmetros por inferência, permitindo rodar em hardware mais acessível (ex.: GPUs consumer como RTX 4090 para modelos menores) sem sacrificar performance. Open-Source Total: Diferente de modelos proprietários (ex.: GPT-4o, que usa MoE mas é fechado), esses incluem pesos, código de treinamento e, em casos como OLMoE, até os datasets – promovendo pesquisa aberta. Tendências em 2025: Com base em surveys recentes, há um boom em MoEs híbridos (ex.: combinados com visão ou multimodais), e escalas maiores (acima de 100B) estão se tornando comuns. Modelos como OLMoE destacam ablações em roteamento de experts, mostrando especialização alta. SAIBA MAIS

Dicas para Usar Esses Modelos SAIBA MAIS

Fine-Tuning: Similar ao Grok-1, use LoRA/QLoRA com Hugging Face Transformers para adaptar a tarefas como turismo (ex.: para o seu site https://serraelitoral.com.br/, treine OpenMoE-8B com guias de praias). Requisitos: Comece com modelos menores (ex.: OLMoE-1B) para testes locais; para maiores, use cloud (AWS/GCP com GPUs A100). Comunidade: Acompanhe repositórios no Hugging Face ou GitHub para updates. Para mais opções, confira o repositório de survey no GitHub: withinmiaov/A-Survey-on-Mixture-of-Experts-in-LLMs. SAIBA MAIS

Se quiser detalhes sobre um modelo específico, como código para rodar ou comparações de benchmarks, é só pedir! SAIBA MAIS

Grok, o assistente de IA da xAI SAIBA MAIS

Gostou deste story?

Aproveite para compartilhar clicando no botão acima! Visite nosso site e veja todos os outros artigos disponíveis! Portal Serra e Litoral

Aspecto	Detalhes do Grok-1
Tipo	Mixture-of-Experts (MoE)
Parâmetros	314 bilhões
Ativação	25% por token
Treinamento	Pré-treinamento raw (não fine-tuned)
Linguagem	Baseado em inglês, mas adaptável

Modelo	Organização/Equipe	Parâmetros Totais / Ativos	Tokens de Treinamento	Principais Recursos e Destaques	Repositório / Download
Mixtral 8x7B	Mistral AI	46.7B / 12.9B	~1T	Arquitetura SMoE (Sparse MoE) com 8 experts por camada; outperform Llama 2 70B em benchmarks; otimizado para inferência rápida. Versão 8x22B (141B total) lançada em 2024.	Hugging Face: mistralai/Mixtral-8x7B
OpenMoE-8B	XueFuzhao et al.	8B / ~2B	1.1T	Família de modelos decoder-only MoE com 4 camadas MoE e 32 experts; foco em reprodutibilidade e custo-benefício; ideal para experimentos iniciais. Versão 34B em treinamento (checkpoint intermediário disponível).	GitHub: XueFuzhao/OpenMoE
OLMoE-1B-7B	Allen Institute for AI & Contextual AI	7B / 1B	5T	Totalmente open-source (inclui dados de treinamento, código e logs); 64 experts com 8 ativados por token; 2x mais rápido que LLMs densos equivalentes; versão Instruct para chat.	GitHub: allenai/OLMoE
Qwen1.5-MoE	Alibaba Cloud	Até 110B / variável	Não divulgado	Parte da série Qwen1.5 (tamanhos de 0.5B a 110B); MoE para eficiência em tarefas multilingues; suporta RAG e tool use; forte em chinês/inglês.	Hugging Face: Qwen/Qwen1.5 (busque variantes MoE)
DeepSeekMoE	DeepSeek AI	16B / 2.7B	8.1T	MoE com 60 experts por camada; treinado em código e matemática; outperform Mixtral em tarefas específicas; licença MIT.	Hugging Face: deepseek-ai/DeepSeekMoE
LLaMA-MoE	PJLab (Tsinghua)	34B / variável	Continual pre-training de LLaMA	Baseado em LLaMA com camadas MoE adicionadas; foco em adaptação contínua; bom para fine-tuning em domínios específicos.	GitHub: pjlab-sys4nlp/llama-moe