Como usar Ollama com Open WebUI para executar LLMs localmente
Com o crescimento da inteligência artificial, muitos de nós queremos experimentar com modelos de linguagem grandes (LLMs) sem depender de serviços online ou pagar por APIs. A combinação do Ollama com Open WebUI oferece uma solução perfeita para executar LLMs localmente no teu computador.
O que é o Ollama?
O Ollama é uma ferramenta que simplifica a execução de modelos de linguagem grandes no teu computador local. Pensa nele como um "Docker para LLMs" - permite descarregar, instalar e executar modelos como Llama 2, Code Llama, Mistral, e muitos outros com comandos simples.
Vantagens do Ollama:
- Privacidade total: Os teus dados nunca saem do teu computador
- Gratuito: Sem custos de API ou subscrições
- Offline: Funciona sem ligação à internet após a instalação
- Flexível: Suporta dezenas de modelos diferentes
O que é o Open WebUI?
O Open WebUI (anteriormente conhecido como Ollama WebUI) é uma interface web moderna e intuitiva para interagir com modelos Ollama. Oferece uma experiência similar ao ChatGPT, mas completamente local.
Características principais:
- Interface web elegante e responsiva
- Suporte para conversas múltiplas
- Histórico de conversas
- Configurações avançadas de modelo
- Suporte para documentos e imagens (dependendo do modelo)
Instalação do Ollama
macOS
# Usando Homebrew
brew install ollama
# Ou descarrega o instalador oficial
curl -fsSL https://ollama.com/install.sh | shLinux
curl -fsSL https://ollama.com/install.sh | shWindows
Descarrega o instalador oficial do site do Ollama.
Configuração inicial do Ollama
Após a instalação, inicia o serviço Ollama:
# Inicia o servidor Ollama
ollama serveO Ollama ficará disponível em http://localhost:11434.
Descarregar o teu primeiro modelo
Vamos começar com o Llama 2, um modelo popular e eficiente:
# Descarrega o Llama 2 (7B parâmetros)
ollama pull llama2
# Para um modelo menor e mais rápido
ollama pull llama2:7b-chat
# Para modelos especializados em código
ollama pull codellamaTestar o modelo
# Testa o modelo diretamente no terminal
ollama run llama2Instalação do Open WebUI
Usando Docker (Recomendado)
# Instala e executa o Open WebUI
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data --name open-webui --restart always \
ghcr.io/open-webui/open-webui:mainInstalação manual com Python
# Clona o repositório
git clone https://github.com/open-webui/open-webui.git
cd open-webui
# Instala as dependências
pip install -r requirements.txt
# Executa a aplicação
python -m uvicorn main:app --host 0.0.0.0 --port 8080Configuração do Open WebUI
- Abre o browser e vai a
http://localhost:3000(Docker) ouhttp://localhost:8080(instalação manual) - Cria uma conta de administrador na primeira utilização
- Vai às configurações e verifica se o endpoint do Ollama está correto:
http://localhost:11434
Modelos recomendados para começar
Para uso geral:
# Llama 2 - Equilibrio entre qualidade e performance
ollama pull llama2:7b-chat
# Mistral - Excelente para tarefas variadas
ollama pull mistral:7b
# Phi-3 - Modelo da Microsoft, muito eficiente
ollama pull phi3:miniPara programação:
# Code Llama - Especializado em código
ollama pull codellama:7b
# DeepSeek Coder - Excelente para desenvolvimento
ollama pull deepseek-coder:6.7bPara modelos multimodais (texto + imagem):
# LLaVA - Pode processar imagens
ollama pull llava:7bOtimização de performance
Configurações de sistema
Para melhor performance, ajusta estas configurações no teu sistema:
# Define variáveis de ambiente para otimização
export OLLAMA_NUM_PARALLEL=2
export OLLAMA_MAX_LOADED_MODELS=2
export OLLAMA_FLASH_ATTENTION=1Escolha do modelo baseada no hardware
- 8GB RAM: Modelos 3B-7B (phi3:mini, llama2:7b)
- 16GB RAM: Modelos 7B-13B (mistral:7b, codellama:13b)
- 32GB+ RAM: Modelos 30B+ (llama2:70b)
Casos de uso práticos
1. Assistente de programação
ollama pull codellama:7bUsa o Open WebUI para fazer perguntas sobre código, debug, e explicações de algoritmos.
2. Análise de documentos
ollama pull llama2:7b-chatCarrega documentos no Open WebUI e faz perguntas sobre o conteúdo.
3. Criação de conteúdo
ollama pull mistral:7bGera artigos, emails, e outros tipos de texto criativo.
Resolução de problemas comuns
Ollama não inicia
# Verifica se o serviço está a correr
ps aux | grep ollama
# Reinicia o serviço
killall ollama
ollama serveModelo muito lento
- Verifica se tens RAM suficiente
- Experimenta um modelo menor
- Fecha outras aplicações que consomem memória
Open WebUI não conecta ao Ollama
- Verifica se o Ollama está a correr em
localhost:11434 - Confirma as configurações de endpoint no Open WebUI
- Testa a conexão:
curl http://localhost:11434/api/tags
Comandos úteis do Ollama
# Lista modelos instalados
ollama list
# Remove um modelo
ollama rm llama2
# Atualiza um modelo
ollama pull llama2
# Mostra informações do modelo
ollama show llama2
# Para o servidor
ollama stopConclusão
A combinação do Ollama com Open WebUI oferece uma alternativa poderosa e privada aos serviços de IA online. Com esta configuração, tens:
- Controlo total sobre os teus dados
- Acesso offline aos modelos
- Custos zero após a instalação inicial
- Flexibilidade para experimentar diferentes modelos
Começa com modelos menores como o phi3:mini ou llama2:7b e vai experimentando até encontrares o que melhor se adequa às tuas necessidades e hardware.
A IA local está a tornar-se cada vez mais acessível, e esta é uma excelente forma de começar a explorar as possibilidades sem comprometer a privacidade ou o orçamento.