iallmollamaopen-webuiprogramaçãotutorial

Como usar Ollama com Open WebUI para executar LLMs localmente

22 de janeiro de 2025 (10 meses atrás)3 min. de leitura

Com o crescimento da inteligência artificial, muitos de nós queremos experimentar com modelos de linguagem grandes (LLMs) sem depender de serviços online ou pagar por APIs. A combinação do Ollama com Open WebUI oferece uma solução perfeita para executar LLMs localmente no teu computador.

O que é o Ollama?

O Ollama é uma ferramenta que simplifica a execução de modelos de linguagem grandes no teu computador local. Pensa nele como um "Docker para LLMs" - permite descarregar, instalar e executar modelos como Llama 2, Code Llama, Mistral, e muitos outros com comandos simples.

Vantagens do Ollama:

  • Privacidade total: Os teus dados nunca saem do teu computador
  • Gratuito: Sem custos de API ou subscrições
  • Offline: Funciona sem ligação à internet após a instalação
  • Flexível: Suporta dezenas de modelos diferentes

O que é o Open WebUI?

O Open WebUI (anteriormente conhecido como Ollama WebUI) é uma interface web moderna e intuitiva para interagir com modelos Ollama. Oferece uma experiência similar ao ChatGPT, mas completamente local.

Características principais:

  • Interface web elegante e responsiva
  • Suporte para conversas múltiplas
  • Histórico de conversas
  • Configurações avançadas de modelo
  • Suporte para documentos e imagens (dependendo do modelo)

Instalação do Ollama

macOS

# Usando Homebrew
brew install ollama
 
# Ou descarrega o instalador oficial
curl -fsSL https://ollama.com/install.sh | sh

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

Descarrega o instalador oficial do site do Ollama.

Configuração inicial do Ollama

Após a instalação, inicia o serviço Ollama:

# Inicia o servidor Ollama
ollama serve

O Ollama ficará disponível em http://localhost:11434.

Descarregar o teu primeiro modelo

Vamos começar com o Llama 2, um modelo popular e eficiente:

# Descarrega o Llama 2 (7B parâmetros)
ollama pull llama2
 
# Para um modelo menor e mais rápido
ollama pull llama2:7b-chat
 
# Para modelos especializados em código
ollama pull codellama

Testar o modelo

# Testa o modelo diretamente no terminal
ollama run llama2

Instalação do Open WebUI

Usando Docker (Recomendado)

# Instala e executa o Open WebUI
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

Instalação manual com Python

# Clona o repositório
git clone https://github.com/open-webui/open-webui.git
cd open-webui
 
# Instala as dependências
pip install -r requirements.txt
 
# Executa a aplicação
python -m uvicorn main:app --host 0.0.0.0 --port 8080

Configuração do Open WebUI

  1. Abre o browser e vai a http://localhost:3000 (Docker) ou http://localhost:8080 (instalação manual)
  2. Cria uma conta de administrador na primeira utilização
  3. Vai às configurações e verifica se o endpoint do Ollama está correto: http://localhost:11434

Modelos recomendados para começar

Para uso geral:

# Llama 2 - Equilibrio entre qualidade e performance
ollama pull llama2:7b-chat
 
# Mistral - Excelente para tarefas variadas
ollama pull mistral:7b
 
# Phi-3 - Modelo da Microsoft, muito eficiente
ollama pull phi3:mini

Para programação:

# Code Llama - Especializado em código
ollama pull codellama:7b
 
# DeepSeek Coder - Excelente para desenvolvimento
ollama pull deepseek-coder:6.7b

Para modelos multimodais (texto + imagem):

# LLaVA - Pode processar imagens
ollama pull llava:7b

Otimização de performance

Configurações de sistema

Para melhor performance, ajusta estas configurações no teu sistema:

# Define variáveis de ambiente para otimização
export OLLAMA_NUM_PARALLEL=2
export OLLAMA_MAX_LOADED_MODELS=2
export OLLAMA_FLASH_ATTENTION=1

Escolha do modelo baseada no hardware

  • 8GB RAM: Modelos 3B-7B (phi3:mini, llama2:7b)
  • 16GB RAM: Modelos 7B-13B (mistral:7b, codellama:13b)
  • 32GB+ RAM: Modelos 30B+ (llama2:70b)

Casos de uso práticos

1. Assistente de programação

ollama pull codellama:7b

Usa o Open WebUI para fazer perguntas sobre código, debug, e explicações de algoritmos.

2. Análise de documentos

ollama pull llama2:7b-chat

Carrega documentos no Open WebUI e faz perguntas sobre o conteúdo.

3. Criação de conteúdo

ollama pull mistral:7b

Gera artigos, emails, e outros tipos de texto criativo.

Resolução de problemas comuns

Ollama não inicia

# Verifica se o serviço está a correr
ps aux | grep ollama
 
# Reinicia o serviço
killall ollama
ollama serve

Modelo muito lento

  • Verifica se tens RAM suficiente
  • Experimenta um modelo menor
  • Fecha outras aplicações que consomem memória

Open WebUI não conecta ao Ollama

  • Verifica se o Ollama está a correr em localhost:11434
  • Confirma as configurações de endpoint no Open WebUI
  • Testa a conexão: curl http://localhost:11434/api/tags

Comandos úteis do Ollama

# Lista modelos instalados
ollama list
 
# Remove um modelo
ollama rm llama2
 
# Atualiza um modelo
ollama pull llama2
 
# Mostra informações do modelo
ollama show llama2
 
# Para o servidor
ollama stop

Conclusão

A combinação do Ollama com Open WebUI oferece uma alternativa poderosa e privada aos serviços de IA online. Com esta configuração, tens:

  • Controlo total sobre os teus dados
  • Acesso offline aos modelos
  • Custos zero após a instalação inicial
  • Flexibilidade para experimentar diferentes modelos

Começa com modelos menores como o phi3:mini ou llama2:7b e vai experimentando até encontrares o que melhor se adequa às tuas necessidades e hardware.

A IA local está a tornar-se cada vez mais acessível, e esta é uma excelente forma de começar a explorar as possibilidades sem comprometer a privacidade ou o orçamento.