Ollama¶

https://ollama.sjanglab.org — GPU 가속 LLM 추론 API입니다. psi 서버의 NVIDIA GPU에서 실행됩니다.

항목	내용
네트워크	VPN 필수 (Headscale 연결 필요)
인증	Headscale ACL만 (별도 로그인 불필요)
접근 권한	관리자, 연구원 (학생 불가)

사용 가능 모델¶

모델	용도
`qwen2.5-72b`	범용 대화/코딩
`llama3.3-70b`	범용 대화
`openbiollm-70b`	생물정보학 특화
`biomistral`	바이오메디컬
`bge-m3`	텍스트 임베딩

API 사용¶

OpenAI 호환 API를 제공합니다:

# 모델 목록
curl https://ollama.sjanglab.org/api/tags

# 채팅 완성
curl https://ollama.sjanglab.org/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5-72b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

Python (OpenAI SDK)¶

from openai import OpenAI

client = OpenAI(
    base_url="https://ollama.sjanglab.org/v1",
    api_key="unused",  # Ollama doesn't require API key
)

response = client.chat.completions.create(
    model="qwen2.5-72b",
    messages=[{"role": "user", "content": "Hello"}],
)

Ollama CLI¶

OLLAMA_HOST 환경 변수를 설정하면 로컬 Ollama CLI로 원격 서버를 직접 사용할 수 있습니다:

export OLLAMA_HOST=https://ollama.sjanglab.org

# 모델 목록
ollama list

# 대화
ollama run qwen2.5-72b

참고사항¶

동시 요청: 최대 2개
모델은 사용 후 5분간 메모리에 유지됩니다
첫 요청 시 모델 로딩에 시간이 걸릴 수 있습니다