Ollama: развертывание и использование локальной модели

В данном примере рассматривается установка локальной модели Qwen 3.5 | 2b на компьютер под управлением ОС Linux, дистрибутив Ubuntu.

Модель Qwen 3.5 | 2b выбрана как в целом нетребовательная по железу, даже при использовании всего 8 Гбайт оперативной памяти работает приемлемо.

Для начала установим Ollama глобально (в терминале):

curl -fsSL https://ollama.com/install.sh | sh^C

Возможно, в процессе нужно будет доустановить пару сопутствующих библиотек, установщик если что — должен подсказать.

Далее устанавливаем модель:

ollama pull qwen3.5:2b

Устанавливаем библиотеку для Python:

pip install ollama

Далее переходим от терминала к Python скрипту, для примера листинг:

import ollama

response = ollama.chat(
    model='qwen3.5:2b',
    messages=[
        {'role': 'user', 'content': '2+2=?'}
    ],
)

print(response['message']['content'])

tokens = response.get('eval_count')
duration_sec = response.get('eval_duration') / 1e9

if duration_sec > 0:
    tps = tokens / duration_sec
    print(f"Токены: {tokens}")
    print(f"Производительность: {tps:.2f} ток/сек")

В код сразу добавлен счетчик производительности для контроля инференса, после запуска должен быть примерно такой ответ:

2+2=4
Токены: 84
Производительность: 4.77 ток/сек

Далее в можно отправить свои сообщения в рамках тестирования (заменить контент запроса, текущий ‘2+2=?’).