В данном примере рассматривается установка локальной модели Qwen 3.5 | 2b на компьютер под управлением ОС Linux, дистрибутив Ubuntu.
Модель Qwen 3.5 | 2b выбрана как в целом нетребовательная по железу, даже при использовании всего 8 Гбайт оперативной памяти работает приемлемо.
Для начала установим Ollama глобально (в терминале):
curl -fsSL https://ollama.com/install.sh | sh^CВозможно, в процессе нужно будет доустановить пару сопутствующих библиотек, установщик если что — должен подсказать.
Далее устанавливаем модель:
ollama pull qwen3.5:2bУстанавливаем библиотеку для Python:
pip install ollamaДалее переходим от терминала к Python скрипту, для примера листинг:
import ollama
response = ollama.chat(
model='qwen3.5:2b',
messages=[
{'role': 'user', 'content': '2+2=?'}
],
)
print(response['message']['content'])
tokens = response.get('eval_count')
duration_sec = response.get('eval_duration') / 1e9
if duration_sec > 0:
tps = tokens / duration_sec
print(f"Токены: {tokens}")
print(f"Производительность: {tps:.2f} ток/сек")В код сразу добавлен счетчик производительности для контроля инференса, после запуска должен быть примерно такой ответ:
2+2=4
Токены: 84
Производительность: 4.77 ток/сек
Далее в можно отправить свои сообщения в рамках тестирования (заменить контент запроса, текущий ‘2+2=?’).