import torch
from ruclip import CLIP
# Загрузка модели
model = CLIP.from_pretrained("ai-forever/ruclip-vit-large-patch14")
# Кодирование изображения и текста
image = model.encode_image("photo.jpg")
texts = ["кошка", "собака", "автомобиль"]
text_features = model.encode_text(texts)
# Zero-shot классификация
similarity = (image @ text_features.T).softmax(dim=-1)
print(f"Предсказание: {texts[similarity.argmax()]}")Быстрый старт
Python SDK
Контейнеризация
HuggingFace API
RuCLIP — это русскоязычная версия модели CLIP (Contrastive Language-Image Pre-Training). Модель обучена на парах "изображение-текст" и позволяет сопоставлять визуальный и текстовый контент в едином пространстве. Применение: - Image-text retrieval: поиск изображений по текстовому описанию - Zero-shot классификация изображений - Генерация подписей к изображениям - Мультимодальный поиск - Фильтрация и модерация контента