from sentence_transformers import SentenceTransformer
# Загрузка модели
model = SentenceTransformer("ai-forever/ruRoberta-large")
# Создание эмбеддингов
sentences = [
"Как работает машинное обучение?",
"Принципы работы нейронных сетей",
"Рецепт борща"
]
embeddings = model.encode(sentences)
# Семантический поиск
from sklearn.metrics.pairwise import cosine_similarity
query = model.encode(["Что такое AI?"])
scores = cosine_similarity(query, embeddings)
print(scores) # Первые два предложения будут ближеПростая интеграция
SentenceTransformers совместимость
Готовый inference сервер
HuggingFace Inference API
ruRoBERTa Embeddings — это модель для создания высококачественных векторных представлений русскоязычных текстов. Модель обучена на задаче контрастивного обучения и оптимизирована для семантического поиска. Применение: - Семантический поиск документов - Кластеризация и классификация текстов - Поиск похожих документов - RAG системы (retrieval component) - Дедупликация контента