ruRoBERTa Embeddings | SBER AI | SBER AI

ruRoBERTa Embeddings

Open Source

Векторные представления для русскоязычного семантического поиска и кластеризации текстов.

250K+

пользователей

Быстрый старт

from sentence_transformers import SentenceTransformer

# Загрузка модели
model = SentenceTransformer("ai-forever/ruRoberta-large")

# Создание эмбеддингов
sentences = [
    "Как работает машинное обучение?",
    "Принципы работы нейронных сетей",
    "Рецепт борща"
]
embeddings = model.encode(sentences)

# Семантический поиск
from sklearn.metrics.pairwise import cosine_similarity
query = model.encode(["Что такое AI?"])
scores = cosine_similarity(query, embeddings)
print(scores)  # Первые два предложения будут ближе

Возможности

Quickstart

Простая интеграция

SDK

SentenceTransformers совместимость

Docker

Готовый inference сервер

API

HuggingFace Inference API

О продукте

ruRoBERTa Embeddings — это модель для создания высококачественных векторных представлений русскоязычных текстов. Модель обучена на задаче контрастивного обучения и оптимизирована для семантического поиска. Применение: - Семантический поиск документов - Кластеризация и классификация текстов - Поиск похожих документов - RAG системы (retrieval component) - Дедупликация контента

Технологии

EmbeddingsSearchClassificationRanking

Информация

ТипModel

МодальностьТекст

ЛицензияОткрытый доступ

Обновленоянварь 2026 г.