📚 Глоссарий: Словарь терминов для изучающих LLM

📚 Справочный материал | Время изучения: ~15 минут | Уровень: 🔰 Для всех

Новичок в области LLM? Этот глоссарий поможет разобраться в основных терминах и понятиях.

🔤 Основные термины

A-B

Термин	Простое объяснение	Пример
API	Интерфейс для обращения к модели через интернет	Отправляете запрос в OpenAI, получаете ответ
Attention (Внимание)	Механизм, помогающий модели фокусироваться на важных словах	При переводе "красивая девочка" → "beautiful girl", модель "смотрит" на связи слов
BERT	Модель-энкодер, хорошо понимает тексты	Используется в поиске Google для понимания ваших запросов
BPE	Способ разделения слов на части	"играть" → "игр" + "ать"

C-G

Термин	Простое объяснение	Пример
ChatGPT	Чат-бот на основе GPT, обученный разговаривать	Популярный ИИ-собеседник от OpenAI
Decoder (Декодер)	Часть модели, которая генерирует текст	"Сочинитель", который дописывает историю
Embedding	Превращение слов в числа для компьютера	"кот" → [0.2, -0.1, 0.8, ...]
Encoder (Энкодер)	Часть модели, которая понимает тексты	"Читатель", который делает конспект
Fine-tuning	Дообучение готовой модели под конкретную задачу	Учим GPT отвечать как врач или юрист
GPT	Модель-декодер, хорошо генерирует тексты	Основа для ChatGPT и других чат-ботов

H-M

Термин	Простое объяснение	Пример
Hallucination	Когда ИИ выдумывает несуществующие факты	Модель "знает" биографию вымышленного человека
Inference	Процесс получения ответа от модели	Вы задаете вопрос → модель думает → выдает ответ
LLM	Большая языковая модель	GPT, BERT, Claude - все это LLM
LoRA	Экономный способ дообучения больших моделей	Вместо изменения всей модели меняем только "винтики"
MLM	Обучение через угадывание скрытых слов	"Я ем [MASK] на завтрак" → "кашу"
MoE	Архитектура со специализированными экспертами	Как в больнице: терапевт, хирург, окулист

N-R

Термин	Простое объяснение	Пример
Parameter	"Настройки" модели, влияющие на ее поведение	GPT-3 имеет 175 миллиардов таких "настроек"
Prompt	Текст-запрос, который вы даете модели	"Напиши стихотворение про кота"
Quantization	Сжатие модели для экономии памяти	Вместо точных чисел используем приблизительные
RAG	Поиск информации перед генерацией ответа	Модель сначала "гуглит", потом отвечает
RLHF	Обучение модели на основе человеческих оценок	Люди говорят "этот ответ лучше", модель учится

S-Z

Термин	Простое объяснение	Пример
SFT	Обучение модели следовать инструкциям	Учим модель отвечать списками, кратко, в JSON
Token	Маленький кусочек текста для модели	"привет" может быть 1 токеном, "неожиданность" - 3 токена
Transformer	Архитектура современных языковых моделей	Основа для GPT, BERT и других
Training	Процесс обучения модели на данных	Показываем модели миллионы текстов

🤔 Частые вопросы новичков

❓ В чем разница между GPT и ChatGPT?

GPT - это базовая модель, которая просто продолжает текст
ChatGPT - это GPT, дообученный для разговора с людьми
Аналогия: GPT - как студент, который знает много фактов, ChatGPT - как консультант, который знает, как с вами общаться

❓ Почему говорят "большие" языковые модели?

"Большие" означает огромное количество параметров:

Малая модель: ~100 миллионов параметров
Средняя модель: ~1-10 миллиардов параметров
Большая модель: ~100+ миллиардов параметров

Чем больше параметров, тем умнее модель, но тем больше ресурсов нужно для работы.

❓ Можно ли обучить свою LLM?

Да, но есть нюансы:

С нуля - очень дорого (миллионы долларов)
Дообучить готовую - реально (тысячи долларов)
Адаптировать под задачу - доступно (сотни долларов)

Новичкам рекомендуем начать с адаптации готовых open-source моделей.

🎯 Рекомендуемый путь изучения для новичков

graph TD
    A[📖 Прочитать этот глоссарий] --> B[🧠 Лекция 1: Основы]
    B --> C[⚙️ Лекция 8: Как работают трансформеры]
    C --> D[🎓 Лекция 2: Как учат модели]
    D --> E[🌐 Лекция 3: Какие модели существуют]
    E --> F[🚀 Лекция 4: История развития]
    F --> G[🏗️ Лекция 5: Продвинутые темы]
    G --> H[⚡ Лекция 6: Оптимизация]
    H --> I[🛡️ Лекция 7: Безопасность и RAG]

🔗 Связанные материалы

Назад к курсу: 📚 Главная страница
Начать изучение: 🧠 Лекция 1: От BERT к GPT

💻 Практические ресурсы

OpenAI Tokenizer - поэкспериментируйте с токенизацией
ChatGPT - попробуйте термины на практике

💡 Практика: Не пытайтесь запомнить все термины сразу. Возвращайтесь к глоссарию по мере изучения лекций!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

📚 Глоссарий: Словарь терминов для изучающих LLM

🔤 Основные термины

A-B

C-G

H-M

N-R

S-Z

🤔 Частые вопросы новичков

🎯 Рекомендуемый путь изучения для новичков

🔗 Связанные материалы

💻 Практические ресурсы

FilesExpand file tree

GLOSSARY.md

Latest commit

History

GLOSSARY.md

File metadata and controls

📚 Глоссарий: Словарь терминов для изучающих LLM

🔤 Основные термины

A-B

C-G

H-M

N-R

S-Z

🤔 Частые вопросы новичков

🎯 Рекомендуемый путь изучения для новичков

🔗 Связанные материалы

💻 Практические ресурсы