📚 Справочный материал | Время изучения: ~15 минут | Уровень: 🔰 Для всех
Новичок в области LLM? Этот глоссарий поможет разобраться в основных терминах и понятиях.
| Термин | Простое объяснение | Пример |
|---|---|---|
| API | Интерфейс для обращения к модели через интернет | Отправляете запрос в OpenAI, получаете ответ |
| Attention (Внимание) | Механизм, помогающий модели фокусироваться на важных словах | При переводе "красивая девочка" → "beautiful girl", модель "смотрит" на связи слов |
| BERT | Модель-энкодер, хорошо понимает тексты | Используется в поиске Google для понимания ваших запросов |
| BPE | Способ разделения слов на части | "играть" → "игр" + "ать" |
| Термин | Простое объяснение | Пример |
|---|---|---|
| ChatGPT | Чат-бот на основе GPT, обученный разговаривать | Популярный ИИ-собеседник от OpenAI |
| Decoder (Декодер) | Часть модели, которая генерирует текст | "Сочинитель", который дописывает историю |
| Embedding | Превращение слов в числа для компьютера | "кот" → [0.2, -0.1, 0.8, ...] |
| Encoder (Энкодер) | Часть модели, которая понимает тексты | "Читатель", который делает конспект |
| Fine-tuning | Дообучение готовой модели под конкретную задачу | Учим GPT отвечать как врач или юрист |
| GPT | Модель-декодер, хорошо генерирует тексты | Основа для ChatGPT и других чат-ботов |
| Термин | Простое объяснение | Пример |
|---|---|---|
| Hallucination | Когда ИИ выдумывает несуществующие факты | Модель "знает" биографию вымышленного человека |
| Inference | Процесс получения ответа от модели | Вы задаете вопрос → модель думает → выдает ответ |
| LLM | Большая языковая модель | GPT, BERT, Claude - все это LLM |
| LoRA | Экономный способ дообучения больших моделей | Вместо изменения всей модели меняем только "винтики" |
| MLM | Обучение через угадывание скрытых слов | "Я ем [MASK] на завтрак" → "кашу" |
| MoE | Архитектура со специализированными экспертами | Как в больнице: терапевт, хирург, окулист |
| Термин | Простое объяснение | Пример |
|---|---|---|
| Parameter | "Настройки" модели, влияющие на ее поведение | GPT-3 имеет 175 миллиардов таких "настроек" |
| Prompt | Текст-запрос, который вы даете модели | "Напиши стихотворение про кота" |
| Quantization | Сжатие модели для экономии памяти | Вместо точных чисел используем приблизительные |
| RAG | Поиск информации перед генерацией ответа | Модель сначала "гуглит", потом отвечает |
| RLHF | Обучение модели на основе человеческих оценок | Люди говорят "этот ответ лучше", модель учится |
| Термин | Простое объяснение | Пример |
|---|---|---|
| SFT | Обучение модели следовать инструкциям | Учим модель отвечать списками, кратко, в JSON |
| Token | Маленький кусочек текста для модели | "привет" может быть 1 токеном, "неожиданность" - 3 токена |
| Transformer | Архитектура современных языковых моделей | Основа для GPT, BERT и других |
| Training | Процесс обучения модели на данных | Показываем модели миллионы текстов |
❓ В чем разница между GPT и ChatGPT?
- GPT - это базовая модель, которая просто продолжает текст
- ChatGPT - это GPT, дообученный для разговора с людьми
- Аналогия: GPT - как студент, который знает много фактов, ChatGPT - как консультант, который знает, как с вами общаться
❓ Почему говорят "большие" языковые модели?
"Большие" означает огромное количество параметров:
- Малая модель: ~100 миллионов параметров
- Средняя модель: ~1-10 миллиардов параметров
- Большая модель: ~100+ миллиардов параметров
Чем больше параметров, тем умнее модель, но тем больше ресурсов нужно для работы.
❓ Можно ли обучить свою LLM?
Да, но есть нюансы:
- С нуля - очень дорого (миллионы долларов)
- Дообучить готовую - реально (тысячи долларов)
- Адаптировать под задачу - доступно (сотни долларов)
Новичкам рекомендуем начать с адаптации готовых open-source моделей.
graph TD
A[📖 Прочитать этот глоссарий] --> B[🧠 Лекция 1: Основы]
B --> C[⚙️ Лекция 8: Как работают трансформеры]
C --> D[🎓 Лекция 2: Как учат модели]
D --> E[🌐 Лекция 3: Какие модели существуют]
E --> F[🚀 Лекция 4: История развития]
F --> G[🏗️ Лекция 5: Продвинутые темы]
G --> H[⚡ Лекция 6: Оптимизация]
H --> I[🛡️ Лекция 7: Безопасность и RAG]
- Назад к курсу: 📚 Главная страница
- Начать изучение: 🧠 Лекция 1: От BERT к GPT
- OpenAI Tokenizer - поэкспериментируйте с токенизацией
- ChatGPT - попробуйте термины на практике
💡 Практика: Не пытайтесь запомнить все термины сразу. Возвращайтесь к глоссарию по мере изучения лекций!