Skip to content

Latest commit

 

History

History
117 lines (89 loc) · 8.24 KB

File metadata and controls

117 lines (89 loc) · 8.24 KB

📚 Глоссарий: Словарь терминов для изучающих LLM

📚 Справочный материал | Время изучения: ~15 минут | Уровень: 🔰 Для всех

Новичок в области LLM? Этот глоссарий поможет разобраться в основных терминах и понятиях.

🔤 Основные термины

A-B

Термин Простое объяснение Пример
API Интерфейс для обращения к модели через интернет Отправляете запрос в OpenAI, получаете ответ
Attention (Внимание) Механизм, помогающий модели фокусироваться на важных словах При переводе "красивая девочка" → "beautiful girl", модель "смотрит" на связи слов
BERT Модель-энкодер, хорошо понимает тексты Используется в поиске Google для понимания ваших запросов
BPE Способ разделения слов на части "играть" → "игр" + "ать"

C-G

Термин Простое объяснение Пример
ChatGPT Чат-бот на основе GPT, обученный разговаривать Популярный ИИ-собеседник от OpenAI
Decoder (Декодер) Часть модели, которая генерирует текст "Сочинитель", который дописывает историю
Embedding Превращение слов в числа для компьютера "кот" → [0.2, -0.1, 0.8, ...]
Encoder (Энкодер) Часть модели, которая понимает тексты "Читатель", который делает конспект
Fine-tuning Дообучение готовой модели под конкретную задачу Учим GPT отвечать как врач или юрист
GPT Модель-декодер, хорошо генерирует тексты Основа для ChatGPT и других чат-ботов

H-M

Термин Простое объяснение Пример
Hallucination Когда ИИ выдумывает несуществующие факты Модель "знает" биографию вымышленного человека
Inference Процесс получения ответа от модели Вы задаете вопрос → модель думает → выдает ответ
LLM Большая языковая модель GPT, BERT, Claude - все это LLM
LoRA Экономный способ дообучения больших моделей Вместо изменения всей модели меняем только "винтики"
MLM Обучение через угадывание скрытых слов "Я ем [MASK] на завтрак" → "кашу"
MoE Архитектура со специализированными экспертами Как в больнице: терапевт, хирург, окулист

N-R

Термин Простое объяснение Пример
Parameter "Настройки" модели, влияющие на ее поведение GPT-3 имеет 175 миллиардов таких "настроек"
Prompt Текст-запрос, который вы даете модели "Напиши стихотворение про кота"
Quantization Сжатие модели для экономии памяти Вместо точных чисел используем приблизительные
RAG Поиск информации перед генерацией ответа Модель сначала "гуглит", потом отвечает
RLHF Обучение модели на основе человеческих оценок Люди говорят "этот ответ лучше", модель учится

S-Z

Термин Простое объяснение Пример
SFT Обучение модели следовать инструкциям Учим модель отвечать списками, кратко, в JSON
Token Маленький кусочек текста для модели "привет" может быть 1 токеном, "неожиданность" - 3 токена
Transformer Архитектура современных языковых моделей Основа для GPT, BERT и других
Training Процесс обучения модели на данных Показываем модели миллионы текстов

🤔 Частые вопросы новичков

❓ В чем разница между GPT и ChatGPT?
  • GPT - это базовая модель, которая просто продолжает текст
  • ChatGPT - это GPT, дообученный для разговора с людьми
  • Аналогия: GPT - как студент, который знает много фактов, ChatGPT - как консультант, который знает, как с вами общаться
❓ Почему говорят "большие" языковые модели?

"Большие" означает огромное количество параметров:

  • Малая модель: ~100 миллионов параметров
  • Средняя модель: ~1-10 миллиардов параметров
  • Большая модель: ~100+ миллиардов параметров

Чем больше параметров, тем умнее модель, но тем больше ресурсов нужно для работы.

❓ Можно ли обучить свою LLM?

Да, но есть нюансы:

  • С нуля - очень дорого (миллионы долларов)
  • Дообучить готовую - реально (тысячи долларов)
  • Адаптировать под задачу - доступно (сотни долларов)

Новичкам рекомендуем начать с адаптации готовых open-source моделей.

🎯 Рекомендуемый путь изучения для новичков

graph TD
    A[📖 Прочитать этот глоссарий] --> B[🧠 Лекция 1: Основы]
    B --> C[⚙️ Лекция 8: Как работают трансформеры]
    C --> D[🎓 Лекция 2: Как учат модели]
    D --> E[🌐 Лекция 3: Какие модели существуют]
    E --> F[🚀 Лекция 4: История развития]
    F --> G[🏗️ Лекция 5: Продвинутые темы]
    G --> H[⚡ Лекция 6: Оптимизация]
    H --> I[🛡️ Лекция 7: Безопасность и RAG]
Loading

🔗 Связанные материалы


💻 Практические ресурсы

  • OpenAI Tokenizer - поэкспериментируйте с токенизацией
  • ChatGPT - попробуйте термины на практике

💡 Практика: Не пытайтесь запомнить все термины сразу. Возвращайтесь к глоссарию по мере изучения лекций!