Skip to content

Latest commit

 

History

History
181 lines (123 loc) · 16.9 KB

File metadata and controls

181 lines (123 loc) · 16.9 KB
KlicStudio

Минималистичный инструмент для развертывания AI видео перевода и озвучивания

KrillinAI%2FKlicStudio | Trendshift

English简体中文日本語한국어Tiếng ViệtFrançaisDeutschEspañolPortuguêsРусскийاللغة العربية

Twitter QQ 群 Bilibili

Klic Studio — это универсальное решение для локализации и улучшения аудио и видео, разработанное Krillin AI. Этот простой, но мощный инструмент объединяет перевод видео, озвучивание и клонирование голоса, поддерживает вывод в горизонтальном и вертикальном формате, обеспечивая идеальное представление на всех основных платформах (Bilibili, Xiaohongshu, Douyin, WeChat Video, Kuaishou, YouTube, TikTok и др.). С помощью рабочего процесса "от конца до конца" всего за несколько кликов вы можете преобразовать исходные материалы в готовый к использованию кросс-платформенный контент.

Основные характеристики и функции:

🎯 Запуск в один клик: Не требует сложной настройки окружения, автоматически устанавливает зависимости и готов к использованию, добавлена настольная версия для удобства!

📥 Получение видео: Поддерживает загрузку через yt-dlp или загрузку локальных файлов

📜 Точное распознавание: Высокая точность распознавания речи на основе Whisper

🧠 Интеллектуальная сегментация: Использует LLM для сегментации и выравнивания субтитров

🔄 Замена терминов: Замена профессиональной лексики в один клик

🌍 Профессиональный перевод: Перевод с контекстом с помощью LLM для сохранения естественности семантики

🎙️ Клонирование голоса: Предоставляет отборные голоса CosyVoice или кастомные клонирования голосов

🎬 Синтез видео: Автоматическая обработка видео в горизонтальном и вертикальном формате и компоновка субтитров

💻 Кросс-платформенность: Поддерживает Windows, Linux, macOS, предоставляет настольную и серверную версии

Демонстрация результатов

На нижнем изображении показан результат импорта локального видео длительностью 46 минут, сгенерированный файл субтитров после выполнения в один клик, без каких-либо ручных корректировок. Нет пропусков, наложений, паузы естественные, качество перевода также очень высокое. Эффект выравнивания

Перевод субтитров


subtitle_translation.mp4

Озвучивание


tts.mp4

Вертикальный экран


agi.mp4

🔍 Поддержка услуг распознавания речи

Все локальные модели в таблице поддерживают автоматическую установку исполняемых файлов + файлов моделей, вам нужно только выбрать, остальное Klic подготовит за вас.

Источник услуг Поддерживаемые платформы Доступные модели Локально/Облачно Примечания
OpenAI Whisper Все платформы - Облачно Быстрая скорость и хорошее качество
FasterWhisper Windows/Linux tiny/medium/large-v2 (рекомендуется medium+) Локально Быстрее, без облачных затрат
WhisperKit macOS (только для чипов M-серии) large-v2 Локально Оптимизация для Apple чипов
WhisperCpp Все платформы large-v2 Локально Поддержка всех платформ
Aliyun ASR Все платформы - Облачно Избегайте проблем с сетью в материковом Китае

🚀 Поддержка больших языковых моделей

✅ Совместимость со всеми облачными/локальными большими языковыми моделями, соответствующими OpenAI API стандартам, включая, но не ограничиваясь:

  • OpenAI
  • Gemini
  • DeepSeek
  • Tongyi Qianwen
  • Локально развернутые открытые модели
  • Другие API-сервисы, совместимые с форматом OpenAI

🎤 Поддержка TTS (текст в речь)

  • Услуги речи от Aliyun
  • OpenAI TTS

Поддержка языков

Поддерживаемые языки ввода: китайский, английский, японский, немецкий, турецкий, корейский, русский, малайский (постоянно добавляются новые)

Поддерживаемые языки перевода: английский, китайский, русский, испанский, французский и еще 101 язык

Предварительный просмотр интерфейса

Предварительный просмотр интерфейса

🚀 Быстрый старт

Основные шаги

Сначала загрузите Release с исполняемым файлом, соответствующим вашей системе, следуя приведенным ниже инструкциям, выберите настольную или не настольную версию, затем поместите в пустую папку, загрузите программное обеспечение в пустую папку, так как после запуска будут созданы некоторые каталоги, управление будет проще.

【Если это настольная версия, то смотрите здесь, если файл release содержит desktop】
Настольная версия только что выпущена, чтобы решить проблему с неправильным редактированием конфигурационных файлов новичками, также есть некоторые ошибки, которые продолжают обновляться

  1. Дважды щелкните файл, чтобы начать использовать (на настольном компьютере также требуется настройка внутри программы)

【Если это не настольная версия, то смотрите здесь, если файл release не содержит desktop】
Не настольная версия — это первоначальная версия, настройка более сложная, но функции стабильны, также подходит для развертывания на сервере, так как будет предоставлен интерфейс в веб-формате

  1. Создайте папку config внутри папки, затем создайте файл config.toml в папке config, скопируйте содержимое файла config-example.toml из каталога config и заполните его в config.toml, следуя комментариям для заполнения вашей конфигурационной информации.
  2. Дважды щелкните или выполните исполняемый файл в терминале, чтобы запустить службу
  3. Откройте браузер, введите http://127.0.0.1:8888, чтобы начать использовать (замените 8888 на порт, указанный в конфигурационном файле)

Для пользователей macOS

【Если это настольная версия, то смотрите здесь, если файл release содержит desktop】
На данный момент способ упаковки настольной версии из-за проблем с подписью и т.д. не позволяет запустить его двойным щелчком или установить dmg, необходимо вручную доверять приложению, вот как:

  1. Откройте терминал в каталоге, где находится исполняемый файл (предположим, имя файла KlicStudio_1.0.0_desktop_macOS_arm64)
  2. Выполните последовательно следующие команды:
sudo xattr -cr ./KlicStudio_1.0.0_desktop_macOS_arm64
sudo chmod +x ./KlicStudio_1.0.0_desktop_macOS_arm64 
./KlicStudio_1.0.0_desktop_macOS_arm64

【Если это не настольная версия, то смотрите здесь, если файл release не содержит desktop】
Это программное обеспечение не подписано, поэтому при запуске на macOS после завершения настройки файлов в "Основных шагах" также необходимо вручную доверять приложению, вот как:

  1. Откройте терминал в каталоге, где находится исполняемый файл (предположим, имя файла KlicStudio_1.0.0_macOS_arm64)
  2. Выполните последовательно следующие команды:
     sudo xattr -rd com.apple.quarantine ./KlicStudio_1.0.0_macOS_arm64
     sudo chmod +x ./KlicStudio_1.0.0_macOS_arm64
     ./KlicStudio_1.0.0_macOS_arm64
    
    Это запустит службу

Развертывание Docker

Этот проект поддерживает развертывание Docker, пожалуйста, обратитесь к Инструкции по развертыванию Docker

Инструкция по настройке Cookie (необязательно)

Если вы столкнулись с проблемой загрузки видео

Пожалуйста, обратитесь к Инструкции по настройке Cookie для настройки вашей информации о Cookie.

Помощь по настройке (обязательно к прочтению)

Самый быстрый и удобный способ настройки:

  • Заполните transcribe.provider.name как openai, так вам нужно будет заполнить только блоки transcribe.openai и конфигурацию большой модели в блоке llm для перевода субтитров. (app.proxy, model и openai.base_url заполняйте по своему усмотрению)

Способ настройки с использованием локальной модели распознавания речи (учитывая стоимость, скорость и качество)

  • Заполните transcribe.provider.name как fasterwhisper, transcribe.fasterwhisper.model заполните как large-v2, затем заполните llm для конфигурации большой модели, и локальная модель будет автоматически загружена и установлена. (app.proxy и openai.base_url аналогично выше)

Текст в речь (TTS) является необязательным, логика настройки такая же, заполните tts.provider.name, затем заполните соответствующий блок конфигурации под tts, код звука в UI заполняйте согласно документации выбранного поставщика (адреса документации указаны в разделе часто задаваемых вопросов ниже). Заполнение таких данных, как aksk от Aliyun, может повторяться, это сделано для обеспечения ясности структуры конфигурации.
Обратите внимание: если вы используете клонирование голоса, tts поддерживает только выбор aliyun.

Для получения AccessKey, Bucket, AppKey от Aliyun, пожалуйста, прочитайтеИнструкция по настройке Aliyun

Пожалуйста, поймите, что задача = распознавание речи + перевод большой модели + услуги речи (TTS и т.д., необязательно), это поможет вам понять конфигурационный файл.

Часто задаваемые вопросы

Пожалуйста, перейдите к Часто задаваемым вопросам

Правила участия

  1. Не отправляйте бесполезные файлы, такие как .vscode, .idea и т.д., пожалуйста, используйте .gitignore для фильтрации
  2. Не отправляйте config.toml, вместо этого используйте config-example.toml

Свяжитесь с нами

  1. Присоединяйтесь к нашей группе QQ для получения ответов на вопросы: 754069680
  2. Подписывайтесь на наши социальные сети, Bilibili, ежедневно делимся качественным контентом в области AI технологий

История звезд

Star History Chart