Разбор

Whisper: 15 минут на расшифровку 2-часового интервью

Whisper от OpenAI расшифровывает речь на 99 языках - бесплатно локально или $0.006 в минуту через API. Что умеет, где взять и где ломается.

• 3 мин чтения

2 часа интервью. Запустил Whisper - и через 15 минут лежит полная расшифровка: с пунктуацией, абзацами, без пропусков. OpenAI выпустили эту модель в 2022 году с открытым кодом, и с тех пор она стала стандартом для всего, что связано с переводом речи в текст. Бесплатно - если есть компьютер с видеокартой и желание разобраться.

Что умеет

ЗадачаWhisper
Транскрипция аудио
Перевод иностранной речи в текст
99 языков включая русский
Временные метки для субтитров
Расшифровка видео⚠️ через извлечение аудио
Генерация текста
Работа с изображениями
Написание кода

Задача у Whisper одна и конкретная: принять аудио, вернуть текст. Без генерации, без картинок, без чата. Узкий инструмент - но в своей нише лучший из публично доступных.

На что годится

Расшифровка интервью и подкастов. Записал разговор на телефон - загрузил - получил текст. Часовой подкаст выходит в текст за 5-10 минут. Для журналистов и контент-команд это убирает несколько часов ручной работы в неделю.

Протоколы совещаний. Схема простая: записал звонок - прогнал через Whisper - дальше GPT нарезает расшифровку на задачи и ответственных. Работает в паре с любым языковым агентом.

Субтитры для видео. Whisper отдаёт не просто текст, а временные метки - готовые .srt файлы. Загружаешь в Premiere, DaVinci, CapCut - субтитры встали по времени. Вручную так не синхронизируешь.

Перевод иностранной речи. Английский подкаст на входе - русский текст на выходе. Без промежуточных шагов. Работает с 99 языками: испанский, немецкий, китайский, японский - всё там есть.

Лекции и обучение. Часовая лекция превращается в конспект за 5 минут. Дальше можно задавать вопросы по тексту через любой чат с ИИ. Студенты пользуются этим постоянно - и правильно делают.

Версии и цены

СпособЦенаЧто нужно
ЛокальноБесплатноPython + желательно GPU
Groq.comБесплатно (лимиты)Регистрация
Whisper.aiБесплатно / платноБраузер
OpenAI API$0,006/минAPI ключ
Polza AIРубли, дёшевоРегистрация

Арифметика: часовое интервью через API стоит $0,36. Два часа - $0,72. Дешевле стакана кофе навынос.

Для разовых задач подходит Groq - регистрируешься, загружаешь, получаешь. Бесплатно и без настроек. Для регулярной работы с большими объёмами лучше брать API или разворачивать локально: Whisper Large V3 на своём железе работает без ограничений.

Честно

Whisper хорошо справляется с чистой речью одного человека. Всё остальное - с оговорками.

Имена и термины. «Сбербанк» превращается в «Сбер банком». Аббревиатуры, названия компаний, профессиональный жаргон - регулярные ошибки. После расшифровки нужна вычитка, особенно если материал уйдёт в публикацию.

Несколько говорящих одновременно. Перебивают друг друга - Whisper путается. Диаризацию он не делает вообще: кто говорил и когда - это уже задача других инструментов. Для записей конференций или групповых звонков нужно смотреть в сторону pyannote или похожих решений.

Фоновый шум. Улица, кафе, плохой микрофон - качество расшифровки падает заметно. Чем чище запись, тем точнее результат. Это не баг модели, это физика.

Локальный запуск требует рук. Бесплатно - но это несколько часов настройки Python, установки зависимостей и разбора ошибок. Для человека без технического бэкграунда это реальный порог.

Whisper Large V3 - лучшая публичная версия на 2026 год. Ошибок меньше, русский точнее, скорость выше базовой модели. Если выбираете - берите именно её.


API, CLI и приложения

APIopenai/whisper-large-v3, openai/whisper-large-v3-turbo через Polza AI — транскрибация аудио в текст
CLI✅ whisper (pip install openai-whisper)
Десктоп❌ (open-source, запуск локально)
Мобильное

Запустить Whisper Large V3 через браузер, без установок и в рублях можно на Polza AI - там же доступны другие модели для текста, изображений и кода.

Читайте также: Все нейросети 2026 года - обзор 28 инструментов для обычных людей

Источники

Часто задаваемые вопросы

Что такое Whisper?
Whisper - модель от OpenAI для распознавания речи и транскрипции. Принимает аудиофайл, возвращает текст с пунктуацией. Умеет 99 языков, включая русский. Код открытый - можно использовать бесплатно.
Whisper бесплатный?
Код открытый - запустить самостоятельно бесплатно. Через онлайн-сервисы вроде Groq - тоже бесплатно с лимитами. Через API OpenAI - $0.006 за минуту аудио. Для большинства пользователей удобнее бесплатные онлайн-инструменты.
Как использовать Whisper без технических знаний?
Через готовые сервисы. Groq.com - бесплатная транскрипция через Whisper Large. Whisper.ai - онлайн-интерфейс. В Telegram есть боты на базе Whisper. Или через Polza AI где доступен Whisper Large V3.
Насколько точно Whisper распознаёт русский?
Очень хорошо на чистой речи без акцента. Ошибается на именах, аббревиатурах и профессиональных терминах. Плохо справляется с несколькими голосами одновременно. Whisper Large V3 - лучшая версия, ошибок меньше.
Обсуждение

    Пока без комментариев. Будьте первым.

    Войдите, чтобы отправить комментарий

    Вы сможете комментировать статьи, сохранять материалы

    или войдите по email

    Бесплатная диагностика · 30 минут · без обязательств

    Маркетинг работает, но продажи не растут?

    Отвечу на 3–5 вопросов о вашем бизнесе — и мы вместе разберём, где именно теряются клиенты и что с этим делать.

    Без продаж. Без навязчивых звонков.