Разбор
Whisper: 15 минут на расшифровку 2-часового интервью
Whisper от OpenAI расшифровывает речь на 99 языках - бесплатно локально или $0.006 в минуту через API. Что умеет, где взять и где ломается.
2 часа интервью. Запустил Whisper - и через 15 минут лежит полная расшифровка: с пунктуацией, абзацами, без пропусков. OpenAI выпустили эту модель в 2022 году с открытым кодом, и с тех пор она стала стандартом для всего, что связано с переводом речи в текст. Бесплатно - если есть компьютер с видеокартой и желание разобраться.
Что умеет
| Задача | Whisper |
|---|---|
| Транскрипция аудио | ✅ |
| Перевод иностранной речи в текст | ✅ |
| 99 языков включая русский | ✅ |
| Временные метки для субтитров | ✅ |
| Расшифровка видео | ⚠️ через извлечение аудио |
| Генерация текста | ❌ |
| Работа с изображениями | ❌ |
| Написание кода | ❌ |
Задача у Whisper одна и конкретная: принять аудио, вернуть текст. Без генерации, без картинок, без чата. Узкий инструмент - но в своей нише лучший из публично доступных.
На что годится
Расшифровка интервью и подкастов. Записал разговор на телефон - загрузил - получил текст. Часовой подкаст выходит в текст за 5-10 минут. Для журналистов и контент-команд это убирает несколько часов ручной работы в неделю.
Протоколы совещаний. Схема простая: записал звонок - прогнал через Whisper - дальше GPT нарезает расшифровку на задачи и ответственных. Работает в паре с любым языковым агентом.
Субтитры для видео. Whisper отдаёт не просто текст, а временные метки - готовые .srt файлы. Загружаешь в Premiere, DaVinci, CapCut - субтитры встали по времени. Вручную так не синхронизируешь.
Перевод иностранной речи. Английский подкаст на входе - русский текст на выходе. Без промежуточных шагов. Работает с 99 языками: испанский, немецкий, китайский, японский - всё там есть.
Лекции и обучение. Часовая лекция превращается в конспект за 5 минут. Дальше можно задавать вопросы по тексту через любой чат с ИИ. Студенты пользуются этим постоянно - и правильно делают.
Версии и цены
| Способ | Цена | Что нужно |
|---|---|---|
| Локально | Бесплатно | Python + желательно GPU |
| Groq.com | Бесплатно (лимиты) | Регистрация |
| Whisper.ai | Бесплатно / платно | Браузер |
| OpenAI API | $0,006/мин | API ключ |
| Polza AI | Рубли, дёшево | Регистрация |
Арифметика: часовое интервью через API стоит $0,36. Два часа - $0,72. Дешевле стакана кофе навынос.
Для разовых задач подходит Groq - регистрируешься, загружаешь, получаешь. Бесплатно и без настроек. Для регулярной работы с большими объёмами лучше брать API или разворачивать локально: Whisper Large V3 на своём железе работает без ограничений.
Честно
Whisper хорошо справляется с чистой речью одного человека. Всё остальное - с оговорками.
Имена и термины. «Сбербанк» превращается в «Сбер банком». Аббревиатуры, названия компаний, профессиональный жаргон - регулярные ошибки. После расшифровки нужна вычитка, особенно если материал уйдёт в публикацию.
Несколько говорящих одновременно. Перебивают друг друга - Whisper путается. Диаризацию он не делает вообще: кто говорил и когда - это уже задача других инструментов. Для записей конференций или групповых звонков нужно смотреть в сторону pyannote или похожих решений.
Фоновый шум. Улица, кафе, плохой микрофон - качество расшифровки падает заметно. Чем чище запись, тем точнее результат. Это не баг модели, это физика.
Локальный запуск требует рук. Бесплатно - но это несколько часов настройки Python, установки зависимостей и разбора ошибок. Для человека без технического бэкграунда это реальный порог.
Whisper Large V3 - лучшая публичная версия на 2026 год. Ошибок меньше, русский точнее, скорость выше базовой модели. Если выбираете - берите именно её.
API, CLI и приложения
| API | ✅ openai/whisper-large-v3, openai/whisper-large-v3-turbo через Polza AI — транскрибация аудио в текст |
| CLI | ✅ whisper (pip install openai-whisper) |
| Десктоп | ❌ (open-source, запуск локально) |
| Мобильное | ❌ |
Запустить Whisper Large V3 через браузер, без установок и в рублях можно на Polza AI - там же доступны другие модели для текста, изображений и кода.
Читайте также: Все нейросети 2026 года - обзор 28 инструментов для обычных людей
AI-агенты · 10 мест
Ты работаешь до полуночи — AI-агент будет работать вместо тебя
Покажу какой агент закроет твою главную операционную боль
Узнать свой маршрут →AI-агенты · Персональное кураторство
Хочешь разобраться с AI-агентами?
Получи персональную карту входа за 5 минут в Telegram-боте
Получить карту AI-агентов →Есть вопрос по теме?
Разберу вашу ситуацию и предложу конкретный шаг
Источники
Читайте также
Часто задаваемые вопросы
- Что такое Whisper?
- Whisper - модель от OpenAI для распознавания речи и транскрипции. Принимает аудиофайл, возвращает текст с пунктуацией. Умеет 99 языков, включая русский. Код открытый - можно использовать бесплатно.
- Whisper бесплатный?
- Код открытый - запустить самостоятельно бесплатно. Через онлайн-сервисы вроде Groq - тоже бесплатно с лимитами. Через API OpenAI - $0.006 за минуту аудио. Для большинства пользователей удобнее бесплатные онлайн-инструменты.
- Как использовать Whisper без технических знаний?
- Через готовые сервисы. Groq.com - бесплатная транскрипция через Whisper Large. Whisper.ai - онлайн-интерфейс. В Telegram есть боты на базе Whisper. Или через Polza AI где доступен Whisper Large V3.
- Насколько точно Whisper распознаёт русский?
- Очень хорошо на чистой речи без акцента. Ошибается на именах, аббревиатурах и профессиональных терминах. Плохо справляется с несколькими голосами одновременно. Whisper Large V3 - лучшая версия, ошибок меньше.
Канал «Лёха Маркетолог»
Практика без воды: кейсы, инсайты, разборы. 1–2 поста в неделю.
Пока без комментариев. Будьте первым.