Разбор

Как ИИ видит мир: компьютерное зрение без страха

ИИ видит таблицу чисел, а не картинку. Именно поэтому он одновременно пугающе умный и смешно глупый. Эпизод 14 курса: как устроено зрение машины, где оно уже работает и как им пользоваться.

• 4 мин чтения

Лондон, вокзал Кингс-Кросс, час пик. Ты идёшь по платформе. Над головой — сорок камер. В них работает программа, которая сканирует каждое лицо и сравнивает с базой розыскиваемых. За доли секунды.

Если ты в розыске — через десять секунд рядом с тобой полицейский.

Это работает с 2020 года. В Лондоне. В Москве. В Пекине. И большинство людей даже не задумываются, как это устроено.

+40%к выявляемости ранних стадий рака лёгких после внедрения ИИ-анализа рентгена в одной клинике. ИИ смотрит за 2 секунды вместо 10 минут — и точнее среднего врача.Из практики клиента, 2024

Как машина видит картинку

Когда ты смотришь на фото ребёнка — видишь ребёнка. Сразу, без усилий. Машина видит таблицу чисел. Картинка 1000×1000 пикселей — это 3 миллиона ячеек, в каждой три числа: сколько красного, зелёного, синего.

Из этой таблицы ей нужно понять — лицо там или дерево. И чьё конкретно.

1
Края
Ищет простейшие элементы — линии, границы светлого и тёмного, контрасты
2
Фигуры
Собирает края в углы, кривые, овалы, простые формы
3
Части
«Это похоже на глаз. Это — нос. Это — ухо» — сборка деталей
4
Объект
«Это лицо человека» — комбинирует части в целое
5+
Идентификация
«Это конкретный человек» — сравнивает с базой известных лиц

Это называется свёрточная нейросеть. Именно она в 2012 году взорвала отрасль. С неё началась вся современная история ИИ — не с ChatGPT.

Аналогия из сессий с клиентами: ты учишь ребёнка отличать кошку от собаки. Не объясняешь правил — просто показываешь сто фотографий. В какой-то момент он сам ловит разницу. Не может объяснить, но безошибочно показывает. Машина учится так же. Только ей нужен не сто, а миллион примеров.

Где ты сталкиваешься с этим каждый день

📱
Face ID
2 млрд разблокировок в день. Отличает тебя сонного от тебя в маске.
🚗
Дороги
Скорость, красный свет, разговор по телефону, номера машин — всё в реальном времени.
🛒
Магазины
Анализ покупателей, оптимизация расстановки полок. Касса, которая не даёт пробить помидоры как чеснок.
🏥
Медицина
Рентген, КТ — за 2 секунды с подсветкой подозрительных мест. +40% выявляемость ранних стадий.
🚘
Автопилот
10 камер одновременно. Полосы, знаки, пешеходы, светофоры — в реальном времени.
🌾
Сельское хозяйство
Дроны сверху: где вредители, где недополив, где нужны удобрения. Расход химии −3×.

Прокрути в голове свой обычный день. Сколько раз ты попал в кадр ИИ? Реальный ответ — десятки.

Где он смешно глупит

ИИ не понимает, что видит. Он узнаёт узоры — а это принципиально другое.

MIT, 2017 год: студенты распечатали черепаху на 3D-принтере с едва заметным узором на панцире. Любой человек видит черепаху. ИИ видит — винтовку с уверенностью 99%. Потому что реагирует на паттерн, а не на смысл.

Это называется adversarial attack. На дорожный знак «Стоп» можно наклеить специальную наклейку — человек прочитает «стоп», автопилот увидит «ограничение 50». Серьёзная проблема для безопасности.

Второй слом: ИИ хуже работает на группах, недопредставленных в обучающих данных. Распознавание лиц точное на белых мужчинах 20–40 лет. Хуже на женщинах. Заметно хуже на темнокожих. Это не злой умысел — это перекос данных.

Что на самом деле «видит» система компьютерного зрения, когда смотрит на твоё лицо?

Что сделать прямо сейчас: привычка «сфотографировать и спросить»

ChatGPT, Claude, Gemini — все умеют смотреть на картинки. Просто загружаешь фото и задаёшь вопрос.

Инструкция от прибора на польском/китайском/корейском
«Переведи и объясни, что значат эти кнопки»
Сыпь или пятно на коже
«Что это может быть? Нужно срочно к врачу?» — Один клиент поймал начало опоясывающего лишая за 2 дня до боли.
Содержимое шкафа
«Помоги составить капсульный гардероб из этих вещей»
Скриншот графика из отчёта
«Объясни что здесь происходит и какие выводы» — аналитика на лету
Блюдо в ресторане
«Из чего это, как примерно повторить дома?»

После месяца использования телефон становится «вторым мозгом». Перестаёшь гадать — начинаешь спрашивать.

← Предыдущая
ИИ и творчество
Эпизод 14 из 30ИИ-агенты от нуля
Следующая →
Голос ИИ

Источники

Источники

Часто задаваемые вопросы

Как ИИ распознаёт лица и изображения?
Через слои свёрточной нейросети. Первый слой ищет простейшие элементы — линии и края. Второй собирает их в фигуры. Третий — в части (глаз, нос, ухо). Четвёртый — в целостный объект. Каждый следующий слой понимает более сложный смысл — от пикселей до «это конкретный человек».
Где компьютерное зрение используется в повседневной жизни?
Face ID на телефоне, камеры на дорогах (скорость, красный свет, номера), системы в магазинах (анализ покупателей, касса самообслуживания), медицинская диагностика (рентген, КТ), автопилот в автомобилях, дроны в сельском хозяйстве, контроль качества на производстве.
Почему ИИ иногда ошибается в распознавании?
ИИ узнаёт узоры, а не смысл. Черепаху с особым рисунком распознаёт как винтовку (99% уверенности). Хуже работает на недопредставленных группах (темнокожие, пожилые, дети) из-за перекоса в обучающих данных. Не понимает контекст — молоток у лица может интерпретировать как угрозу.
Как использовать компьютерное зрение ИИ в быту прямо сейчас?
Загружай фото в ChatGPT, Claude или Gemini и задавай вопросы. Перевод инструкций с иностранного языка по фото, предварительная оценка кожных симптомов, составление гардероба из шкафа, анализ графиков, рецепты по фото блюда. Привычка «сфотографировать и спросить» экономит часы.
Что такое adversarial attack на системы компьютерного зрения?
Специально разработанные изображения, которые обманывают ИИ, оставаясь понятными для человека. Пример MIT 2017 года: черепаха с едва заметным узором — ИИ видит её как винтовку с уверенностью 99%. Критически важно для безопасности — те же принципы применимы к дорожным знакам и системам автопилота.
Насколько точно ИИ диагностирует болезни по снимкам?
По ряду задач — точнее среднего врача. В одной клинике после внедрения ИИ-анализа рентгена выявляемость ранних стадий рака лёгких выросла на 40%. ИИ не заменяет врача, но улучшает точность и скорость первичной диагностики, снижая нагрузку на специалистов.
Обсуждение

    Пока без комментариев. Будьте первым.

    Войдите, чтобы отправить комментарий

    Вы сможете комментировать статьи, сохранять материалы

    или войдите по email

    Бесплатная диагностика · 30 минут · без обязательств

    Маркетинг работает, но продажи не растут?

    Отвечу на 3–5 вопросов о вашем бизнесе — и мы вместе разберём, где именно теряются клиенты и что с этим делать.

    Без продаж. Без навязчивых звонков.