Как ИИ распознаёт лица и изображения?

Через слои свёрточной нейросети. Первый слой ищет простейшие элементы — линии и края. Второй собирает их в фигуры. Третий — в части (глаз, нос, ухо). Четвёртый — в целостный объект. Каждый следующий слой понимает более сложный смысл — от пикселей до «это конкретный человек».

Где компьютерное зрение используется в повседневной жизни?

Face ID на телефоне, камеры на дорогах (скорость, красный свет, номера), системы в магазинах (анализ покупателей, касса самообслуживания), медицинская диагностика (рентген, КТ), автопилот в автомобилях, дроны в сельском хозяйстве, контроль качества на производстве.

Почему ИИ иногда ошибается в распознавании?

ИИ узнаёт узоры, а не смысл. Черепаху с особым рисунком распознаёт как винтовку (99% уверенности). Хуже работает на недопредставленных группах (темнокожие, пожилые, дети) из-за перекоса в обучающих данных. Не понимает контекст — молоток у лица может интерпретировать как угрозу.

Как использовать компьютерное зрение ИИ в быту прямо сейчас?

Загружай фото в ChatGPT, Claude или Gemini и задавай вопросы. Перевод инструкций с иностранного языка по фото, предварительная оценка кожных симптомов, составление гардероба из шкафа, анализ графиков, рецепты по фото блюда. Привычка «сфотографировать и спросить» экономит часы.

Что такое adversarial attack на системы компьютерного зрения?

Специально разработанные изображения, которые обманывают ИИ, оставаясь понятными для человека. Пример MIT 2017 года: черепаха с едва заметным узором — ИИ видит её как винтовку с уверенностью 99%. Критически важно для безопасности — те же принципы применимы к дорожным знакам и системам автопилота.

Насколько точно ИИ диагностирует болезни по снимкам?

По ряду задач — точнее среднего врача. В одной клинике после внедрения ИИ-анализа рентгена выявляемость ранних стадий рака лёгких выросла на 40%. ИИ не заменяет врача, но улучшает точность и скорость первичной диагностики, снижая нагрузку на специалистов.

Разбор

Как ИИ видит мир: компьютерное зрение без страха

ИИ видит таблицу чисел, а не картинку. Именно поэтому он одновременно пугающе умный и смешно глупый. Эпизод 14 курса: как устроено зрение машины, где оно уже работает и как им пользоваться.

Лёха Маркетолог • 11.05.2026 • 4 мин чтения

Лондон, вокзал Кингс-Кросс, час пик. Ты идёшь по платформе. Над головой — сорок камер. В них работает программа, которая сканирует каждое лицо и сравнивает с базой розыскиваемых. За доли секунды.

Если ты в розыске — через десять секунд рядом с тобой полицейский.

Это работает с 2020 года. В Лондоне. В Москве. В Пекине. И большинство людей даже не задумываются, как это устроено.

+40%к выявляемости ранних стадий рака лёгких после внедрения ИИ-анализа рентгена в одной клинике. ИИ смотрит за 2 секунды вместо 10 минут — и точнее среднего врача.Из практики клиента, 2024

Как машина видит картинку

Когда ты смотришь на фото ребёнка — видишь ребёнка. Сразу, без усилий. Машина видит таблицу чисел. Картинка 1000×1000 пикселей — это 3 миллиона ячеек, в каждой три числа: сколько красного, зелёного, синего.

Из этой таблицы ей нужно понять — лицо там или дерево. И чьё конкретно.

Края

Ищет простейшие элементы — линии, границы светлого и тёмного, контрасты

Фигуры

Собирает края в углы, кривые, овалы, простые формы

Части

«Это похоже на глаз. Это — нос. Это — ухо» — сборка деталей

Объект

«Это лицо человека» — комбинирует части в целое

Идентификация

«Это конкретный человек» — сравнивает с базой известных лиц

Это называется свёрточная нейросеть. Именно она в 2012 году взорвала отрасль. С неё началась вся современная история ИИ — не с ChatGPT.

Аналогия из сессий с клиентами: ты учишь ребёнка отличать кошку от собаки. Не объясняешь правил — просто показываешь сто фотографий. В какой-то момент он сам ловит разницу. Не может объяснить, но безошибочно показывает. Машина учится так же. Только ей нужен не сто, а миллион примеров.

Где ты сталкиваешься с этим каждый день

📱

Face ID

2 млрд разблокировок в день. Отличает тебя сонного от тебя в маске.

🚗

Дороги

Скорость, красный свет, разговор по телефону, номера машин — всё в реальном времени.

🛒

Магазины

Анализ покупателей, оптимизация расстановки полок. Касса, которая не даёт пробить помидоры как чеснок.

🏥

Медицина

Рентген, КТ — за 2 секунды с подсветкой подозрительных мест. +40% выявляемость ранних стадий.

🚘

Автопилот

10 камер одновременно. Полосы, знаки, пешеходы, светофоры — в реальном времени.

🌾

Сельское хозяйство

Дроны сверху: где вредители, где недополив, где нужны удобрения. Расход химии −3×.

Прокрути в голове свой обычный день. Сколько раз ты попал в кадр ИИ? Реальный ответ — десятки.

Где он смешно глупит

ИИ не понимает, что видит. Он узнаёт узоры — а это принципиально другое.

MIT, 2017 год: студенты распечатали черепаху на 3D-принтере с едва заметным узором на панцире. Любой человек видит черепаху. ИИ видит — винтовку с уверенностью 99%. Потому что реагирует на паттерн, а не на смысл.

Это называется adversarial attack. На дорожный знак «Стоп» можно наклеить специальную наклейку — человек прочитает «стоп», автопилот увидит «ограничение 50». Серьёзная проблема для безопасности.

Второй слом: ИИ хуже работает на группах, недопредставленных в обучающих данных. Распознавание лиц точное на белых мужчинах 20–40 лет. Хуже на женщинах. Заметно хуже на темнокожих. Это не злой умысел — это перекос данных.

Что на самом деле «видит» система компьютерного зрения, когда смотрит на твоё лицо?

Что сделать прямо сейчас: привычка «сфотографировать и спросить»

ChatGPT, Claude, Gemini — все умеют смотреть на картинки. Просто загружаешь фото и задаёшь вопрос.

Инструкция от прибора на польском/китайском/корейском

«Переведи и объясни, что значат эти кнопки»

Сыпь или пятно на коже

«Что это может быть? Нужно срочно к врачу?» — Один клиент поймал начало опоясывающего лишая за 2 дня до боли.

Содержимое шкафа

«Помоги составить капсульный гардероб из этих вещей»

Скриншот графика из отчёта

«Объясни что здесь происходит и какие выводы» — аналитика на лету

Блюдо в ресторане

«Из чего это, как примерно повторить дома?»

После месяца использования телефон становится «вторым мозгом». Перестаёшь гадать — начинаешь спрашивать.

← Предыдущая

ИИ и творчество

Эпизод 14 из 30ИИ-агенты от нуля

Голос ИИ

Источники

Часто задаваемые вопросы

Как ИИ распознаёт лица и изображения?: Через слои свёрточной нейросети. Первый слой ищет простейшие элементы — линии и края. Второй собирает их в фигуры. Третий — в части (глаз, нос, ухо). Четвёртый — в целостный объект. Каждый следующий слой понимает более сложный смысл — от пикселей до «это конкретный человек».
Где компьютерное зрение используется в повседневной жизни?: Face ID на телефоне, камеры на дорогах (скорость, красный свет, номера), системы в магазинах (анализ покупателей, касса самообслуживания), медицинская диагностика (рентген, КТ), автопилот в автомобилях, дроны в сельском хозяйстве, контроль качества на производстве.
Почему ИИ иногда ошибается в распознавании?: ИИ узнаёт узоры, а не смысл. Черепаху с особым рисунком распознаёт как винтовку (99% уверенности). Хуже работает на недопредставленных группах (темнокожие, пожилые, дети) из-за перекоса в обучающих данных. Не понимает контекст — молоток у лица может интерпретировать как угрозу.
Как использовать компьютерное зрение ИИ в быту прямо сейчас?: Загружай фото в ChatGPT, Claude или Gemini и задавай вопросы. Перевод инструкций с иностранного языка по фото, предварительная оценка кожных симптомов, составление гардероба из шкафа, анализ графиков, рецепты по фото блюда. Привычка «сфотографировать и спросить» экономит часы.
Что такое adversarial attack на системы компьютерного зрения?: Специально разработанные изображения, которые обманывают ИИ, оставаясь понятными для человека. Пример MIT 2017 года: черепаха с едва заметным узором — ИИ видит её как винтовку с уверенностью 99%. Критически важно для безопасности — те же принципы применимы к дорожным знакам и системам автопилота.
Насколько точно ИИ диагностирует болезни по снимкам?: По ряду задач — точнее среднего врача. В одной клинике после внедрения ИИ-анализа рентгена выявляемость ранних стадий рака лёгких выросла на 40%. ИИ не заменяет врача, но улучшает точность и скорость первичной диагностики, снижая нагрузку на специалистов.

Пока без комментариев. Будьте первым.

Как ИИ видит мир: компьютерное зрение без страха

Как машина видит картинку

Где ты сталкиваешься с этим каждый день

Где он смешно глупит

Что сделать прямо сейчас: привычка «сфотографировать и спросить»

Источники

Источники

Часто задаваемые вопросы

Реквизиты ИП

Банковские реквизиты

Экспресс-проверка репутации

Предварительный анализ

Как машина видит картинку

Где ты сталкиваешься с этим каждый день

Где он смешно глупит

Что сделать прямо сейчас: привычка «сфотографировать и спросить»

Источники

Источники

Читайте также

Часто задаваемые вопросы