Разбор
Как ИИ видит мир: компьютерное зрение без страха
ИИ видит таблицу чисел, а не картинку. Именно поэтому он одновременно пугающе умный и смешно глупый. Эпизод 14 курса: как устроено зрение машины, где оно уже работает и как им пользоваться.
Лондон, вокзал Кингс-Кросс, час пик. Ты идёшь по платформе. Над головой — сорок камер. В них работает программа, которая сканирует каждое лицо и сравнивает с базой розыскиваемых. За доли секунды.
Если ты в розыске — через десять секунд рядом с тобой полицейский.
Это работает с 2020 года. В Лондоне. В Москве. В Пекине. И большинство людей даже не задумываются, как это устроено.
Как машина видит картинку
Когда ты смотришь на фото ребёнка — видишь ребёнка. Сразу, без усилий. Машина видит таблицу чисел. Картинка 1000×1000 пикселей — это 3 миллиона ячеек, в каждой три числа: сколько красного, зелёного, синего.
Из этой таблицы ей нужно понять — лицо там или дерево. И чьё конкретно.
Это называется свёрточная нейросеть. Именно она в 2012 году взорвала отрасль. С неё началась вся современная история ИИ — не с ChatGPT.
Аналогия из сессий с клиентами: ты учишь ребёнка отличать кошку от собаки. Не объясняешь правил — просто показываешь сто фотографий. В какой-то момент он сам ловит разницу. Не может объяснить, но безошибочно показывает. Машина учится так же. Только ей нужен не сто, а миллион примеров.
Где ты сталкиваешься с этим каждый день
Прокрути в голове свой обычный день. Сколько раз ты попал в кадр ИИ? Реальный ответ — десятки.
Есть вопрос по теме?
Покажу как использовать компьютерное зрение ИИ в вашей повседневной работе прямо сейчас
Где он смешно глупит
ИИ не понимает, что видит. Он узнаёт узоры — а это принципиально другое.
MIT, 2017 год: студенты распечатали черепаху на 3D-принтере с едва заметным узором на панцире. Любой человек видит черепаху. ИИ видит — винтовку с уверенностью 99%. Потому что реагирует на паттерн, а не на смысл.
Это называется adversarial attack. На дорожный знак «Стоп» можно наклеить специальную наклейку — человек прочитает «стоп», автопилот увидит «ограничение 50». Серьёзная проблема для безопасности.
Второй слом: ИИ хуже работает на группах, недопредставленных в обучающих данных. Распознавание лиц точное на белых мужчинах 20–40 лет. Хуже на женщинах. Заметно хуже на темнокожих. Это не злой умысел — это перекос данных.
Что сделать прямо сейчас: привычка «сфотографировать и спросить»
ChatGPT, Claude, Gemini — все умеют смотреть на картинки. Просто загружаешь фото и задаёшь вопрос.
После месяца использования телефон становится «вторым мозгом». Перестаёшь гадать — начинаешь спрашивать.
Есть вопрос по теме?
Персональная сессия: найдём где ИИ сэкономит вам время именно в вашей работе
Источники
AI-агенты · Персональное кураторство
Хочешь разобраться с AI-агентами?
Получи персональную карту входа за 5 минут в Telegram-боте
Получить карту AI-агентов →AI-агенты · Персональная карта
4 часа потратил — не работает?
Покажу где ты пошёл не туда и как сделать правильно за 2 недели
Получить разбор бесплатно →Есть вопрос по теме?
Разберу вашу ситуацию и предложу конкретный шаг
Источники
Читайте также
Часто задаваемые вопросы
- Как ИИ распознаёт лица и изображения?
- Через слои свёрточной нейросети. Первый слой ищет простейшие элементы — линии и края. Второй собирает их в фигуры. Третий — в части (глаз, нос, ухо). Четвёртый — в целостный объект. Каждый следующий слой понимает более сложный смысл — от пикселей до «это конкретный человек».
- Где компьютерное зрение используется в повседневной жизни?
- Face ID на телефоне, камеры на дорогах (скорость, красный свет, номера), системы в магазинах (анализ покупателей, касса самообслуживания), медицинская диагностика (рентген, КТ), автопилот в автомобилях, дроны в сельском хозяйстве, контроль качества на производстве.
- Почему ИИ иногда ошибается в распознавании?
- ИИ узнаёт узоры, а не смысл. Черепаху с особым рисунком распознаёт как винтовку (99% уверенности). Хуже работает на недопредставленных группах (темнокожие, пожилые, дети) из-за перекоса в обучающих данных. Не понимает контекст — молоток у лица может интерпретировать как угрозу.
- Как использовать компьютерное зрение ИИ в быту прямо сейчас?
- Загружай фото в ChatGPT, Claude или Gemini и задавай вопросы. Перевод инструкций с иностранного языка по фото, предварительная оценка кожных симптомов, составление гардероба из шкафа, анализ графиков, рецепты по фото блюда. Привычка «сфотографировать и спросить» экономит часы.
- Что такое adversarial attack на системы компьютерного зрения?
- Специально разработанные изображения, которые обманывают ИИ, оставаясь понятными для человека. Пример MIT 2017 года: черепаха с едва заметным узором — ИИ видит её как винтовку с уверенностью 99%. Критически важно для безопасности — те же принципы применимы к дорожным знакам и системам автопилота.
- Насколько точно ИИ диагностирует болезни по снимкам?
- По ряду задач — точнее среднего врача. В одной клинике после внедрения ИИ-анализа рентгена выявляемость ранних стадий рака лёгких выросла на 40%. ИИ не заменяет врача, но улучшает точность и скорость первичной диагностики, снижая нагрузку на специалистов.
Канал «Лёха Маркетолог»
Практика без воды: кейсы, инсайты, разборы. 1–2 поста в неделю.
Пока без комментариев. Будьте первым.