Системы распознавания усталости: тест новых алгоритмов

Системы контроля состояния водителя (Driver Monitoring System, DMS) перестали быть «опцией для премиум-сегмента» и превратились в реальный инструмент снижения аварийности. Производители переходят с простых эвристик (мигание/кивки) к глубоким моделям с временным вниманием, а автопарки всё чаще требуют детекцию не только сонливости, но и утомления/выгорания, «микросна», когнитивной перегрузки, отвлечённости на смартфон.
Эта статья — технический тест-обзор поколений алгоритмов: от классических PERCLOS до мультимодальных трансформеров с фьюжном видео+телеметрии. Мы разберёмся, что реально даёт прирост качества, сколько это стоит в вычислениях, как вести испытания и какие настройки снижают ложные срабатывания.Системы распознавания усталости: тест новых алгоритмов


Краткий глоссарий

  • Drowsiness (сонливость) — вялость, частые микрозакрытия век, «клевки».
  • Fatigue (усталость/утомление) — долгосрочное снижение тонуса и реакции; может проявляться без явного засыпания.
  • PERCLOS — доля времени с закрытыми веками (напр. порог >80% за 60 сек).
  • Microsleep — краткое (0,5–10 сек) непроизвольное отключение внимания/сна.
  • Distraction (отвлечение) — взгляд в сторону/вниз (смартфон), поворот головы, манипуляции руками.
  • TPR/FPR — True Positive/False Positive Rate.
  • Latency — задержка от события до детекции/алерта.Системы распознавания усталости: тест новых алгоритмов

Архитектуры и эволюцияСистемы распознавания усталости: тест новых алгоритмов

Поколение 1: эвристики и PERCLOS

Используются ИК-камера и правила: частота моргания, степень закрытия век, угол кивания. Плюсы — дешевизна, низкая латентность. Минусы — чувствительность к очкам, освещению и индивидуальным особенностям.

Поколение 2: «лицо-глаза-позы» на CNN

Сверточные сети детектируют лицо, зрачки, landmarks, оценивают зевоту, кивок, взгляд. Качество растёт, но временной контекст слабый: система реагирует на моментальные сигналы и чаще ошибается на «аномальном, но нормальном» поведении (пение, разговор).

Поколение 3: временные модели (CNN + LSTM/TCN)

Добавление памяти по времени (LSTM/GRU, Temporal Conv) резко снижает ложные срабатывания, т.к. усталость — не одно мгновение, а динамика. Латентность увеличивается за счёт «окна наблюдения», но итоговая стабильность выше.

Поколение 4: Vision Transformers с temporal-attention

Модели внимания (ViT/Timesformer) лучше улавливают долгие паттерны: замедление моргания, постепенное падение тонуса. Дают прирост TPR при низком FPR, но требуют аккуратной оптимизации под бортовые SoC.

Поколение 5: Мультимодальные трансформеры (видео + CAN/IMU/руль)

Фьюжн видеопотока с телеметрией (скорость, удержание полосы, микрокоррекции рулём, поперечные колебания, педали) и с данными IMU/салонных датчиков. Такие модели лучше различают сонливость vs отвлечение, устойчивее к очкам/маскам, быстрее накапливают уверенность. Стоят дороже вычислительно, но дают наибольшую практическую ценность.Системы распознавания усталости: тест новых алгоритмов


Методика нашего теста (прикладной подход)Системы распознавания усталости: тест новых алгоритмов

Ниже — инженерная методика, на которую можно опереться при пилотах в такси/каршеринге/грузоперевозках. Значения метрик — усреднённые ориентиры по индустриальным пилотам и лабораторным сценарием; используйте их как реперные точки при своих испытаниях.

Набор сценариев:

  1. День / ночь / туннель / встречное солнце (слепящие блики, яркая тень).
  2. Очки: прозрачные, голубой фильтр, тёмные; маски/респираторы.
  3. Дороги: гладкий асфальт, грейдер, «стиральная доска» (вибрации).
  4. Профили водителей: с бородой/без, с макияжем/без, возрастные различия.
  5. Поведение: пение, разговор со спутником, жвачка/кофе, смартфон, аудиокнижка.
  6. Длительные заезды (3–5 часов) для ловли микросна.
  7. Температура салона: прохладно/жарко; шум вентиляции.

Сенсоры:

  • Камера IR 850–940 нм (60 fps) + RGB-кадры (опционально).
  • IMU салона/камеры, CAN-шина (скорость, удержание полосы через ADAS, угол рулевого, педали).
  • (Опционально) давление на сиденье, ИК-термодатчик лба, ремень без отстёгивания (как прокси-сигнал позы).

Метрики:

  • TPR@FPR=5% (правильные срабатывания при фиксированно низких ложных).
  • F1 по классам: «сонливость», «усталость», «отвлечение».
  • Time-to-alert (сколько секунд от начала эпизода до предупреждения).
  • Robustness score (усреднение по тяжёлым сценариям: очки/встречное солнце/вибрации).
  • Compute & power: латентность на ARM-ядрах/нейроускорителе, ватт-часы за смену.
  • Privacy grade: офлайн-инференс, хранение видео, анонимизация.Системы распознавания усталости: тест новых алгоритмов

Сводные результаты: что показывает «средняя температура по рынку»Системы распознавания усталости: тест новых алгоритмов

Формат таблицы — сравнение классов алгоритмов, а не брендов. Показатели — ориентиры для целеполагания пилотов в 2025 году.

Сравнительная таблица алгоритмов распознавания усталости

Класс алгоритма TPR@FPR=5% (сонливость) F1 (усталость, долгий горизонт) F1 (отвлечение) Средн. задержка алерта Устойчивость к очкам/бликам Требуемая мощность (Вт) Пояснимость/лог причины Пример железа (on-edge)
PERCLOS + эвристики ~0.78 ~0.62 ~0.55 6–10 c Низкая 0.5–1.0 Средняя (простые правила) ARM A53/A55
CNN (лицо/глаза/позы) ~0.85 ~0.70 ~0.68 8–12 c Средняя 1–1.5 Средняя (score по признакам) ARM A75/A76
CNN + LSTM/TCN ~0.90 ~0.78 ~0.76 10–14 c Средне-высокая 1.5–2.5 Средняя ARM A76 + NPU
ViT c temporal-attention ~0.92 ~0.82 ~0.80 9–13 c Высокая 2–3 Ниже средней (attention-карты) A76/Orin-NX
Мультимодал, ViT + CAN/IMU ~0.95 ~0.86 ~0.88 7–11 c Очень высокая 2–3.5 Средняя (модульные важности) Orin-NX / ASIC DMS

Как читать таблицу:

  • Переход от эвристик к временным и мультимодальным моделям даёт +10–17 п.п. TPR при FPR=5% и сокращает время до алерта, потому что уверенность растёт быстрее за счёт контекста и фьюжна.
  • Рост качества сопровождается умеренным ростом энергопотребления; оптимизация (квантизация/динамическая частота кадров/рамки ROI) возвращает систему в «бюджет» 2–3 Вт.Системы распознавания усталости: тест новых алгоритмов

Ключевые находки тестов

  1. Временной контекст важнее точности отдельных кадров. Даже идеальная детекция века на одном кадре уступает последовательной модели, которая «видит» тренд.
  2. Фьюжн с CAN/IMU уменьшает ложные срабатывания на «пении/разговоре/жвачке»: видеомодель «думает», что это зевок, но телеметрия показывает стабильный контроль полосы и активные микроподруливания — вероятность сонливости снижается.
  3. Солнечные блики и тёмные очки — главный враг моно-видеомоделей. NIR-подсветка + auto-exposure + датчик освещенности + data-augmentation с бликами решают львиную долю проблем.
  4. Персонализация (онлайн-калибровка порогов на первых 15–30 мин поездки) даёт −20–30% ложных срабатываний без роста пропусков.
  5. Стратегия оповещений критична. Эскалация в 3 ступени (мягкий звуковой + подсветка → вибро-сиденье/руль → кратковременное ограничение ассистентов) снижает раздражение и повышает комплаенс водителей.
  6. Пояснимость помогает принятой водителем реакции. Простое сообщение «глаза закрыты >80% за 60 сек» или «взгляд вниз >2,5 сек при 90 км/ч» вызывает меньше негатива, чем «абстрактный» алерт.Системы распознавания усталости: тест новых алгоритмов

Практика внедрения: от пилота к серийному развёртыванию

Железо и оптимизация

  • Камера IR 60 fps + NIR-подсветка (регулируемая мощность, чтобы не «пересжигать» кадр при бликах).
  • SoC с NPU (1–3 TOPS для реального времени), квантизация INT8, смешанная точность, вырезание фона (ROI на глазах/лице), динамический FPS (переход на 30 fps в «спокойных» отрезках).
  • Фильтр дрожи (IMU камеры) для стабильных landmarks.

Политика приватности

  • On-device inference, хранение только агрегатов (скользящие счётчики, а не видео), анонимизация при сервисной отправке, шифрование.
  • Прозрачные настройки для водителя: просмотр истории алертов, кнопка «оспорить алерт», режим «не записывать видео/аудио».

Бизнес-кейс для автопарков

  • Снижение ДТП «на прямой» и ночью, экономия по страховке, меньше простоев; типичный ROI 6–12 мес при установке на активные смены (такси, межгород, логистика).
  • Внутренние KPI: алерты/100 км, доля подтверждённых алертов по выборочным проверкам супервайзера, время реакции водителя.Системы распознавания усталости: тест новых алгоритмов

Чек-лист приёмочных испытаний (готовая шпаргалка)

  1. Описать профили маршрутов: день/ночь/туннель/блики/грейдер.
  2. Набрать минимум 30 водителей с разными особенностями (очки/борода/возраст).
  3. Снять не менее 100 ч видео, разметить события: микросон, зевок, взгляд вниз, кивок.
  4. Прогнать 3–5 классов алгоритмов: эвристики, CNN, CNN+LSTM, ViT, мультимодал.
  5. Считать TPR@FPR=5%, F1 по классам, latency, robustness.
  6. Провести A/B-настройку порогов и персонализацию (онлайн-калибровка).
  7. Проверить эскалацию алертов (3 уровня) и UX (порог раздражения).
  8. Финально — теневое наблюдение 2–4 недели на реальных линиях с аудитом ложных/пропущенных.Системы распознавания усталости: тест новых алгоритмов

Типичные источники ошибок и как их лечить

  • Жвачка/пение/разговор → ложные «зевки».
    Решение: добавочный классификатор артикуляции, фьюжн с CAN/IMU.
  • Тёмные очки/линзы → пропуск закрытия век.
    Решение: NIR-подсветка, обучение на синтетике бликов, fallback по позе головы + рулевым микрокоррекциям.
  • Смартфон на коленях → отвлечение без поворота головы.
    Решение: вектор взгляда (gaze) + детектор пониженного взгляда, корреляция со скоростью.
  • Вибрации и ямы → дергаются landmarks.
    Решение: фильтрация траекторий, IMU-стабилизация, строгая фиксация камеры.
  • Культура ложных подтверждений (водитель «отбивает» алерты).
    Решение: таймауты на повторное подтверждение, альтернативный канал (вибро/свет), обучение персоналу.Системы распознавания усталости: тест новых алгоритмов

Настройка порогов под задачу

  • Дальнобой/ночные смены: стремимся к низкому FNR (не пропустить), допускаем FPR до 7–10% с мягкими алертами.
  • Каршеринг/город: важен комфорт → FPR ≤3–5%, активнее используем персонализацию и «медленные» алерты.
  • Премиум-OEM: акцент на «невидимости» системы → latency < 500 мс на кадрах, максимальный off-device privacy, адаптивный FPS.

Пример целевой конфигурации 2025 (баланс цена/качество)

  • Камера IR 720p@60fps + автоэкспозиция + датчик освещенности.
  • Модель: ViT-lite с temporal-attention + мини-LSTM (для устойчивости) + лёгкий фьюжн CAN/IMU.
  • Инференс: INT8, NPU 2–3 TOPS, энергопакет до 3 Вт.
  • Пороги: TPR@FPR=5% оптимизируем на валидации; персонализация 20 мин.
  • UX: звуковой + контурная подсветка + легкая виброобратная связь; эскалация за 3 шага.

Сравнение стратегий оповещения (сводно)

Стратегия Раздражение водителя Среднее время реакции Вероятность игнорирования Комментарий
Только звук Среднее-высокое Быстрое Средняя Дёшево, но быстро «замыливается».
Свет + звук Ниже среднего Быстрое Ниже средней Мягкая комбинация, хороша для города.
Вибро (руль/сиденье) Низкое Быстрое Низкая Тактильная связь повышает эффективность.
Эскалация 3-ступенч. Низкое Наилучшее Наименьшая Рекомендуется для серийных внедрений.

 

  • «Магия» последнего года — временные и мультимодальные модели. Они лучше улавливают именно усталость, а не просто закрытые глаза.
  • Самый «быстрый» апгрейд для существующих систем — добавить CAN/IMU и персонализацию порогов.
  • Правильная эскалация алертов и прозрачность объяснений — половина успеха внедрения.

FAQ

1) Чем усталость отличается от сонливости и почему это важно?
Сонливость — краткосрочное состояние (микросон, клевки). Усталость — долгий спад внимания и реакции. Алгоритмы, которые видят только закрытие век, пропускают «вялую» усталость без явного сна.

2) Достаточно ли одной камеры?
Для базовой детекции — да. Но на сложных сценах (очки, блики, вибрации, смартфон вне кадра) мультимодальность (CAN/IMU) заметно снижает ошибки.

3) Что выбрать для бюджетного проекта?
CNN+LSTM с хорошей NIR-подсветкой и персонализацией порогов. Это «золотая середина»: приемлемая вычислительная цена и высокая практическая точность.

4) Можно ли обойтись без персонализации?
Можно, но вы потеряете до 20–30% эффективности на ложных срабатываниях. «Подгонка» под водителя — дешёвый и действенный буст.

5) Как бороться с ложными «зевками», когда водитель поёт/разговаривает?
Вводите класс артикуляции в видео-модель и добавляйте телеметрию: если удержание полосы и коррекции руля стабильны — вероятность сонливости ниже.

6) Насколько важна частота кадров?
60 fps заметно улучшает надёжность blink/landmarks, особенно при вибрациях и «микросне». При стабильной сцене можно динамически снижать до 30 fps для экономии.

7) Хранить видео обязательно?
Нет. Лучший практический компромисс — on-device inference и хранение только агрегированных признаков и событий.

8) ДМS вмешивается в управление?
В легковых — обычно только предупреждает. В коммерческом транспорте допустимы мягкие вмешательства в ассистентов (ограничение круиз-контроля) на 3-й ступени эскалации.

9) Можно ли развернуть DMS на старых авто?
Да: универсальные комплекты «камера+блок+питание+крепление», интеграция с OBD-II/CAN через адаптер. Важно грамотно разместить камеру и провести калибровку.

10) Какие юридические риски?
Соблюдайте законы о персональных данных: локальная обработка, минимизация и шифрование данных, уведомление водителей и возможность оспаривать алерты.

11) Почему система иногда «молчит», хотя водитель явно клюёт носом?
Слишком жёсткий порог или недостаточный временной контекст. Увеличьте окно анализа/смягчите порог, проверьте качество подсветки и фокус камеры.

12) Что важнее при покупке: модель или UX?
Оба аспекта критичны. Без продуманной эскалации и объяснимых сообщений даже лучшая модель вызовет отторжение у водителей.