Машинное зрение добилось впечатляющих успехов. Оно обладает сверхъестественной способностью распознавать людей, лица и объекты. Оно даже может распознавать различные виды действий, хотя и не так хорошо, как это делают люди.
Но и у машинного зрения есть пределы возможностей. Особенно тяжело машинам, когда люди, лица или объекты частично закрыты. А при резком изменении уровня освещенности, они, как и люди, фактически оказываются ослепленными.
Но есть другая часть электромагнитного спектра, не имеющая таких ограничений. Радиоволны заполняют наш мир, будь то ночь или день. Они легко проходят сквозь стены, передаются и отражаются телами людей. Более того, учёные разработали различные способы использования Wi-Fi сигналов, чтобы видеть за закрытыми дверями.
Но у этих систем радиовидения есть свои недостатки: низкое разрешение картинки, «шумные» изображения с отвлекающими отражениями, что затрудняет понимание происходящего.
В этом отношении радиоизображения и изображения в видимом свете имеют взаимодополняющие преимущества и недостатки. И это дает возможность использовать сильные стороны одного способа для преодоления недостатков другого.
Тяньхун Ли (Tianhong Li) и его коллеги из MIT нашли способ научить систему радиовидения (radio vision system) распознавать действия людей, обучив её с помощью видимых световых изображений (изображений, полученных в видимом спектре света). Новая система радиовидения позволяет увидеть, чем занимаются люди в самых разных ситуациях, когда невозможно использовать видимое световое изображение. «Мы представляем модель нейронной сети, которая может обнаружить действия человека через стены и какие-либо заграждения, а также в условиях плохого освещения», — говорят Ли и его коллеги.
Метод команды из MIT использует ловкий трюк. Основная идея заключается в записи видеоизображений одной и той же сцены с использованием видимого света и радиоволн. Системы машинного зрения уже способны распознавать действия человека по видимым световым изображениям. Поэтому следующим шагом является корреляция этих изображений с радиоизображениями той же самой сцены.
Но трудность заключается в том, чтобы в процессе обучения основное внимание уделялось именно движению человека, а не другим характеристикам, таким, например, как фон. Поэтому исследователи вводят промежуточный этап, в ходе которого машина генерирует трехмерные каркасные (контурные) модели, воспроизводящие действия людей на сцене.
Таким образом, система учится распознавать действия в видимом свете, а затем, используя радиоволны, распознавать те же действия, происходящие в темноте или за стенами.
Это интересная работа, имеющая значительный потенциал. Очевидные области применения — это сценарии, когда невозможно получать видимые световые изображения из-за низкой освещенности или из-за наличия препятствий.
Но есть и другие применения. Одна из проблем с видимыми световыми изображениями заключается в том, что люди оказываются узнаваемы, и это уже затрагивает вопросы приватности.
Но радиосистемам не хватает разрешающей способности для распознавания лиц. Определение действий без распознавания лиц не вызывает серьёзных опасений в плане конфиденциальности и может быть использовано без особого риска для частной жизни, что выходит за рамки возможностей современных систем, основанных на компьютерном зрении.