Facebook открыл наработки по распознаванию объектов на фотографиях

Лаборатория искусственного интеллекта Facebook продолжила открытие своих наработок и следом за библиотекой классификации текста представила реализацию алгоритмов DeepMask и SharpMask, позволяющих определять наличие объектов на фотографиях и выделять их из общего фона. Код оформлен в виде модулей к библиотеке глубинного машинного обучения Torch, написанных на языке Lua и распространяемых под лицензией BSD.

Целью разработки является предоставление средств для разбора изображений на уровне отдельных пикселей, выделяя отдельные объекты с предоставлением информации о том, что они из себя представляют на основе базы моделей, полученной в результате машинного обучения системы по типовым шаблонам. Предложенные алгоритмы позволяют на основе машинного анализа визуальной информации классифицировать отдельные элементы фотографии, определить что именно изображено и с точностью до отдельных пикселей выделить различные объекты из общего фона.

DeepMask представляет собой общий алгоритм для выделения сегментов изображения, а SharpMask предоставляет средства для уточнения результата, в сумме формируя основу для построения систем машинного зрения. Конечная фаза распознавания реализована в виде специализирвоанной свёрточной нейронной сети MultiPathNet, которая позволяет связать выделенные из изображения маски с типами объектов.

Для загрузки подготовлены как готовые модели, позволяющие без предварительного обучения системы выявлять такие объекты как животные, люди и автомобили, так и компоненты для обучения системы распознаванию новых типов объектов. Для ознакомления с возможностями системы подготовлен набор демонстрационных примеров. Из планов на будущее отмечается адаптация технологии для выделения движущихся объектов на видео.