Yahoo опубликовал крупнейшую базу данных для систем машинного обучения

2016-01-14

Компания Yahoo разместила в публичном доступе крупнейший набор данных для исследователей машинного обучения и искусственного интеллекта, включающий информацию о 110 миллиардах событий (размер БД 13.5 Тб). База содержит обезличенные данные, накопленные с февраля по май 2015 года и включающие сведения о поведении 20 млн пользователей при чтении новостей на сайтах Yahoo.

Информация о взаимодействии с сайтами Yahoo включает сведения о прочитанных статьях в привязке к обезличенным пользователям, для которых приводятся демографические данные (пол, возраст, местоположение), что позволяет сформировать портрет интересов каждого пользователя и выработать индивидуальные рекомендации. Исследователи могут использовать БД для проверки рекомендательных систем, при разработке методов совместной фильтрации, контексто-зависимых систем обучения, крупномасштабных алгоритмов машинного обучения, моделирования поведения пользователей, систем повышения качества контента и автономных методов обучения.