Открыт исходный код базы данных Greenplum — продвинутого warehouse на базе PostgreSQL
Вчера, 28 октября, стало известно об открытии исходного кода базы данных Greenplum Database (GPDB), позиционируемой как продвинутое полнофункциональное Open Source-хранилище данных (warehouse) на основе свободной СУБД PostgreSQL.
Greenplum — СУБД, созданная одноименной компанией, которая была в 2010 году куплена EMC Corporation, а в 2013 году перешла к Pivotal Software. Открытие кода GreenplumDB (GPDB) было анонсировано Pivotal ещё в феврале, и теперь это стало реальностью: проект получил свой сайт, а исходники опубликованы на GitHub под свободной лицензией Apache License v2. Greenplum обеспечивает мощную и быструю аналитику по огромным массивам данных и, как утверждают разработчики, использует «самый продвинутый в мире оптимизатор запросов на основе оценки их стоимости».
Основой для GPDB служит свободная СУБД PostgreSQL, функциональные возможности которой были расширены с помощью:
- архитектуры для массовой параллельной обработки данных (автоматическое распараллеливание всех данных и запросов),
- технологии MPP для высокой производительности в масштабах петабайтов,
- инновационного оптимизатора запросов (его аналитические возможности масштабируются на крупные наборы данных без ущерба производительности и пропускной способности),
- полиморфного (ориентированного на столбцы или строки) хранилища и обработки данных,
- продвинутого машинного обучения на базе библиотеки Apache MADLib.
Кластер Greenplum состоит из мастер-сервера, в котором хранятся только метаданные, и множества «сегментных» серверов, где находятся все пользовательские данные. Все серверы используют одну и ту же схему БД.
Подробности о GPDB, документация по проекту и анонсы событий, связанных с ним, доступны на greenplum.org.