Вступление
dbt Labs владеет всеми товарными знаками, связанными с dbt (dbt, dbt Labs, dbt Core, dbt Cloud).
Перечисленные выше товарные знаки используются исключительно с целью популяризации инструмента преобразования данных, а также развития сообщества.
Предисловие
Этот сайт адресован, в первую очередь, таким же BI-консультантам и разработчиками хранилищ данных, как и я, которые на протяжении большей части своего профессионального пути взаимодействовали с решением одного вендора. Лично я более 15 лет проработал в основном с продуктами семейства SAP.
Уход многих вендоров с российского рынка, их отказ в продлении лицензий и оказании поддержки своих решений для российских компаний придал импульс поиску альтернативы зарубежному программному обеспечению. Другими словами, импортозамещению.
Проблема в возникшей ситуации ведь не только для бизнеса, который несет финансовые, имиджевые и другого рода убытки. Обозначенная проблема поставила многих специалистов, в том числе и по работе с данными, перед развилкой – что делать дальше?
Конечно же можно спокойно продолжать работать с теми же самыми продуктами. Да, лицензии не продлеваются. Но само по себе программное обеспечение и построенные на нем информационные и аналитические системы никуда не делись. У российских специалистов накоплен огромный опыт для успешного сопровождения этих систем в течение длительного времени. Но здесь нужно трезво осознавать, что ни о каком дальнейшем технологическом развитии речи уже не идет.
Если же BI-специалист (или любой другой специалист, который имеет отношение к созданию аналитических систем) планирует продолжить курс на повышение уровня знаний в технологическом плане, то здесь есть несколько вариантов (по крайней мере, которые я вижу для самого себя):
Изучение коммерческих отечественных и альтернативных зарубежных продуктов.
Изучение open-source технологий и инструментов.
Сочетание первых двух подходов.
Не хочу никого обидеть, но я принимал участие в тестировании отечественных решений по созданию хранилищ данных и отчетности в рамках импортозамещения. Тестирование показало, что данные продукты далеки от идеала и не покрывают всей функциональности той же линейки продуктов SAP. Понятно, что через какой-то период времени отечественные разработчики программного обеспечения доведут свои детища до текущего состояния лидеров рынка. Но велика вероятность, что за это время технологии зарубежных вендоров уйдут дальше. И придется снова догонять.
Если говорить об альтернативном зарубежном программном обеспечении, то в основном, как и в других экономических сферах, это все те же китайские продукты. Но с ними ситуация практически такая же, как и с отечественными. За исключением того, что здесь также присутствует, пусть и минимальный, риск каких-то потенциальных ограничений китайских товарищей в отношении российских потребителей. Никто не знает, что будет завтра.
Поэтому, на мой взгляд, логичнее ориентироваться на open-source продукты и строить аналитические системы на базе них.
В процессе ознакомления с данным сайтом вы разработаете прототип хранилища данных для приложения выдуманной каршеринговой компании – выполните шаги по созданию, развертыванию, запуску, тестированию и документированию проекта с помощью open-source инструмента dbt (data build tool).
Сайт представляет собой практико-теоретическое руководство по работе с dbt на основе моих конспектов официальной документации и множества заметок из различных источников, которые я находил в процессе изучения этого инструмента. Данный материал ни в коем случае не является заменой документации и учебных курсов, а скорее может быть использована в качестве первого знакомства с dbt и его возможностями.
Несколько слов о dbt
dbt (data build tool) - это инструмент, который упрощает инженерам и аналитикам работу по преобразованию данных в ходе их интеграции в единое хранилище. Словом, этот инструмент закрывает собою букву «T» в ETL/ELT процессах.
Название инструмента (dbt) пишется только строчными буквами, в том числе, если с этого слова начинается предложение.
Данный продукт был создан в 2016 году компанией Fishtown Analytics, которая занималась разработкой программного обеспечения для аналитики. Позднее компания была переименована в dbt Labs.
dbt был не единственной разработкой этой компании, существовало еще несколько. Один из них был Sinter, который также попал в жернова ребрендинга и с 2019 года стал именоваться dbt Cloud.
Таким образом, data build tool имеет две версии:
dbt Core - open-source продукт (разработанный на Python), который можно свободно скачать и использовать локально с помощью командной строки под различными операционными системами;
dbt Cloud - коммерческая версия, которая реализована по модели Software-as-a-Service (SaaS). Включает в себя всю функциональность dbt Core, но не в командной строке, а веб-интерфейсе. Здесь также представлены некоторые дополнительные возможности, которых нет в свободной версии.
В данной руководстве мы остановимся на dbt Core. Хотя после выполнения проекта очень рекомендую потестировать и облачную версию. Ценовая политика dbt Cloud предусматривает тариф «Developer», который, пусть и с некоторыми ограничениями, но все-таки бесплатный. Для продуктивных решений этот вариант вряд ли подойдет, а вот для ознакомления в самый раз. Но это уже другая история.
Итак, здесь расширяется горизонт прекрасного мира данных, даже для искушенных дата-профессионалов.