PODCAST · education
Data Engineering від А до Я
by Data Enthusiast FM
Що робить Data Engineer, чому без нього дані не працюють і як потрапити у професію?Цей подкаст — для тих, хто хоче розібратися в інженерії даних без зайвої термінології, з прикладами з життя, гумором і структурою. Пояснюємо, як працює сучасна команда даних, що таке ETL, пайплайни, хмара, архітектура — і чому це справді "нова золота жила в IT". Щотижня — новий епізод про важливе та цікаве в data engineering. Без нудьги, по суті.
-
27
Найдорожчі фейли дата-інженерів: Чому дані не пробачають DELETE
Що відрізняє джуніора від сеньйора? Сеньйор точно знає, скільки компанії коштував його останній факап. Починаємо другий сезон з найболючішого — реальних, дорогих і дуже життєвих помилок в Data Engineering.У цьому випуску ми не шукаємо винних, ми шукаємо дірки в архітектурі. Розбираємо історії, від яких по спині тече холодний піт, і вчимося будувати системи, стійкі до людського фактора.
-
26
Data Engineering Testing: від unit-тестів до інтеграції з dbt
У цьому випуску ми говоримо про тестування в дата-інжинірингу. Які види тестів варто застосовувати — від unit- і інтеграційних до end-to-end і контрактних. Розбираємо, що саме тестують у світі даних: схеми баз, трансформації, пайплайни, бізнес-правила та якість результатів. Окремо зупиняємось на ролі dbt у тестуванні: вбудовані тести, кастомні перевірки й те, як dbt допомагає зробити контроль якості даних частиною щоденного робочого процесу. Це практичний огляд для інженерів даних, які хочуть будувати більш надійні пайплайни.
-
25
Avro та Protobuf у Data Engineering: схеми для якісних даних
Щоб дані залишались узгодженими і зрозумілими, інженери даних використовують спеціальні формати опису схем. У цьому випуску ми розглянемо два найпопулярніших варіанти — Apache Avro та Google Protobuf. Ми пояснимо, як вони працюють, чим відрізняються, які переваги та обмеження мають. Ви дізнаєтесь, чому Avro зручний для schema evolution, а Protobuf — для високошвидкісних систем, і як обрати правильний інструмент для своїх data pipelines.Також не забувайте підписуватись на каналта писати коменти під відео :)
-
24
Якість даних для Data Engineering: що міряти і як тримати SLA
Пояснюємо, що таке Data Quality (якість даних) і як її вимірювати без «води». Розберемо «погані дані» та бізнес-виміри (Descriptive, User-driven), технічні метрики (Availability, Freshness, Uniqueness, Completeness, Schema validity + Consistency), і як оформити це у scorecard з чіткими SLA/SLI/SLO. Покажемо, як вшити тести якості у пайплайни/DAG (дедуп, non-NULL, обсяги, аномалії), налаштувати алерти й observability (метрики, логи, lineage) та використовувати data contracts для стабільних схем. Завершимо практикою: старт з 3 ключових датасетів і 3–5 базових тестів. Підписуйтесь — випуск максимально практичний.
-
23
Data Orchestration: від cron до DAG — глибше за Airflow
Ми вже говорили про Airflow як приклад оркестратора. У цьому епізоді йдемо ширше й глибше: пояснюємо, що таке data orchestration, навіщо вона потрібна та як виглядає зріла оркестрація поза межами одного інструмента. Розберемо історичні болі cron (залежності, продуктивність, «клейовий» код, data silos), три основні кроки collection → unification → activation, типи платформ (інженерні Airflow/Dagster, модельні dbt, low/no-code), роль DAG (upstream/downstream, без циклів, паралельність). Поговоримо про тригери (time/event/manual), SLA, алерти, retries, idempotency, чеки якості, а також observability (метрики, логи, lineage), вартість і RBAC. Наприкінці — як почати перехід від cron до керованих DAG і вибрати стек під вашу команду.
-
22
SQL: Query, DDL vs DML та життєвий цикл запиту (Query Life Cycle)
У цьому епізоді просто й по суті: пояснюємо, що таке query (запит) у СУБД, чітко розводимо DDL vs DML(структура проти даних) і проходимо Query Life Cycle від парсера та оптимізатора до виконання плану зі стадіями wait → read → compute → write. Розберемо ключові команди без коду:— DDL: CREATE, ALTER, DROP, TRUNCATE, RENAME, INDEX;— DML: SELECT, INSERT, UPDATE, DELETE, MERGE.Пояснимо, як думати про партиціювання (PARTITION BY), кластеризацію (CLUSTER BY) і фільтри до JOIN, щоб запити працювали швидше й дешевше. Підписуйтесь, буде практично й без «води».
-
21
Steps of Dimensional Modeling: 4 кроки на прикладі оренди e-самокатів
У 21-му випуску ми покроково проведемо вас крізь процес Dimensional Modeling за методологією Кімбалла. На прикладі компанії з оренди електросамокатів ви дізнаєтеся:Select the business process – чому grain = одна завершена поїздка.Declare the grain – як вибір атомарного рівня деталізації дає гнучкість у запитах.Identify the dimensions – створюємо таблиці Rider (SCD1), City (SCD2) і Vehicle + mini-dimension (SCD4).Identify the facts – які метрики (duration, distance, price, pauses, rating) варто зберігати в fact table.Наприкінці епізоду словесно опишемо, як у BigQuery побудувати датасет, налаштувати партиціювання за датою та кластеризацію за ключами вимірювань для максимальної продуктивності ваших аналітичних запитів.Підпишіться, щоб не пропустити детальні гайди з практичною реалізацією!
-
20
Dimensional Modeling: OLTP vs OLAP, освоюємо Kimball’s Star Schema (Зіркова схема Кімбела) та Slowly Changing Dimension (SCD, повільно змінювана розмірність)
У цьому випуску ми просто й зрозуміло розкажемо:OLTP vs OLAP: навіщо потрібні окремі оперативні й аналітичні бази даних.Star Schema by Kimball: як факти (fact table) у центрі та виміри (dimension tables) навколо допомагають робити запити швидко й зрозуміло.Snowflake Schema: коли варто нормалізувати виміри, щоб зекономити місце.Slowly Changing Dimension (SCD): п’ять способів (Type 0–4) зберегти історію змін атрибутів.Після цього епізоду ви знатимете, як правильно спроєктувати модель даних для свого data warehouse. Підпишіться, щоб не пропустити інші корисні випуски!
-
19
Вступ до Data Modeling: Як перетворити бізнес-вимоги на таблиці
У цьому випуску — introduction to data modeling для data engineers. Розбираємо три рівні моделювання: conceptual, logical та physical. Пояснюємо, що таке granularity, normalization, primary keys, foreign keys та як усе це допомагає побудувати зрозумілу, масштабовану аналітичну систему.📦 На прикладі продуктової мережі моделюємо процес продажів: від бізнес-процесу до BigQuery-таблиць.Це — основи, без яких неможливо побудувати якісний data warehouse чи data product.👉 У наступному випуску поговоримо про Kimball’s Dimensional ModelingПідпишись, щоб не пропустити продовження!
-
18
Ingest with Python — pandas та PySpark у data pipelines
Цей випуск завершує серію про ingestion-методи. Говоримо про два популярних інструменти з Python-екосистеми — pandas та PySpark.Коли варто використовувати кожен? Як зчитувати, обробляти і завантажувати дані з CSV, BigQuery або DataFrame-структури? Чим відрізняються RDD, DataFrame і Dataset у Spark?Щоб не пропустити нові епізоди — підпишіться на подкаст ✨
-
17
Real-Time Ingestion без магії — CDC та Streaming Explained (Kafka)
Real-time ingestion — це вже не розкіш, а норма. У цьому випуску розбираємо, як працює CDC (Change Data Capture), чим він відрізняється від Kafka, і які існують варіанти стримінгових платформ для обробки подій у реальному часі.
-
16
SFTP vs API vs Object Storage: Битва ingestion-методів
У цьому випуску — глибоке занурення у три архітектурно різні способи інжесту: від старої школи (SFTP) до REST API та сучасних data lake-підходів через object storage. Пояснюю на прикладах, коли обрати який.
-
15
Push чи Pull: як обрати правильну стратегію для data ingestion
Push чи Pull? Розбираємось, як саме дані потрапляють у систему: хто ініціює передачу, як це впливає на швидкість, надійність і масштабування. Порівнюємо обидва підходи з реальними прикладами.
-
14
Stream Ingestion — нова ера Data Ingestion
Stream ingestion — новий підхід до data ingestion у реальному часі. У цьому епізоді: різниця з batch, delivery semantics, обробка помилок і практичний приклад з Pub/Sub → BigQuery. Мінімум теорії, максимум користі.
-
13
Data Ingestion по-старому: батч, snapshot і BigQuery
Batch ingestion — це класика data ingestion. Пояснюємо, як працює завантаження даних пачками: по часу чи обсягу, snapshot чи інкрементально. І показуємо практичний приклад з BigQuery та біткоїном.
-
12
Принципи хорошої Cloud Data Architecture
Побудувати щось у хмарі може кожен. Побудувати так, щоб воно було надійне, гнучке, дешеве і безпечне — вже інше питання. У цьому випуску говоримо про 5 ключових принципів Cloud Data Architecture, які справді працюють.
-
11
Весь ІТ у трьох літерах: розбираємо IaaS, PaaS, SaaS
IaaS, PaaS і SaaS — не просто модні слова. Це різні способи використовувати хмару. Розбираємось, що вони значать, які є приклади, і як зрозуміти, що підійде саме тобі.
-
10
Cloud Data Architecture простими словами
Після оркестраторів переходимо до великої картини: як виглядає сучасна хмарна архітектура для даних. Пояснюємо, що таке Lambda, Kappa та Medallion — простими словами, з прикладами з життя. Якщо хочеш зрозуміти, як великі компанії будують data-системи — це твоя відправна точка.
-
9
Prefect, Dagster, Mage: чим вони кращі (або простіші) за Airflow?
Airflow — це круто, але іноді занадто важко. У цьому випуску розбираємо, які ще інструменти керують пайплайнами: що обрати, якщо ти тільки починаєш, чим різняться стилі, і де Mage кращий за Airflow. Просто, по суті й з прикладами.
-
8
Airflow не магія. Це просто — якщо знаєш, що таке DAG
Airflow звучить як щось складне? Насправді все простіше, ніж здається. У цьому випуску пояснюємо, що таке DAG, чому саме на ньому тримається оркестрація, і як Airflow допомагає не втратити контроль, коли пайплайнів стає більше. Без термінів, але з прикладами.
-
7
Пайплайни не слухаються? Ось як навести порядок у світі даних
Усе летить, дашборди не оновлюються, пайплайни запускаються коли заманеться — знайомо? У цьому випуску розбираємося, що таке оркестрація даних і чому без неї навіть найкращий pipeline перетворюється на головний біль.
-
6
Data pipeline — що це таке і чому без нього в хмарі не обійтись
Сьогодні говоримо про те, як дані рухаються. Що таке data pipeline, чим він відрізняється від скрипта на cron і чому без нього твої дані або загубляться, або ніколи не дійдуть до дашборду.
-
5
Хмара — це не магія. Але без неї ти далеко не зайдеш
Сьогодні розбираємося, що таке хмара і чому без неї не обійтись інженеру даних. Що зберігати в AWS, навіщо тобі S3, і чи правда, що хмара — це просто чужий комп’ютер.
-
4
База ≠ сховище. Ти точно знаєш, де живуть твої дані?
Сьогодні розбираємося, чим відрізняється база від data warehouse, що таке data lake і чому lakehouse — не просто нова модна назва. Якщо досі здається, що “все в таблицях” — цей випуск для тебе.
-
3
Звідки беруться дані? Правда, яку не розказують на курсах
Дані не беруться з повітря. І не живуть самі по собі. Розповідаємо, як вони народжуються, перетворюються і чому кожен етап — це ще один шанс усе зламати.
-
2
Data Engineer — а що далі? Ти здивуєшся, з ким доведеться працювати
Сьогодні розбираємося, куди потрапляє Data Engineer після оферу. Які бувають структури команд, хто є хто у світі даних і чому аналітик — не твій головний союзник (але й не ворог). Якщо думаєш, що будеш просто писати пайплайни в куточку — тримайся, бо все складніше (і цікавіше).
-
1
Data Engineer — нова золота жила в IT? Ось з чого почати!
Дізнайся, хто такий Data Engineer, чим він відрізняється від аналітика чи дата-сайентіста, навіщо бізнесу ця роль і з чого почати шлях у цій професії. Просто, без води і для новачків.
We're indexing this podcast's transcripts for the first time — this can take a minute or two. We'll show results as soon as they're ready.
No matches for "" in this podcast's transcripts.
No topics indexed yet for this podcast.
Loading reviews...
ABOUT THIS SHOW
Що робить Data Engineer, чому без нього дані не працюють і як потрапити у професію?Цей подкаст — для тих, хто хоче розібратися в інженерії даних без зайвої термінології, з прикладами з життя, гумором і структурою. Пояснюємо, як працює сучасна команда даних, що таке ETL, пайплайни, хмара, архітектура — і чому це справді "нова золота жила в IT". Щотижня — новий епізод про важливе та цікаве в data engineering. Без нудьги, по суті.
HOSTED BY
Data Enthusiast FM
Loading similar podcasts...