PODCAST · education

Data Engineering від А до Я

by Data Enthusiast FM

Що робить Data Engineer, чому без нього дані не працюють і як потрапити у професію?Цей подкаст — для тих, хто хоче розібратися в інженерії даних без зайвої термінології, з прикладами з життя, гумором і структурою. Пояснюємо, як працює сучасна команда даних, що таке ETL, пайплайни, хмара, архітектура — і чому це справді "нова золота жила в IT". Щотижня — новий епізод про важливе та цікаве в data engineering. Без нудьги, по суті.

Subscribe · 0 Bookmark

27

Найдорожчі фейли дата-інженерів: Чому дані не пробачають DELETE

Що відрізняє джуніора від сеньйора? Сеньйор точно знає, скільки компанії коштував його останній факап. Починаємо другий сезон з найболючішого — реальних, дорогих і дуже життєвих помилок в Data Engineering.У цьому випуску ми не шукаємо винних, ми шукаємо дірки в архітектурі. Розбираємо історії, від яких по спині тече холодний піт, і вчимося будувати системи, стійкі до людського фактора.

Mar 3, 2026

12m
26

Data Engineering Testing: від unit-тестів до інтеграції з dbt

У цьому випуску ми говоримо про тестування в дата-інжинірингу. Які види тестів варто застосовувати — від unit- і інтеграційних до end-to-end і контрактних. Розбираємо, що саме тестують у світі даних: схеми баз, трансформації, пайплайни, бізнес-правила та якість результатів. Окремо зупиняємось на ролі dbt у тестуванні: вбудовані тести, кастомні перевірки й те, як dbt допомагає зробити контроль якості даних частиною щоденного робочого процесу. Це практичний огляд для інженерів даних, які хочуть будувати більш надійні пайплайни.

Sep 30, 2025

18m
25

Avro та Protobuf у Data Engineering: схеми для якісних даних

Щоб дані залишались узгодженими і зрозумілими, інженери даних використовують спеціальні формати опису схем. У цьому випуску ми розглянемо два найпопулярніших варіанти — Apache Avro та Google Protobuf. Ми пояснимо, як вони працюють, чим відрізняються, які переваги та обмеження мають. Ви дізнаєтесь, чому Avro зручний для schema evolution, а Protobuf — для високошвидкісних систем, і як обрати правильний інструмент для своїх data pipelines.Також не забувайте підписуватись на каналта писати коменти під відео :)

Sep 16, 2025

20m
24

Якість даних для Data Engineering: що міряти і як тримати SLA

Пояснюємо, що таке Data Quality (якість даних) і як її вимірювати без «води». Розберемо «погані дані» та бізнес-виміри (Descriptive, User-driven), технічні метрики (Availability, Freshness, Uniqueness, Completeness, Schema validity + Consistency), і як оформити це у scorecard з чіткими SLA/SLI/SLO. Покажемо, як вшити тести якості у пайплайни/DAG (дедуп, non-NULL, обсяги, аномалії), налаштувати алерти й observability (метрики, логи, lineage) та використовувати data contracts для стабільних схем. Завершимо практикою: старт з 3 ключових датасетів і 3–5 базових тестів. Підписуйтесь — випуск максимально практичний.

Sep 1, 2025

12m
23

Data Orchestration: від cron до DAG — глибше за Airflow

Ми вже говорили про Airflow як приклад оркестратора. У цьому епізоді йдемо ширше й глибше: пояснюємо, що таке data orchestration, навіщо вона потрібна та як виглядає зріла оркестрація поза межами одного інструмента. Розберемо історичні болі cron (залежності, продуктивність, «клейовий» код, data silos), три основні кроки collection → unification → activation, типи платформ (інженерні Airflow/Dagster, модельні dbt, low/no-code), роль DAG (upstream/downstream, без циклів, паралельність). Поговоримо про тригери (time/event/manual), SLA, алерти, retries, idempotency, чеки якості, а також observability (метрики, логи, lineage), вартість і RBAC. Наприкінці — як почати перехід від cron до керованих DAG і вибрати стек під вашу команду.

Aug 22, 2025

7m
22

SQL: Query, DDL vs DML та життєвий цикл запиту (Query Life Cycle)

У цьому епізоді просто й по суті: пояснюємо, що таке query (запит) у СУБД, чітко розводимо DDL vs DML(структура проти даних) і проходимо Query Life Cycle від парсера та оптимізатора до виконання плану зі стадіями wait → read → compute → write. Розберемо ключові команди без коду:— DDL: CREATE, ALTER, DROP, TRUNCATE, RENAME, INDEX;— DML: SELECT, INSERT, UPDATE, DELETE, MERGE.Пояснимо, як думати про партиціювання (PARTITION BY), кластеризацію (CLUSTER BY) і фільтри до JOIN, щоб запити працювали швидше й дешевше. Підписуйтесь, буде практично й без «води».

Aug 11, 2025

6m
21

Steps of Dimensional Modeling: 4 кроки на прикладі оренди e-самокатів

У 21-му випуску ми покроково проведемо вас крізь процес Dimensional Modeling за методологією Кімбалла. На прикладі компанії з оренди електросамокатів ви дізнаєтеся:Select the business process – чому grain = одна завершена поїздка.Declare the grain – як вибір атомарного рівня деталізації дає гнучкість у запитах.Identify the dimensions – створюємо таблиці Rider (SCD1), City (SCD2) і Vehicle + mini-dimension (SCD4).Identify the facts – які метрики (duration, distance, price, pauses, rating) варто зберігати в fact table.Наприкінці епізоду словесно опишемо, як у BigQuery побудувати датасет, налаштувати партиціювання за датою та кластеризацію за ключами вимірювань для максимальної продуктивності ваших аналітичних запитів.Підпишіться, щоб не пропустити детальні гайди з практичною реалізацією!

Aug 6, 2025

6m
20

Dimensional Modeling: OLTP vs OLAP, освоюємо Kimball’s Star Schema (Зіркова схема Кімбела) та Slowly Changing Dimension (SCD, повільно змінювана розмірність)

У цьому випуску ми просто й зрозуміло розкажемо:OLTP vs OLAP: навіщо потрібні окремі оперативні й аналітичні бази даних.Star Schema by Kimball: як факти (fact table) у центрі та виміри (dimension tables) навколо допомагають робити запити швидко й зрозуміло.Snowflake Schema: коли варто нормалізувати виміри, щоб зекономити місце.Slowly Changing Dimension (SCD): п’ять способів (Type 0–4) зберегти історію змін атрибутів.Після цього епізоду ви знатимете, як правильно спроєктувати модель даних для свого data warehouse. Підпишіться, щоб не пропустити інші корисні випуски!

Aug 1, 2025

10m
19

Вступ до Data Modeling: Як перетворити бізнес-вимоги на таблиці

У цьому випуску — introduction to data modeling для data engineers. Розбираємо три рівні моделювання: conceptual, logical та physical. Пояснюємо, що таке granularity, normalization, primary keys, foreign keys та як усе це допомагає побудувати зрозумілу, масштабовану аналітичну систему.📦 На прикладі продуктової мережі моделюємо процес продажів: від бізнес-процесу до BigQuery-таблиць.Це — основи, без яких неможливо побудувати якісний data warehouse чи data product.👉 У наступному випуску поговоримо про Kimball’s Dimensional ModelingПідпишись, щоб не пропустити продовження!

Jul 26, 2025

8m
18

Ingest with Python — pandas та PySpark у data pipelines

Цей випуск завершує серію про ingestion-методи. Говоримо про два популярних інструменти з Python-екосистеми — pandas та PySpark.Коли варто використовувати кожен? Як зчитувати, обробляти і завантажувати дані з CSV, BigQuery або DataFrame-структури? Чим відрізняються RDD, DataFrame і Dataset у Spark?Щоб не пропустити нові епізоди — підпишіться на подкаст ✨

Jul 23, 2025

6m
17

Real-Time Ingestion без магії — CDC та Streaming Explained (Kafka)

Real-time ingestion — це вже не розкіш, а норма. У цьому випуску розбираємо, як працює CDC (Change Data Capture), чим він відрізняється від Kafka, і які існують варіанти стримінгових платформ для обробки подій у реальному часі.

Jul 22, 2025

6m
16

SFTP vs API vs Object Storage: Битва ingestion-методів

У цьому випуску — глибоке занурення у три архітектурно різні способи інжесту: від старої школи (SFTP) до REST API та сучасних data lake-підходів через object storage. Пояснюю на прикладах, коли обрати який.

Jul 15, 2025

7m
15

Push чи Pull: як обрати правильну стратегію для data ingestion

Push чи Pull? Розбираємось, як саме дані потрапляють у систему: хто ініціює передачу, як це впливає на швидкість, надійність і масштабування. Порівнюємо обидва підходи з реальними прикладами.

Jul 15, 2025

7m
14

Stream Ingestion — нова ера Data Ingestion

Stream ingestion — новий підхід до data ingestion у реальному часі. У цьому епізоді: різниця з batch, delivery semantics, обробка помилок і практичний приклад з Pub/Sub → BigQuery. Мінімум теорії, максимум користі.

Jul 8, 2025

6m
13

Data Ingestion по-старому: батч, snapshot і BigQuery

Batch ingestion — це класика data ingestion. Пояснюємо, як працює завантаження даних пачками: по часу чи обсягу, snapshot чи інкрементально. І показуємо практичний приклад з BigQuery та біткоїном.

Jul 8, 2025

8m
12

Принципи хорошої Cloud Data Architecture

Побудувати щось у хмарі може кожен. Побудувати так, щоб воно було надійне, гнучке, дешеве і безпечне — вже інше питання. У цьому випуску говоримо про 5 ключових принципів Cloud Data Architecture, які справді працюють.

Jun 11, 2025

6m
11

Весь ІТ у трьох літерах: розбираємо IaaS, PaaS, SaaS

IaaS, PaaS і SaaS — не просто модні слова. Це різні способи використовувати хмару. Розбираємось, що вони значать, які є приклади, і як зрозуміти, що підійде саме тобі.

Jun 11, 2025

6m
10

Cloud Data Architecture простими словами

Після оркестраторів переходимо до великої картини: як виглядає сучасна хмарна архітектура для даних. Пояснюємо, що таке Lambda, Kappa та Medallion — простими словами, з прикладами з життя. Якщо хочеш зрозуміти, як великі компанії будують data-системи — це твоя відправна точка.

Jun 8, 2025

8m
9

Prefect, Dagster, Mage: чим вони кращі (або простіші) за Airflow?

Airflow — це круто, але іноді занадто важко. У цьому випуску розбираємо, які ще інструменти керують пайплайнами: що обрати, якщо ти тільки починаєш, чим різняться стилі, і де Mage кращий за Airflow. Просто, по суті й з прикладами.

Jun 8, 2025

5m
8

Airflow не магія. Це просто — якщо знаєш, що таке DAG

Airflow звучить як щось складне? Насправді все простіше, ніж здається. У цьому випуску пояснюємо, що таке DAG, чому саме на ньому тримається оркестрація, і як Airflow допомагає не втратити контроль, коли пайплайнів стає більше. Без термінів, але з прикладами.

Jun 6, 2025

5m
7

Пайплайни не слухаються? Ось як навести порядок у світі даних

Усе летить, дашборди не оновлюються, пайплайни запускаються коли заманеться — знайомо? У цьому випуску розбираємося, що таке оркестрація даних і чому без неї навіть найкращий pipeline перетворюється на головний біль.

Jun 4, 2025

5m
6

Data pipeline — що це таке і чому без нього в хмарі не обійтись

Сьогодні говоримо про те, як дані рухаються. Що таке data pipeline, чим він відрізняється від скрипта на cron і чому без нього твої дані або загубляться, або ніколи не дійдуть до дашборду.

Jun 1, 2025

7m
5

Хмара — це не магія. Але без неї ти далеко не зайдеш

Сьогодні розбираємося, що таке хмара і чому без неї не обійтись інженеру даних. Що зберігати в AWS, навіщо тобі S3, і чи правда, що хмара — це просто чужий комп’ютер.

Jun 1, 2025

7m
4

База ≠ сховище. Ти точно знаєш, де живуть твої дані?

Сьогодні розбираємося, чим відрізняється база від data warehouse, що таке data lake і чому lakehouse — не просто нова модна назва. Якщо досі здається, що “все в таблицях” — цей випуск для тебе.

May 31, 2025

7m
3

Звідки беруться дані? Правда, яку не розказують на курсах

Дані не беруться з повітря. І не живуть самі по собі. Розповідаємо, як вони народжуються, перетворюються і чому кожен етап — це ще один шанс усе зламати.

May 31, 2025

5m
2

Data Engineer — а що далі? Ти здивуєшся, з ким доведеться працювати

Сьогодні розбираємося, куди потрапляє Data Engineer після оферу. Які бувають структури команд, хто є хто у світі даних і чому аналітик — не твій головний союзник (але й не ворог). Якщо думаєш, що будеш просто писати пайплайни в куточку — тримайся, бо все складніше (і цікавіше).

May 31, 2025

7m
1

Data Engineer — нова золота жила в IT? Ось з чого почати!

Дізнайся, хто такий Data Engineer, чим він відрізняється від аналітика чи дата-сайентіста, навіщо бізнесу ця роль і з чого почати шлях у цій професії. Просто, без води і для новачків.

May 28, 2025

6m

Type above to search every episode's transcript for a word or phrase. Matches are scoped to this podcast.

Searching…

We're indexing this podcast's transcripts for the first time — this can take a minute or two. We'll show results as soon as they're ready.

No matches for "" in this podcast's transcripts.

Showing of matches

No topics indexed yet for this podcast.

Loading reviews...

Share your thoughts

ABOUT THIS SHOW

HOSTED BY

Data Enthusiast FM

Frequently Asked Questions

How many episodes does Data Engineering від А до Я have?

Data Engineering від А до Я currently has 27 episodes available on PodParley. New episodes are automatically indexed when they're published to the podcast feed.

What is Data Engineering від А до Я about?

How often does Data Engineering від А до Я release new episodes?

Data Engineering від А до Я has 27 episodes. Check the episode list to see recent publication dates and frequency.

Where can I listen to Data Engineering від А до Я?

You can listen to Data Engineering від А до Я on PodParley by clicking any episode. We provide an embedded audio player for direct listening, and you can also subscribe via your preferred podcast app using the RSS feed.

Who hosts Data Engineering від А до Я?

Data Engineering від А до Я is created and hosted by Data Enthusiast FM.

URL copied to clipboard!

Найдорожчі фейли дата-інженерів: Чому дані не пробачають DELETE

Data Engineering Testing: від unit-тестів до інтеграції з dbt

Avro та Protobuf у Data Engineering: схеми для якісних даних

Якість даних для Data Engineering: що міряти і як тримати SLA

Data Orchestration: від cron до DAG — глибше за Airflow

SQL: Query, DDL vs DML та життєвий цикл запиту (Query Life Cycle)

Steps of Dimensional Modeling: 4 кроки на прикладі оренди e-самокатів

Dimensional Modeling: OLTP vs OLAP, освоюємо Kimball’s Star Schema (Зіркова схема Кімбела) та Slowly Changing Dimension (SCD, повільно змінювана розмірність)

Вступ до Data Modeling: Як перетворити бізнес-вимоги на таблиці

Ingest with Python — pandas та PySpark у data pipelines

Real-Time Ingestion без магії — CDC та Streaming Explained (Kafka)

SFTP vs API vs Object Storage: Битва ingestion-методів

Push чи Pull: як обрати правильну стратегію для data ingestion

Stream Ingestion — нова ера Data Ingestion

Data Ingestion по-старому: батч, snapshot і BigQuery

Принципи хорошої Cloud Data Architecture

Весь ІТ у трьох літерах: розбираємо IaaS, PaaS, SaaS

Cloud Data Architecture простими словами

Prefect, Dagster, Mage: чим вони кращі (або простіші) за Airflow?

Airflow не магія. Це просто — якщо знаєш, що таке DAG

Пайплайни не слухаються? Ось як навести порядок у світі даних

Data pipeline — що це таке і чому без нього в хмарі не обійтись

Хмара — це не магія. Але без неї ти далеко не зайдеш

База ≠ сховище. Ти точно знаєш, де живуть твої дані?

Звідки беруться дані? Правда, яку не розказують на курсах

Data Engineer — а що далі? Ти здивуєшся, з ким доведеться працювати

Data Engineer — нова золота жила в IT? Ось з чого почати!

Authentication Required