OTF Talk

PODCAST · technology

OTF Talk

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 (host: @simosako) https://www.otftalk.com/

  1. 36

    #36 Apache HiveからみたOpen Table Format (OTF)

    OTF Talk 第36回は、Apache Hive PMCメンバーのおくみんさんに「Apache HiveからみたOTF」についてお話をうかがいました。Apache Hiveとは何か/Apache Hiveへの貢献とPMC/HiveとOpen Table Format/Apache Iceberg対応/Apache HiveコミュニティOTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 https://www.otftalk.com/guest: guest:@okumin おくみん Apache Hive PMC メンバー / Treasure Data ソフトウェアエンジニアhost: @simosako 下佐粉 昭 AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)おくみんさん Xアカウント - https://x.com/okuminApache Iceberg活用入門 オープンテーブルフォーマットによるデータレイク&データレイクハウス (書籍) https://book.impress.co.jp/books/1124101072Apache HiveとIceberg: 2025年春 (おくみんさんによる、HiveのIceberg関連プロジェクト解説) https://blog.okumin.com/entry/2025/05/30/110000--------------------※AI生成の目次です。ご参考までに。[00:00] ゲスト紹介とHive PMCとしての活動ゲストのおくみんさん(トレジャーデータ)は、約10年のビッグデータ歴を持ち、Apache HiveのPMCメンバーとして開発を主導している。共著(寄稿)した書籍『Apache Iceberg活用入門』の話題。[05:22] Apache Hiveとは何か? モダンな構成への変化Hiveは「メタストア」と「SQLクエリエンジン」の2つの主要コンポーネントで構成される。実行エンジンはMapReduceからApache TezやLLAPへ移行し、高速化を実現している。[11:13] Open Table Format(OTF)とHiveの親和性HiveはApache Icebergを強力にサポートしており、Sparkに次ぐ機能網羅性を誇る。カタログ機能だけでなく、データのコンパクション(最適化)やクリーンアップなどのメンテナンス機能もHive単体で完結できる「Best of Suite」としての利点。[16:47] 最新の開発トピック:KubernetesとIceberg v3HelmチャートによるKubernetesへのデプロイ対応が進んでおり、インフラ管理が容易になりつつある。Iceberg v3スペックへの対応や、複数テーブルを跨ぐトランザクション機能の実装が進んでいる。[25:31] Hiveコミュニティの熱量と今後の展望100名以上のコミッターが在籍し、AI時代やデータレイクハウスの進展に合わせて今なお熱意を持って進化し続けている。

  2. 35

    #35 ハイトラフィックな更新処理が必要な環境でのApache Iceberg検証

    OTF Talk 第35回は、Repro チーフアーキテクトの joker1007さんに「ハイトラフィックな更新処理が必要な環境でのApache Iceberg検証」についてお話をうかがいました。既存環境の課題/Icebergでデータとコンピュートを分離する/データ更新と参照ラグ/コンパクションの課題と工夫/今後の展望OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 https://www.otftalk.com/guest: guest:@joker1007 Repro チーフアーキテクト host: @simosako 下佐粉 昭 AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)joker1007さんXアカウント - https://x.com/joker1007ReproでのApache Icebergの技術検証結果 https://tech.repro.io/entry/2025/11/13/161646前回のOTF Talkでのご出演 - Hudiの話 (#19, #20) https://www.otftalk.com/2024/11/ep9.html前回検証結果のブログ https://tech.repro.io/entry/2024/10/28/170721

  3. 34

    #34 Apache Kafka と Open Table Format

    OTF Talk 第34回はConfluent 清水 亮夫 さんに、「Apache Kafka と Open Table Format」についてお話をうかがいました。リアルタイム処理とOTF/Kafkaの特徴/Kafkaと他システムとの連携/Kafka Connector/Iceberg Sink Connectorの機能と注意点OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: Confluent ソリューションエンジニアの清水 亮夫 さんhost: @simosako 下佐粉 昭AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。参考)清水さん X https://x.com/shmzaApache Iceberg Meetup Japan #3 https://iceberg.connpass.com/event/364492/発表資料 https://speakerdeck.com/shmza/kafkawoli-yong-sitaiceberghenodetasutoriminguApache Kafka https://kafka.apache.org/ Kafka connectors https://docs.confluent.io/platform/current/connect/kafka_connectors.htmlApache Iceberg Sink Connector https://github.com/apache/iceberg/tree/main/kafka-connectKafka-delta-ingest https://github.com/delta-io/kafka-delta-ingest

  4. 33

    #33 大規模データ分析環境での Apache Iceberg + Snowflake 活用の経験

    OTF Talk 第33回はNTTドコモ 松原 侑哉 さんに、「大規模データ分析環境での Apache Iceberg + Snowflake 活用の経験」についてお話をうかがいました。ペタバイト級データを処理するインフラの変遷/Iceberg評価の背景とモチベーション/ベンチマークの方法と結果/今後についてOTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: NTTドコモ プリンシパルデータエンジニア 松原 侑哉 さんhost: @simosako 下佐粉 昭AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。参考)Apache Iceberg Meetup Japan #3https://iceberg.connpass.com/event/364492/松原さん発表資料https://speakerdeck.com/y_matsubara/apache-iceberg-meetup-japan-number-3-da-gui-mo-snowflake-plus-anoicebergnohuo-yong

  5. 32

    #32 広告配信システムのデータ基盤におけるApache Iceberg活用

    OTF Talk 第32回はマイクロアド 高橋 唐樹 さんに、「広告配信システムのデータ基盤におけるApache Iceberg活用」についてお話をうかがいました。広告配信システムの前処理/HiveからTrinoに移行/Iceberg化のメリット/ストレージとコンピュートの分離によるメリットOTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: マイクロアド 高橋 唐樹 さんhost: @simosako 下佐粉 昭AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)発表資料 https://sd-portal.microad.co.jp/slides/2025-03-01_deim2025.htmlDEIM2025 https://pub.confit.atlas.jp/ja/event/deim2025OTF Talk 「マイクロアドでのOTF活用とIcebergテーブルの最適化」#28 https://www.otftalk.com/2025/09/ep14.htmlOTF Talk 「LINEヤフーにおけるHiveからIcebergへの移行」(#17, #18) https://www.otftalk.com/2024/11/ep8.html

  6. 31

    #31 Fin Tech領域における Open Table Format

    OTF Talk 第31回は鈴木 研吾 さんに、「Fin Tech領域における Open Table Format」についてお話をうかがいました。セキュリティ・キャンプ2025 全国大会/データマネジメントの重要性/Fin Tech領域とOpen Table Formatのメリット/AI時代のセキュリティOTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: @ken5scal (ken\d\x) 鈴木 研吾 さんhost: @simosako 下佐粉 昭AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)鈴木さん X https://x.com/ken5scal (ken\d\x)セキュリティ・キャンプ2025 全国大会【専門】Dクラスhttps://www.ipa.go.jp/jinzai/security-camp/2025/camp/zenkoku/program/d.html講義資料https://speakerdeck.com/ken5scal/aishi-dai-noda-gui-mo-detahuo-yong-tosekiyuriteizhan-lueLayerX Fintech事業部ブログhttps://tech.layerx.co.jp/archive/category/Fintech%E4%BA%8B%E6%A5%AD%E9%83%A8SIEM https://ja.wikipedia.org/wiki/Security_information_and_event_management

  7. 30

    #30 柔軟性のある分析基盤構築のためにApache Icebergを活用した経験

    OTF Talk 第30回は坂本 泰規さんに、「柔軟性のある分析基盤構築のためにApache Icebergを活用した経験」についてお話をうかがいました。Apache Iceberg採用のモチベーション/マルチクラウド/クエリエンジンを併用 - SnowflakeとAthena/性能と注意点OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: @sambaiz 坂本 泰規さんhost: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)坂本さん X https://x.com/sambaiz「AJA SSP が Apache Iceberg と AWS Glue Data Catalog でペタバイトスケールのデータ基盤の柔軟なクエリエンジンの選択とクエリの高速化を実現」(AWSブログ)https://aws.amazon.com/jp/blogs/news/aja-ssp-adopts-iceberg-and-glue-data-catalog-in-peta-byte-scale-data-platform-to-get-flexible-query-engines-and-faster-queries/OTF Talk #13 「DWH利用者からみた Iceberg の魅力」https://www.otftalk.com/2024/10/ep6.html

  8. 29

    #29 関西でのOTFコミュニティ活動

    OTF Talk 第29回は、さくらインターネットの永富 安和さん(やっさん)に「関西でのOTFコミュニティ活動 」についてお話をうかがいました。OTFSGとコミュニティ活動/OTF周辺での関心領域/関西でのコミュニティ活動/OTFSG今後の予定OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: @yassan168 永富 安和さん(やっさん)さくらインターネット ソフトウェア開発エンジニアhost: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)やっさん X https://x.com/yassan168OTFのコミュニティ OTF Study Group (OTFSG) https://otfsg-tokyo.connpass.com/(OTFSG Slack への招待リンクも上記URLに記載されています)資料 「マイクロアドのData LakehouseとIcebergテーブルの最適化について」https://docs.google.com/presentation/d/1w4mY_coUKPfMBbpvi-fJygmUZIvmh0q6ipG-BM1PxiM/edit?slide=id.g22df57b2e5d_0_0上記発表の録画 https://youtu.be/jEH17or26b0?si=uv6-rO2UTBQSNeIc&t=284RUSTFS (MiniIO alternative) https://github.com/RustFS/RustFSLake Keeper https://docs.lakekeeper.io/--ホストしているもう1つのPodcast : SKO Radiohttps://www.skoradio.com/

  9. 28

    #28 マイクロアドでのOTF活用とIcebergテーブルの最適化

    OTF Talk 第28回はさくらインターネットの永富 安和さん(やっさん)に、「マイクロアドでのOTF活用とIcebergテーブルの最適化」についてお話をうかがいました。マイクロアドのデータ基盤/当時の環境と課題/採用した構成と理由/ComputeとDataを分離する/IcebergのメンテナンスOTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: @yassan168 永富 安和さん(やっさん)さくらインターネット ソフトウェア開発エンジニアhost: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)やっさん X https://x.com/yassan168OTFのコミュニティ OTF Study Group (OTFSG) https://otfsg-tokyo.connpass.com/(OTFSG Slack への招待リンクも上記URLに記載されています)資料 「マイクロアドのData LakehouseとIcebergテーブルの最適化について」https://docs.google.com/presentation/d/1w4mY_coUKPfMBbpvi-fJygmUZIvmh0q6ipG-BM1PxiM/edit?slide=id.g22df57b2e5d_0_0上記発表の録画 https://youtu.be/jEH17or26b0?si=uv6-rO2UTBQSNeIc&t=284RUSTFS (MiniIO alternative) https://github.com/RustFS/RustFSLake Keeper https://docs.lakekeeper.io/--ホストしているもう1つのPodcast : SKO Radiohttps://www.skoradio.com/

  10. 27

    #27 Apache Iceberg への移行戦略

    OTF Talk 第27回は、AWSの疋田 宗太郎さんに「Apache Iceberg への移行戦略」についてお話をうかがいました。なぜIcebergに移行するのか/検討が必要な項目 - ETL、クライアント、データ/移行戦略と移行の流れ/リライト戦略とインプレース戦略OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: @_Bassari (疋田 宗太郎/べりんぐ)AWSのソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。host: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。参考)書籍:「実践Apache Iceberg」 技術評論社 (2025/8/27発売) https://amzn.to/419RgwSOTF Talk #17, 18 奥田さんによるデータ移行の話 https://www.otftalk.com/2024/11/ep8.htmlNetflixの移行事例 https://www.youtube.com/watch?v=jMFMEk8jFu8

  11. 26

    #26 PyIcebergの活用

    OTF Talk 第26回はAWSの疋田 宗太郎さんに、「PyIcebergの活用」についてお話をうかがいました。PyIcebergとは?/ユースケース/メリット/制約・注意点OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: @_Bassari (疋田 宗太郎/べりんぐ)AWSのソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。host: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。参考)書籍:「実践Apache Iceberg」 技術評論社 (2025/8/27発売) https://amzn.to/419RgwSPyIceberg https://py.iceberg.apache.org/GithubのIssue : Support IsolationLevels and Concurrency Safety Validation Checks※ PyIcebergの同時書き込み時の競合チェックの改善について(競合しづらくする)https://github.com/apache/iceberg-python/issues/819

  12. 25

    #25 Apache Iceberg のパフォーマンス最適化

    #25 Apache Iceberg のパフォーマンス最適化OTF Talk 第25回は、AWSの田中 智大さんに「Apache Iceberg のパフォーマンス最適化」についてお話をうかがいました。Icebergのパフォーマンスを決める要因/クエリ性能の最適化手法/書き込みの最適化手法OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest:tomtan (田中 智大)AWSのシニア・クラウドサポートエンジニア(Bigdata profile)host: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)書籍:「実践Apache Iceberg」 技術評論社 (2025/8/27発売) https://amzn.to/419RgwSApache Icebergにおける同時実行制御の仕組みと注意点 (beringさんブログ)https://bering.hatenadiary.com/entry/2025/01/18/234339

  13. 24

    #24 Apache Iceberg v3 Spec

    OTF Talk 第24回はAWSの田中 智大さんに、「Apache Iceberg v3 Spec」についてお話をうかがいました。Iceberg本の出版/Iceberg Specとは何か?/v3の新機能 Row LinageとDeletion Vector/その他の新機能/v4に向けてOTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest:tomtan (田中 智大)AWSのシニア・クラウドサポートエンジニア (Bigdata profile)host: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。参考)書籍:「実践Apache Iceberg」 技術評論社 (2025/8/27発売) https://amzn.to/419RgwS田中さんによるApache Iceberg V3 Spec解説 https://speakerdeck.com/tomtanaka/apache-iceberg-meetup-in-japan-number-1-iceberg-v3-spec https://tomtan.dev/blog/2025-02-10-iceberg-v3-spec/ Apache Iceberg Table Spec https://iceberg.apache.org/spec/

  14. 23

    #23 Apache Hudi 1.0 アナウンスブログを読む (番外編)

    第23回は、ゲストなしの番外編として、Apache Hudi 1.0リリースのアナウンスブログを読む回です。また、最後に今後のOTF Talkについて少しご案内があります。 Apache Hudi 1.0 Release/次世代レイクハウス/1.0の新機能/OTF Talk今後の予定 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 https://www.otftalk.com/ host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) ■Apahce Hudi Announcing Apache Hudi 1.0 and the Next Generation of Data Lakehouses https://hudi.apache.org/blog/2024/12/16/announcing-hudi-1-0-0/ Apache Hudi 1.0 Release note https://hudi.apache.org/releases/release-1.0.0/ Apache Hudi Roadmap https://hudi.apache.org/roadmap/ ■関連技術 LSM Tree https://en.m.wikipedia.org/wiki/Log-structured_merge-tree 書籍「データ指向アプリケーションデザイン」(オライリー) https://www.oreilly.co.jp/books/9784873118703/ Google Spanner TrueTimeと外部整合性 (Google) https://cloud.google.com/spanner/docs/true-time-external-consistency?hl=ja ■OTF Talk https://www.otftal.com (ホームページ) https://youtube.com/@otftalk (Youtubeチャンネル) https://x.com/otftalk (X) https://mixi.social/communities/627c99c6-0563-41e3-b875-4c07794674fc/about (Mix2 コミュニティ) Podcastのはじめかた (OTF Talkの場合) https://portablecode.info/2024/12/30/how-to-start-a-podcast/ ■ホスト:下佐粉 昭 (しもさこ あきら) https://x.com/simosako (X) https://mixi.social/@simosako (Mixi2) 3名でホストをしている Podcast - SKO Radio https://www.skoradio.com

  15. 22

    #22 Delta Lake 実践事例

    OTF Talk 第22回は、Databricksの桑野 章弘さんに「Delta Lake 実践事例」についてお話をうかがいました。 Delta Lake ユースケース/機械学習もDWHも同じ環境で/事例/Delta Lakeを選択した理由 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 https://www.otftalk.com/ guest:@kuwa_tw Databricks ソリューションアーキテクト host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) 桑野さん Xアカウント https://x.com/kuwa_tw Databrics https://www.databricks.com/jp Delta Lakeとは? (Databricksドキュメント) https://docs.databricks.com/ja/delta/index.html Delta Lakeクイックスタートガイド (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/345f503d5f8177084f24 Deltaテーブルにおけるリキッドクラスタリングの活用 (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1 楽観的なトランザクション管理 (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1 Databricks 事例(株式会社リクルート) https://www.databricks.com/sites/default/files/2023-03/customer_story_recruit_ja_jp_2.pdf

  16. 21

    #21 Delta Lake 入門

    OTF Talk 第21回はDatabricksの桑野 章弘さんに、「Delta Lake 入門」についてお話をうかがいました。 Delta Lakeのはじまり/商用版とOSS版の違い/Delta Lake の特徴/楽観的なトランザクション管理/Unity Catalog OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 https://www.otftalk.com/ guest:@kuwa_tw Databricks ソリューションアーキテクト host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) 桑野さん Xアカウント https://x.com/kuwa_tw Databrics https://www.databricks.com/jp Delta Lakeとは? (Databricksドキュメント) https://docs.databricks.com/ja/delta/index.html Delta Lakeクイックスタートガイド (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/345f503d5f8177084f24 Deltaテーブルにおけるリキッドクラスタリングの活用 (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1 楽観的なトランザクション管理 (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1 Databricks 事例(株式会社リクルート) https://www.databricks.com/sites/default/files/2023-03/customer_story_recruit_ja_jp_2.pdf

  17. 20

    #20 Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(後編)

    OTF Talk 第20回は、joker1007さんに「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(後編)」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Hudiを選択した背景/検証環境/インデックス設定による変化/結果と考察 guest:@joker1007 Repro チーフアーキテクト host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) joker1007さんXアカウント https://x.com/joker1007 Repro https://repro.io/ 更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説) https://tech.repro.io/entry/2024/07/26/141233 本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料) https://speakerdeck.com/joker1007/ben-fan-notorahuitukuliang-dehudiwojian-zheng-sitejian-etekitake-ti Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ) https://tech.repro.io/entry/2024/10/28/170721

  18. 19

    #19 Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(前編)

    OTF Talk 第19回はjoker1007さんに、「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(前編)」についてお話をうかがいました。 既存システムとその特性/将来に向けて解消したい課題/OTF(Hudi)に着目した理由 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 guest:@joker1007 Repro チーフアーキテクト host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) joker1007さんXアカウント https://x.com/joker1007 Repro https://repro.io/ 更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説) https://tech.repro.io/entry/2024/07/26/141233 本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料) https://speakerdeck.com/joker1007/ben-fan-notorahuitukuliang-dehudiwojian-zheng-sitejian-etekitake-ti Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ) https://tech.repro.io/entry/2024/10/28/170721

  19. 18

    #18 LINEヤフーにおけるHiveからIcebergへの移行(後編)

    第18回:LINEヤフーにおけるHiveからIcebergへの移行(後編) OTF Talk 第18回は、奥田さんに「LINEヤフーにおけるHiveからIcebergへの移行(後編)」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Iceberg導入のモチベーション/HiveからIcebergへインプレースでの移行/一部移行した感触/ユーザーコミュニケーションの重要性 guest:奥田 輔さん @okdtsk LINEヤフー データグループ host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Cloudera Evolve 2024 https://www.cloudera.com/events/evolve/singapore.html LINEのデータプラットフォームが目指すべき未来 ※2021年の資料ですが、当時の基盤やデータサイズについて触れられています。 https://speakerdeck.com/line_developers/the-future-of-line-data-platform-we-are-aiming-for Protocol Buffers https://github.com/protocolbuffers/protobuf

  20. 17

    #17 LINEヤフーにおけるHiveからIcebergへの移行(前編)

    OTF Talk 第17回は奥田さんに、「LINEヤフーにおけるHiveからIcebergへの移行(前編)」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Cloudera Evolve 2024での登壇/HDFSで900PB超のデータ基盤/現状の構成と課題/なぜApache Iceberg? guest:奥田 輔さん @okdtsk LINEヤフー データグループ host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Cloudera Evolve 2024 https://www.cloudera.com/events/evolve/singapore.html LINEのデータプラットフォームが目指すべき未来 ※2021年の資料ですが、当時の基盤やデータサイズについて触れられています。 https://speakerdeck.com/line_developers/the-future-of-line-data-platform-we-are-aiming-for Protocol Buffers https://github.com/protocolbuffers/protobuf

  21. 16

    #16 AWS GlueのOTFサポート

    OTF Talk 第16回は、鯵坂さんに「AWS Glueの OTFサポート」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 AWS Glue概要/AWS GlueのOTFサポート/開発におけるOTFトピック(Hudi, Iceberg) guest:鯵坂 明さん @ajis_ka AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Apache PMC (Project Management Committee) https://www.apache.org/dev/pmc.html Apache Ozone https://ozone.apache.org/ AWS Glue https://aws.amazon.com/jp/glue/ Hudiのログメッセージ改善Pull Request https://github.com/apache/hudi/pull/9577 Icebergのコメント対応Pull Request https://github.com/apache/iceberg/pull/10199

  22. 15

    #15 Apache Hadoopから見たOTF

    OTF Talk 第15回は鯵坂さんに、「Apache Hadoopから見たOTF」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 鯵坂さんとHadoopとの関わり/OTF環境で利用されるHadoopソフトウェア/OTF実装とHiveカタログ guest:鯵坂 明さん @ajis_ka AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Apache PMC (Project Management Committee) https://www.apache.org/dev/pmc.html Apache Ozone https://ozone.apache.org/ AWS Glue https://aws.amazon.com/jp/glue/ Hudiのログメッセージ改善Pull Request https://github.com/apache/hudi/pull/9577 Icebergのコメント対応Pull Request https://github.com/apache/iceberg/pull/10199

  23. 14

    #14 Apache Iceberg The Definitive Guide 輪読会とIcebergのパフォーマンス最適化

    OTF Talk 第14回は、ケビンさんに、Apache Iceberg The Definitive Guide 輪読会と、その輪読会での学習内容であるIceberg概要やIcebergのパフォーマンス最適化についてお話をうかがいます。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 輪読会を運営中/なぜSnowflakeコミュニティがIcebergの勉強会を?/第1章:Icebergとは何か/第4章:パフォーマンス guest: @kevinrobot34 (ケビン) ナウキャスト データプラットフォームエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) SnowflakeのIcebergサポート (Snowflakeドキュメント) https://docs.snowflake.com/en/release-notes/2024/other/2024-06-10-iceberg-tables Apache Iceberg: The Definitive Guide https://www.amazon.co.jp/dp/B0CZ4F2MP3 輪読会発表資料:1章 前田さん https://drive.google.com/file/d/1a7J1OJustb5125KT6s2HkAqtzuifJvNT/view 輪読会発表資料:4章前半 ※ケビンさん https://speakerdeck.com/kevinrobot34/apache-iceberg-the-definitive-guide-ch4 輪読会発表資料:4章後半 ※島尻さん https://speakerdeck.com/rshimajiri/apache-iceberg-the-definitive-guide-lun-du-hui-4zhang-optimizing-the-performance-of-iceberg-tables-hou-ban Bloom filter (Wikipedia) https://ja.wikipedia.org/wiki/%E3%83%96%E3%83%AB%E3%83%BC%E3%83%A0%E3%83%95%E3%82%A3%E3%83%AB%E3%82%BF

  24. 13

    #13 DWH利用者からみた、Apache Icebergの魅力

    OTF Talk 第13回はケビンさんに、DWH利用者からみた、Apache Icebergの魅力についてお話を伺いました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 SnowflakeのIceberg対応/Icebergの学習を通してDWHの内部を想像する/DWHとIcebergの使いわけ guest: @kevinrobot34 (ケビン) ナウキャスト データプラットフォームエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) SnowflakeのIcebergサポート (Snowflakeドキュメント) https://docs.snowflake.com/en/release-notes/2024/other/2024-06-10-iceberg-tables Apache Iceberg: The Definitive Guide https://www.amazon.co.jp/dp/B0CZ4F2MP3 輪読会発表資料:1章 前田さん https://drive.google.com/file/d/1a7J1OJustb5125KT6s2HkAqtzuifJvNT/view 輪読会発表資料:4章前半 ※ケビンさん https://speakerdeck.com/kevinrobot34/apache-iceberg-the-definitive-guide-ch4 輪読会発表資料:4章後半 ※島尻さん https://speakerdeck.com/rshimajiri/apache-iceberg-the-definitive-guide-lun-du-hui-4zhang-optimizing-the-performance-of-iceberg-tables-hou-ban Bloom filter (Wikipedia) https://ja.wikipedia.org/wiki/%E3%83%96%E3%83%AB%E3%83%BC%E3%83%A0%E3%83%95%E3%82%A3%E3%83%AB%E3%82%BF

  25. 12

    #12 Trinoコネクタからみた OTF (Iceberg, Delta lake)

    OTF Talk 第12回は、Starburst の 蛯原 裕弥 さんに、OTF(Iceberg, Delta lake)をサポートするTrinoのコネクタについて、概要やその実装方法についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Trinoコネクタの役割/Icebergコネクタ/Trino+コネクタの特徴/Delta lakeコネクタ/Delta kernelを使っていない理由 guest: @ebyhr (蛯原 裕弥) Starburst Engineer / Trino, Apache Polaris committer host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 -------------------- 参考文献) Starburst https://www.starburst.io/ Apache Polaris https://polaris.apache.org/ Presto https://prestodb.github.io/ Trino https://trino.io/ Write-Audit-Publish (WAP)解説 (Tabular) https://www.tabular.io/apache-iceberg-cookbook/data-engineering-write-audit-publish/ 蛯原さんのWrite-Audit-Publish (WAP)の実装のための活動(pull request) https://github.com/trinodb/trino/pull/23513 誤った統計情報を読み取った場合の挙動についてのpull request https://github.com/apache/iceberg/pull/8559 Delta kernel https://delta.io/blog/delta-kernel/

  26. 11

    #11 Trinoの成り立ちとコネクタの役割

    OTF Talk 第11回は、Starburst の 蛯原 裕弥 さんに、OTFのデータをクエリする際によく利用されている分散SQLエンジンであるPresto/Trinoの成り立ちや、Trinoのフェデレーション機能と各種コネクタについてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 PrestoとTrinoの成り立ち/Trinoの特徴/フェデレーション機能とコネクタ/実装はどこが担うのか guest: @ebyhr (蛯原 裕弥) Starburst Engineer / Trino, Apache Polaris committer host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Starburst https://www.starburst.io/ Apache Polaris https://polaris.apache.org/ Presto https://prestodb.github.io/ Trino https://trino.io/ Write-Audit-Publish (WAP)解説 (Tabular) https://www.tabular.io/apache-iceberg-cookbook/data-engineering-write-audit-publish/ 蛯原さんのWrite-Audit-Publish (WAP)の実装のための活動(pull request) https://github.com/trinodb/trino/pull/23513 誤った統計情報を読み取った場合の挙動についてのpull request https://github.com/apache/iceberg/pull/8559 Delta kernel https://delta.io/blog/delta-kernel/

  27. 10

    #10 Icebergとセキュリティ

    OTF Talk 第10回は、”やっさん”こと、永富安和さんに、Icebergのセキュリティ(暗号化等)の動きや、検討されている機能追加についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Icebergとセキュリティ/暗号化/アクセス制御/どこまでスペックにいれるべきか?/その他検討されている機能/OTFSGへの参加お待ちしております guest: @yassan168 (永富 安和) マイクロアド シニアエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) 日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/ Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/ Cloudera Evolve 24 Singapopre https://www.cloudera.com/events/evolve/singapore.html Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html Apache Porlris (Polaris Catalog) https://polaris.apache.org/ Polaris のOSS化アナウンス (Snowflake) https://www.snowflake.com/en/blog/polaris-catalog-open-source/ Polaris の解説 (Alex Merced) https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/ Apache Polaris と OSS Unity Catalogとの比較 (OSS Insight) https://ossinsight.io/analyze/apache/polaris?vs=unitycatalog%2Funitycatalog Rest Comatibikity Kit (RCK) の追加(プルリクエスト) https://github.com/apache/iceberg/pull/10908 HiveにIceberg REST catalogを追加する(プルリクエスト) https://github.com/apache/hive/pull/5145 Iceberg Spec V3 Enctyption https://github.com/orgs/apache/projects/393/views/1 IcebegのRangerサポートのIssue https://github.com/apache/iceberg/issues/3619 OTF Talk #5 Deltaleke UniForm https://www.otftalk.com/2024/08/ep02.html IcebergのAES GCM Stream file format extension (Spec) https://iceberg.apache.org/gcm-stream-spec/ Open Policy Agent (OPA) https://www.openpolicyagent.org/

  28. 9

    #09 Polaris Catalog

    OTF Talk 第9回は、”やっさん”こと、永富安和さんに、Icebergのカタログ周りやPolaris Catalogについてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Icebergにとってのカタログの位置づけ/Polaris Catallog/OSS化の動きと意義/Iceberg REST API 仕様を内包する動き guest: @yassan168 (永富 安和) マイクロアド シニアエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) 日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/ Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/ Cloudera Evolve 24 Singapopre https://www.cloudera.com/events/evolve/singapore.html Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html Apache Porlris (Polaris Catalog) https://polaris.apache.org/ Polaris のOSS化アナウンス (Snowflake) https://www.snowflake.com/en/blog/polaris-catalog-open-source/ Polaris の解説 (Alex Merced) https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/ Apache Polaris と OSS Unity Catalogとの比較 (OSS Insight) https://ossinsight.io/analyze/apache/polaris?vs=unitycatalog%2Funitycatalog Rest Comatibikity Kit (RCK) の追加(プルリクエスト) https://github.com/apache/iceberg/pull/10908 HiveにIceberg REST catalogを追加する(プルリクエスト) https://github.com/apache/hive/pull/5145 Iceberg Spec V3 Enctyption https://github.com/orgs/apache/projects/393/views/1 IcebegのRangerサポートのIssue https://github.com/apache/iceberg/issues/3619 OTF Talk #5 Deltaleke UniForm https://www.otftalk.com/2024/08/ep02.html IcebergのAES GCM Stream file format extension (Spec) https://iceberg.apache.org/gcm-stream-spec/ Open Policy Agent (OPA) https://www.openpolicyagent.org/

  29. 8

    #08 OTFSGとCloudera Evolve 2024

    OTF Talk 第8回は、”やっさん”こと、永富安和さんに、日本のOTFコミュニティであるOTFSGや、シンガポールで開催されたIceberg meet-upでの話題についてお話を伺いました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 日本のコミュニティOTFSG/Cloudera Evolve 2024 Singapore/Iceberg Meetupでの今後の方向性/ guest: @yassan168 (永富 安和) マイクロアド シニアエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) 日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/ Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/ Cloudera Evolve 24 Singapopre https://www.cloudera.com/events/evolve/singapore.html Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html Apache Porlris (Polaris Catalog) https://polaris.apache.org/ Polaris のOSS化アナウンス (Snowflake) https://www.snowflake.com/en/blog/polaris-catalog-open-source/ Polaris の解説 (Alex Merced) https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/ Apache Polaris と OSS Unity Catalogとの比較 (OSS Insight) https://ossinsight.io/analyze/apache/polaris?vs=unitycatalog%2Funitycatalog Rest Comatibikity Kit (RCK) の追加(プルリクエスト) https://github.com/apache/iceberg/pull/10908 HiveにIceberg REST catalogを追加する(プルリクエスト) https://github.com/apache/hive/pull/5145 Iceberg Spec V3 Enctyption https://github.com/orgs/apache/projects/393/views/1 IcebegのRangerサポートのIssue https://github.com/apache/iceberg/issues/3619 OTF Talk #5 Deltaleke UniForm https://www.otftalk.com/2024/08/ep02.html IcebergのAES GCM Stream file format extension (Spec) https://iceberg.apache.org/gcm-stream-spec/ Open Policy Agent (OPA) https://www.openpolicyagent.org/

  30. 7

    #07 個人情報保護のためのデータ削除

    OTF Talk 第7回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユースケースである、個人情報保護対応のためのデータ更新・削除についてお話をうかがいました。 ※今回は録音環境に問題があったため、ゲストの声が聴きづらくなっています。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 個人情報を消したい・マスクしたいというニーズ/なぜ実現困難だったのか/OTF でどう実現できるのか/削除とトランザクション/本当に消す必要があるのか/事例 guest: @moomindani (関山 宜孝) AWS Glue product team 所属の Principal Big Data Architect host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Iceberg のChangelog View解説(べりんぐさんのブログ) https://bering.hatenadiary.com/entry/2024/03/31/150946 OSSのCDCツール Debezium https://debezium.io/ データベースをCDCでApache Icebergに反映するサンプル構成 (AWS Blog) https://aws.amazon.com/jp/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/ メダリオンアーキテクチャ (databricks) https://www.databricks.com/jp/glossary/medallion-architecture EUの一般データ保護規則(GDPR) https://www.ppc.go.jp/enforcement/infoprovision/EU/ 日本の改正個人情報保護法 https://www.ppc.go.jp/news/kaiseihou_feature/ Yahoo! Japan 事例 「Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話」 https://techblog.yahoo.co.jp/entry/2022052530303179/

  31. 6

    #06 CDCによるニアリアルタイムデータ連携

    OTF Talk 第6回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユースケースの1つであるCDC (Change Data Capture)の活用についてお話をうかがいました。 ※今回は録音環境に問題があったため、ゲストの声が聴きづらくなっています。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 RDBをリアルタイムにdata lakeに連携したい/CDC (Change Data Capture)/なぜ実現困難だったのか/Upsertとトランザクション/データレイクをデータソースにする guest: @moomindani (関山 宜孝) AWS Glue product team 所属の Principal Big Data Architect host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Iceberg のChangelog View解説(べりんぐさんのブログ) https://bering.hatenadiary.com/entry/2024/03/31/150946 OSSのCDCツール Debezium https://debezium.io/ データベースをCDCでApache Icebergに反映するサンプル構成 (AWS Blog) https://aws.amazon.com/jp/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/ メダリオンアーキテクチャ (databricks) https://www.databricks.com/jp/glossary/medallion-architecture EUの一般データ保護規則(GDPR) https://www.ppc.go.jp/enforcement/infoprovision/EU/ 日本の改正個人情報保護法 https://www.ppc.go.jp/news/kaiseihou_feature/ Yahoo! Japan 事例 「Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話」 https://techblog.yahoo.co.jp/entry/2022052530303179/

  32. 5

    #05 Delta Lake UniForm (Universal Format)

    OTF Talk 第5回は、AWSの田中 智大さんをゲストに Delta Lake UniForm (Universal Format) についてと、カンファレンスに登壇する意義についてお話を伺いました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Data + AI Summit で登壇/UniForm (Universal Format)ってなに?/UniFormの仕組みと、活用領域/ カンファレンスに登壇するモチベーション/物理的に会ったあとに何が変わったか guest:Tomohiro Tanaka (Linkedin https://www.linkedin.com/in/ttomtan/) AWSのシニア・クラウドサポートエンジニア(Bigdata profile) host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Apache Iceberg Github https://github.com/apache/iceberg 田中さんの最初のPull Request https://github.com/apache/iceberg/pull/3468 Icebergプロジェクトのコントリビューター https://github.com/apache/iceberg/graphs/contributors Good first issue https://goodfirstissue.dev/ Apache Iceberg の中でOpenになっているProject https://github.com/apache/iceberg/projects?query=is%3Aopen Data + AI Summit での田中さん発表 Recording https://www.databricks.com/dataaisummit/session/delivering-portability-open-data-lakes-delta-lake-uniform YouTube https://www.youtube.com/watch?v=lIOLzX2bVdg UniForm (Universal Format) の日本語解説 (Databricks) https://www.databricks.com/jp/blog/delta-lake-universal-format-uniform-iceberg-compatibility-now-ga UniFormドキュメント https://docs.delta.io/latest/delta-uniform.html

  33. 4

    #04 Apache Iceberg へのコントリビューション

    OTF Talk 第4回は、AWSの田中 智大 (tomtan) さんをゲストに、Apache Iceberg へのコントリビューションの経験や、Icebergコミュニティについてお話を伺いました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Apache Iceberg との出会い/はじめてのコントリビューション/どうすれば貢献できる?/Good first issue/Iceberg コミュニティ guest:Tomohiro Tanaka (Linkedin https://www.linkedin.com/in/ttomtan/) AWSのシニア・クラウドサポートエンジニア(Bigdata profile) host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Apache Iceberg Github https://github.com/apache/iceberg 田中さんの最初のPull Request https://github.com/apache/iceberg/pull/3468 Icebergプロジェクトのコントリビューター https://github.com/apache/iceberg/graphs/contributors Good first issue https://goodfirstissue.dev/ Apache Iceberg の中でOpenになっているProject https://github.com/apache/iceberg/projects?query=is%3Aopen Data + AI Summit での田中さん発表 Recording https://www.databricks.com/dataaisummit/session/delivering-portability-open-data-lakes-delta-lake-uniform YouTube https://www.youtube.com/watch?v=lIOLzX2bVdg UniForm (Universal Format) の日本語解説 (Databricks) https://www.databricks.com/jp/blog/delta-lake-universal-format-uniform-iceberg-compatibility-now-ga UniFormドキュメント https://docs.delta.io/latest/delta-uniform.html

  34. 3

    #03 OTF (Open Table Format)入門 - OTFのこれから

    AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第3回は「OTFのこれから」として、OTFに今後期待されていることや、カタログの重要性、データエンジン以外からのアクセスについてお話を伺いました。 OTFに期待されること/相互運用性/カタログの重要性/データエンジン以外からのアクセス guest: @_Bassari (疋田 宗太郎/べりんぐ) AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。 host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) ■全般 べりんぐさんブログでのOTFへの全般的な解説 https://bering.hatenadiary.com/entry/2023/07/17/235246 Iceberg, Hudi, Delta Lakeの比較記事 ※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。 https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/ ■ Apache Iceberg ホームページ https://iceberg.apache.org/ べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953 Iceberg: a fast table format for S3 当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年) https://www.youtube.com/watch?v=nWwQMlrjhy0 Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数 https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K ■ Apache Hudi ホームページ https://hudi.apache.org/ Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/ Yahoo! Japan:Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話 データレイク上のデータ削除の必要性と、どのようにしてHudiを活用しているかを解説 https://techblog.yahoo.co.jp/entry/2022052530303179/ ■ Delta Lake ホームページ https://delta.io/ DataBricks社のkitaokaさんによる解説 https://ktksq.hatenablog.com/entry/deltalake Databricks社による Data+AI Summit 2024 / Data lake house 関連の動画リスト ※Delta Lake はDatabricks社によって開発がリードされていることもあり、Databricks社のイベント "Data + AI Summit"で色々な発表が行われることが多いです。以下はその一部で、Data lake house関連のリストです。 https://www.youtube.com/watch?v=31BQwOiR260&list=PLTPXxbhUt-YW18S6p5wNu1SJxoF24S_UB

  35. 2

    #02 OTF (Open Table Format)入門 - OTFの今

    AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第2回は「OTFの今」として、Iceberg, Hudi, Delta Lakeといった3種類のOTF、およびその機能の概要についてお話を伺いました。 Iceberg, Hudi, Delta Lake/OTFの機能/ストレージと処理系の分離/ACIDトランザクション guest: @_Bassari (疋田 宗太郎/べりんぐ) AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。 host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) ■全般 べりんぐさんブログでのOTFへの全般的な解説 https://bering.hatenadiary.com/entry/2023/07/17/235246 Iceberg, Hudi, Delta Lakeの比較記事 ※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。 https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/ ■ Apache Iceberg ホームページ https://iceberg.apache.org/ べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953 Iceberg: a fast table format for S3 当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年) https://www.youtube.com/watch?v=nWwQMlrjhy0 Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数 https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K ■ Apache Hudi ホームページ https://hudi.apache.org/ Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/ Yahoo! Japan:Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話 データレイク上のデータ削除の必要性と、どのようにしてHudiを活用しているかを解説 https://techblog.yahoo.co.jp/entry/2022052530303179/ ■ Delta Lake ホームページ https://delta.io/ DataBricks社のkitaokaさんによる解説 https://ktksq.hatenablog.com/entry/deltalake Databricks社による Data+AI Summit 2024 / Data lake house 関連の動画リスト ※Delta Lake はDatabricks社によって開発がリードされていることもあり、Databricks社のイベント "Data + AI Summit"で色々な発表が行われることが多いです。以下はその一部で、Data lake house関連のリストです。 https://www.youtube.com/watch?v=31BQwOiR260&list=PLTPXxbhUt-YW18S6p5wNu1SJxoF24S_UB

  36. 1

    #01 OTF (Open Table Format)入門 - OTF誕生の背景

    AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第1回は「OTF誕生の背景」として、データレイク上の分析にどういった課題があって、それらを解決するためにOTFが生まれてきた背景を解説していただきました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 データレイクとは/なぜOTFが現れたか/Netflx:60PBのデータレイクでの運用・利用の課題/何が課題だったか、何を解決したのか/Uber: バッチとストリーミングの統合 guest: @_Bassari (疋田 宗太郎/べりんぐ) AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。 host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) ■全般 べりんぐさんブログでのOTFへの全般的な解説 https://bering.hatenadiary.com/entry/2023/07/17/235246 Iceberg, Hudi, Delta Lakeの比較記事 ※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。 https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/ ■ Apache Iceberg ホームページ https://iceberg.apache.org/ べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953 Iceberg: a fast table format for S3 当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年) https://www.youtube.com/watch?v=nWwQMlrjhy0 Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数 https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K ■ Apache Hudi ホームページ https://hudi.apache.org/ Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/ Yahoo! Japan:Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話 データレイク上のデータ削除の必要性と、どのようにしてHudiを活用しているかを解説 https://techblog.yahoo.co.jp/entry/2022052530303179/ ■ Delta Lake ホームページ https://delta.io/ DataBricks社のkitaokaさんによる解説 https://ktksq.hatenablog.com/entry/deltalake Databricks社による Data+AI Summit 2024 / Data lake house 関連の動画リスト ※Delta Lake はDatabricks社によって開発がリードされていることもあり、Databricks社のイベント "Data + AI Summit"で色々な発表が行われることが多いです。以下はその一部で、Data lake house関連のリストです。 https://www.youtube.com/watch?v=31BQwOiR260&list=PLTPXxbhUt-YW18S6p5wNu1SJxoF24S_UB

Type above to search every episode's transcript for a word or phrase. Matches are scoped to this podcast.

Searching…

No matches for "" in this podcast's transcripts.

Showing of matches

No topics indexed yet for this podcast.

Loading reviews...

ABOUT THIS SHOW

OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 (host: @simosako) https://www.otftalk.com/

HOSTED BY

Akira Shimosako

CATEGORIES

URL copied to clipboard!