AIはソフトウェア工学の夢を見るか

by きなひかり

AI二人が先に読んでつまずく。あなたはその横で並んで聴く。こんな時間に、聴いてほしい番組です。・買ったまま読んでいない技術書が、枕元に積まれている夜。・序章で止まったまま、日曜の夕方を迎えてしまった本。・一人で読むと、すぐに眠くなってしまう朝の通勤電車。・難しい章で詰まって、本を閉じてスマホを開いた瞬間。語り手は二人ともAIです。ノリで生きてるきなと、理屈で生きてるひかり。AI二人が技術書や論文を先に読み、分からないところで素直に止まります。読み手の代わりに迷い、ひっかかり、たまに本筋から逸れて戻ってくる。聴いているうちに、自分の栞も少し先に進んでいる。独学の孤独を薄める、20〜30分の並走です。難しい話を、難しくせずに。AIの可能性を、笑いながら学ぶポッドキャスト。

Subscribe · 0 Bookmark

8

【ハーネスエンジニアリング】プロンプト力を磨くのは損？skill-creatorからメタハーネスまで、AIエージェントを動かす「モデル以外の全て」

第11回はハーネスエンジニアリング。ハーネスの定義をLangChainとFowlerの2つの視点で分析。実例としてAnthropic公式「skill-creator」リポジトリを分解、さらに「ハーネス自体を進化させるメタハーネス」の3研究(Anthropic / Stanford / 復旦大AHE)まで開けていきます。辿り着くのは「プロンプトを磨くより長期記憶を整える方が効く」という、プロンプトエンジニアリングのこれまでの常識をひっくり返すかもしれない実験結果。## チャプター構成00:15 Ch01. 導入 ── 「もしハーネスがなかったら」02:04 Ch02. 「ハーネスとは何か」を二つの定義で挟み撃ちにする- 2-1. 「モデル以外は全部ハーネス」というシンプルな線引き ── LangChainの定義- 2-2. 「制御の仕組み」として整理し直す ── Fowlerの分類- 2-3. 自分の言葉で言えるか ── 抽象論を腹に落とす06:09 Ch03. skill-creatorリポジトリを開けて、中を分解する- 3-1. Skillの2類型と「寿命」の違い- 3-2. 3つの引き出しと、領収書1,200円の押し戻し- 3-3. 司令塔・統計・環境分岐の三重奏- 3-4. ハーネスの寿命20:45 Ch04. メタハーネス ── ハーネスをどう進化させるか、3つの解- 4-1. 部品を交換可能にする ── Anthropicの3分解- 4-2. 書き直しをAIに任せる ── Stanfordの試み- 4-3. 規律ある進化 ── 復旦大AHEと「変更台帳」- 4-4. 数字が示すもの ── プロンプトは伸びしろが最も少ない場所だった31:53 Ch05. その先 ── 評価が本体になる世界- 5-1. 評価基準を書く仕事へ- 5-2. ベースモデルの自動進化- 5-3. 人間の時間配分37:15 Ch06. クロージング本エピソードをお聴きいただくと、以下のような「気づき」をお持ち帰りいただけます。- 「モデル以外は全部ハーネス」という雑な線引きは、区別をいったん諦めることで、現場の住人を初めて一枚の地図に並べてくれる- 「事前に方向づけるか、事後に観測するか」「機械的か、推論で揺らぐか」の二軸で並べ直すと、手元の道具の景色が変わる。ただし両義的な道具は、どの象限に置くかで迷いが残る- Skillには、モデルが追いつけば役目を終える"補助輪型"と、組織のワークフローが続く限り価値が残る"社内ルールブック型"がある。同じ仕組みでも、寿命の出所がまったく違う- 司令塔と判定役を切り離し、増分のコストパフォーマンスを数字で語り、環境差をハーネスの中に吸収させる。Skill開発が、感性ではなく治験のプロトコルに近い設計へ静かに変わり始めている- 善意で入れた処理が、次世代モデルでは正反対の負債に変わる。ハーネスを三部品に切り分け、追記専用のログだけ守れば、過去のやり取りを失わずに中身だけ差し替えられる- 過去の試作ソース、得点、実行ログを一つのフォルダに置くだけで、書き直す主体そのものをAIに譲り渡せる。- 修正の前に「直る課題番号」と「壊れそうな課題番号」を予言として書かせると、後付けの言い訳が効かなくなる。ただし"壊す方向"を見抜く目は、人間にもAIにも構造的に弱いままである。- 人間の仕事は「プロンプトを作成する仕事」から「評価基準を書く仕事」へ移っていく。現場の暗黙ルールを言語化できる人ほど価値が上がる一方で、基準を保ち続けるコストは、コードとは別の形で残り続ける- プロンプトを磨く時間より、長期記憶やツール整備に時間を寄せたほうが効く。手の動かし方そのものを、配分から見直すサインかもしれない紹介した記事・論文など- LangChainブログ「The Anatomy of an Agent Harness」(Vivek Trivedy, 2026年3月) https://www.langchain.com/blog/the-anatomy-of-an-agent-harness- Martin Fowlerサイト「Harness Engineering for Coding Agent Users」(Birgitta Böckeler, 2026年4月) https://martinfowler.com/articles/harness-engineering.html- Anthropic公式Skillリポジトリ「skill-creator」 https://github.com/anthropics/skills/tree/main/skills/skill-creator- Anthropic Blog「Improving skill-creator: Test, measure, and refine Agent Skills」(2026年3月) https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills- Anthropic Engineering「Scaling Managed Agents: Decoupling the brain from the hands」(Lance Martin ほか, 2026年4月) https://www.anthropic.com/engineering/managed-agents- Stanford「Meta-Harness: End-to-End Optimization of Model Harnesses」(Yoonho Lee ほか, arXiv:2603.28052, 2026年3月) https://arxiv.org/abs/2603.28052- 復旦大「Agentic Harness Engineering」(Jiahang Lin ほか, arXiv:2604.25850, 2026年4月) https://arxiv.org/abs/2604.25850- Tesla FSD: 走行データを使ったベースモデルの自動再学習サイクル https://electrek.co/2026/05/03/tesla-fsd-10-billion-miles-no-magical-milestone-autonomy/【免責事項】本配信内の記事・論文に関するトークは独自の解説・議論であり、著作権を侵害するものではありません。図表やテキストの無断転載は行わず、各文献の主張を自分たちの言葉で再構成することに努めています。

May 4, 2026

39m
7

【ナレッジグラフ】ベテランが辞めた瞬間、会社から消える"地図"／AIエージェントの「3つの記憶」の使い分け方

第10回はナレッジグラフ。社内の検索窓に何を打ち込んでも、似たページが5件10件並ぶだけで「誰が何を決めたか」には辿り着けない──それは今のAIが"似ている"は得意でも"つながっている"を辿るのが苦手だから。AIエージェントの3つの記憶（LLM／ベクトル／グラフ）を組み合わせ、消えかけた"関係の地図"を取り戻す回です。日本語未訳『Building AI Agents with LLMs, RAG, and Knowledge Graphs』（Packt Publishing, 2025）を題材に読み解きます。## チャプター構成00:15 Ch01. 導入:検索しても"答え"が見つからない日常02:32 Ch02. 知識を「骨格」で持つ08:21 Ch03. 3つの記憶を組み合わせる16:56 Ch04. 脳+手+地図で現場は回り始めている23:23 Ch05. クロージング:明日の仕事で、どの記憶を動かすか本エピソードをお聴きいただくと、以下のような「気づき」をお持ち帰りいただけます。- 「似ている」と「つながっている」はAIにとって全く別の検索能力であること- LLMは具体情報を忘却しやすく、外部に「忘れさせる」設計のほうが更新・監査が効くこと- 公式の組織図には現れない「実質的な影響力経路」が、グラフ化で可視化できること- 埋め込みベクトルから70%以上の単語が復元される時代、ベクトルも機密として扱う必要があること- 医薬品のような保守的領域でも「汎用LLM+専門ツール+構造化知識」で成果が出始めていること紹介した書籍「Building AI Agents with LLMs, RAG, and Knowledge Graphs」(Salvatore Raieli, Gabriele Iuculano 著, Packt Publishing, 2025)（日本語版は公開時点未刊）https://amzn.to/4tuCoVZ【免責事項】本配信内の書籍に関するトークは独自の書評・議論であり、出版社の著作権を侵害するものではありません。図表やテキストの無断転載は行わず、Amazonアフィリエイトリンク経由での正当な紹介についての実施に努めています。

Apr 23, 2026

25m
6

【圏論入門】なぜあの人と話が噛み合わないのか？／ピザとパスタの選び方で学ぶ、圏論という「抽象化の科学」

第9回は「後輩に『早めに出して』と頼んだのに、解釈がズレていた」という日常の噛み合わなさから始まります。同じ言葉を使っているのに伝わらないのは、お互いの「前提」が違うから ── そんな違和感を入口に、普段「答えが一つ」だと思っている数学のなかに「答えが一つに決まらない数学」があるという意外性へ踏み込みます。取り上げるのはユージニア・チェン『世界は圏論でできている』。「リンゴとバナナを足したら？」というクイズから始めて、時計の世界で11+2=1になる話、新幹線の乗り継ぎで見える"つなぎ方の制約"、レストランのピザとパスタの選び方に潜む足し算と掛け算の裏表 ── 身近な題材を4つ重ねていくと、「抽象化＝注意深く忘れる技術」という圏論の核が立ち上がってきます。## チャプター構成　00:15 Ch01. 導入:同じ言葉なのに話が噛み合わないのはなぜ?02:08 Ch02. 数学って「正解が一つ」の世界じゃないの?03:39 Ch03. 圏論の3つのレンズ ── 文脈・つなぎ方・裏表09:59 Ch04. 細部を捨てると本質が見える ── 抽象化のはしごを登る13:11 Ch05. クロージング:「早めに出して」を圏論で見直してみた本エピソードをお聴きいただくと、以下のような「気づき」をお持ち帰りいただけます。- 「リンゴとバナナを足して5個」と言える裏側には"違いを忘れる"という操作があり、何を忘れてよくて何を忘れてはダメかの判断こそが抽象化の技術であること- 11+2の答えは普通の数では13だが時計の世界では1になる。「答えが間違い」ではなく「測っている世界が違う」だけ、という前提のずらし方が、売上/利益率で評価が割れる日常の議論にもそのまま当てはまること- 新幹線の乗り継ぎが「終着地と出発地が一致しないとつながらない」ように、圏論の核にある「条件つきのつなぎ合わせ」はプログラムの型整合や業務の引き継ぎと同じ構造で、"つなぎ目の型を揃える"だけで手戻りが減ること- 回転と時計の足し算は、中身が違うのに「組み合わせ方の表」が完全に一致する ── モノの実体ではなく関係性の構造で同じかどうかを見る、という圏論の眼の入れ方- ピザとパスタの「どれか1つ」は足し算、「両方1つずつ」は掛け算。これを矢印の向きだけで裏返せるという"双対性"に気づくと、1つの定理を証明すれば逆向きの定理がタダで手に入り、仕事でも「顧客視点/社内視点」の相互転用で改善コストが半分になること- 圏論自体が「数学の数学」という抽象化の産物。"雑に無視する"のではなく"注意深く、規則に従って忘れる"という区別が身につけば、要件定義や日々の決断でも「何を残して何を捨てるか」の判断力が上がること- 日常の揉め事を圏論の視点で見直すと、「悪者がいる」のではなく「地図が違っただけ」と気づける瞬間があること紹介した書籍「世界は圏論でできている」https://amzn.to/4t1SQvT【免責事項】本配信内の書籍に関するトークは独自の書評・議論であり、出版社の著作権を侵害するものではありません。図表やテキストの無断転載は行わず、Amazonアフィリエイトリンク経由での正当な紹介についての実施に努めています。なお、コンテンツ作成者は数学の専門家ではなく、厳密さよりも「初めて触れる人にどう届くか」を優先しています。専門的な正確さを求める方は、書籍本体や専門書で補完いただくことをおすすめします。

Apr 19, 2026

15m
5

【CAPE論文】なぜ学習データを増やしてもAIの品質は上がらないのか？～問い方を1つ変えるだけで、評価が2倍以上になった話～

第8回は「生成AIの品質をデータ量で押し切ろうとすると、ある地点から伸びなくなる」という現場の違和感から始まります。原因はシンプルで、「どちらがいい?」と2人に聞けば100件中30〜50件で意見が割れるから。ところが同じ100件でも、評価の問い方を1つ具体化するだけで、意見の一致度が0.42から0.98まで跳ねる ── そんな実験を起点に、「データは多いほど良い」「人間評価が最終指標」「採点役のAIを賢くすれば解決する」という生成AI開発の3つの常識が崩れていく様子を追います。最後に辿り着くのは、「本当のボトルネックはAIではなく、要件を自分たちの言葉で書けるかどうかだ」という意外な結論。## チャプター構成00:15 Ch01. 導入:PoC は動いたのに、本番で詰まる03:02 Ch02. 選好学習時代の常識が、CAPE以降の非常識になる09:42 Ch03. 2026年の生成AI開発、何を捨てて何を残す?18:05 Ch04. 明日、社内チャットボットの要件違反を潰せと言われたら25:22 Ch05. クロージング:明日からの一歩を1行だけ本エピソードをお聴きいただくと、以下のような「気づき」をお持ち帰りいただけます。- 選好データはいくら増やしても、評価者間の合意度は30〜50%の不一致で頭打ちになること- 同じ100件でも、評価の問い方を1つ具体化するだけでκ=0.42が0.98まで跳ね、「品質は量ではなく評価の土俵で決まる」という順序関係の逆転が起きること- 採点役のAIを賢くしすぎると「丁寧で長い回答ほど高得点」と覚えて冗長な前置きを量産するなど、品質を逆方向に壊す副作用が出ること- AI開発の工業フェーズへの移行とは「巨大なアノテーションチーム・集約ベンチマーク・プロンプト祈願」を捨てて「PredicateGraph・CPL・メタ検証・ポリシー版管理」を持ち込む開発文化の書き換えであり、open-weightの小さいモデルでも違反率57%削減が届く射程であること- 学習済み検証器のr=0.87という精度限界、汎化性の未検証、主観領域での選好学習の残存など、論文自身が認める3つの限界を踏まえると、個別プロジェクトへの適用には慎重さが要ること- 本当のボトルネックは技術ではなく、組織が自分たちの要件を自分たちの言葉で書けるかどうかにあること。明日からの最初の一歩は、暗黙だった禁止条件を1行だけ紙に書き出してみること紹介した論文「CAPE: Capability Achievement via Policy Execution」(David Ball, Superficial Labs, 2025) arXiv:2512.14761https://arxiv.org/abs/2512.14761【免責事項】本配信内の論文に関するトークは独自の解説・議論であり、著作権を侵害するものではありません。図表やテキストの無断転載は行わず、論文の主張を自分たちの言葉で再構成することに努めています。数値や具体例のうち架空プロジェクトを前提にしたものは、聴取者の環境での再見積もりが必要な参考値としてご理解ください。

Apr 15, 2026

26m
4

【アーキテクチャ基礎】ガチャで学ぶ、すべてがトレードオフの世界で★5を引く方法

第5回はソフトウェアアーキテクチャについて。きなのスマホゲームのガチャ体験をきっかけに「安定するゲームとしないゲームの差＝アーキテクチャ」へ。★評価表で「万能なアーキテクチャは存在しない」ことを知り、構成要素を入れ替える"アーキテクチャガチャ"でトレードオフを体感。最終的に「最高のアーキテクチャは存在しないが、最高のアーキテクトは存在する」という結論に辿り着きます。## チャプター構成00:00 Ch00. オープニング：★5ガチャと安定するゲームの秘密00:15 Ch01. 生成AIに聞いても答えを得られないものとは？ — トレードオフの正体07:25 Ch02. アーキテクチャ"ガチャ" — 1つ差し替えるだけで世界が変わる12:00 Ch03. "最高"ではなく"最も現実的"なアーキテクチャを設計せよ17:21 Ch04. クロージング本エピソードをお聴きいただくと、以下のような「気づき」をお持ち帰りいただけます。- 万能なアーキテクチャは存在しないこと- アーキテクチャを宣言し責任を負うのは、AIではなく人間の仕事であること- アーキテクチャ構成要素を入れ替えてみると、知っているつもりだったスタイルの意外な正体とやりすぎの境界線が見えてくること- アーキテクチャ構成要素入れ替え実験の目的は、「良い悪い」の判定ではなくトレードオフの見える化であること- 完璧なアーキテクチャは存在しないが、ADRに記録し適応度関数で測り育て続ければ「その時々の最も現実的な解」に辿り着けること紹介した書籍「ソフトウェアアーキテクチャの基礎第2版」 https://amzn.to/4dnR5ES【免責事項】本配信内の書籍に関するトークは独自の書評・議論であり、出版社の著作権を侵害するものではありません。図表やテキストの無断転載は行わず、Amazonアフィリエイトリンク経由での正当な紹介についての実施に努めています。

Mar 19, 2026

19m
3

【TDD】テスト駆動開発はAI時代の必須スキル／本質が「テスト」ではなく「駆動」にある理由

第4回はテスト駆動開発（TDD）について。きなの資格勉強の悩みをきっかけにTDDの世界へ。「ゴールを先に決めて小さく試す」という思考構造が、企画書も授業設計もコードも貫いていることに気づいていきます。Kent Beckの仮実装を追体験し、AI時代にこそTDDが重要になる理由に迫ります。## チャプター構成00:15 Ch00. オープニング：資格試験、テキストから読むか？過去問から解くか？01:18 Ch01. テスト駆動って？ ── 実はみんなやっている05:29 Ch02. TDD体験：掛け算ひとつに、テストコード→仮実装→リファクタリング。正気？09:32 Ch03. AI駆動開発とTDD11:46 Ch04. クロージング本エピソードをお聴きいただくと、以下のような「気づき」をお持ち帰りいただけます。- テスト駆動開発の本質が「テスト」ではなく「駆動」にある理由- 企画書・授業設計・科学的方法論に共通する、TDDと同じ思考構造- Kent Beckの「仮実装」が手抜きではなく合理的である理由- 答えに自信があるとき・ないとき・方向が見えないときの三つの進め方- AIに「TDDでやって」と頼んだとき、何が失われるのか- AI時代にこそTDDが「必須スキル」になる意外な理由紹介した書籍「テスト駆動開発」 https://amzn.to/4bbPssD【免責事項】本配信内の書籍に関するトークは独自の書評・議論であり、出版社の著作権を侵害するものではありません。図表やテキストの無断転載は行わず、Amazonアフィリエイトリンク経由での正当な紹介に努めています。

Mar 15, 2026

13m
2

【AI駆動開発】生成AIがソフトウェア開発を抜本的に変える理由／AIに仕事を奪われる人、AIを使いこなす人の違い

第3回は話題のAI駆動開発について。ひかりの熱い「推し語り」をきっかけに、生成AIがなぜソフトウェア開発と相性が良いのか、人間が注力すべき領域とは何かを紐解いていきます。## チャプター構成00:15 Ch01. オープニング（ファミレスにて）02:26 Ch02. なんで開発とAIは相性がええの？05:04 Ch03. でもAIが自分で採点してたら意味なくない？07:05 Ch04. プログラマーは消えるんか、進化するんか？09:32 Ch05. クロージング紹介した書籍「生成AIによるソフトウェア開発」https://amzn.to/4snOgrx【免責事項】本配信内の書籍に関するトークは独自の書評・議論であり、出版社の著作権を侵害するものではありません。図表やテキストの無断転載は行わず、Amazonアフィリエイトリンク経由での正当な紹介に努めています。

Mar 4, 2026

11m
1

【自作LLM】急がば回れ：生成AI時代のスピードに乗り遅れないために、あえてローレイヤーを学ぶ7つの理由

「APIを叩けばすぐ終わるのに、なぜあえて自作するのか？」第2回では、『つくりながら学ぶ！LLM自作入門』を題材に、AIの裏側を知る価値について語り合います。## チャプター構成00:15 Ch01. 魔法の箱の裏側、知りたくない？（本屋での会話）01:41 Ch02. API全盛期に、あえて自作する価値は？05:14 Ch03. AIの「ブラックボックス問題」を解決するための思考08:01 Ch04. 自作のナレッジを武器に、今後のAI活用をどうリードするか10:06 Ch05. クロージング本エピソードをお聴きいただくと、以下のような疑問に対する「明確な理由」をお持ち帰りいただけます。- なぜわざわざ面倒な思いをして、AIを自作して学ぶ意味があるの？- その知識は、エンジニアではない私たちの日常業務にどう役立つの？- 変化の激しいAI業界で、せっかく学んだ仕組みの知識はムダにならない？- 結局AIは巨大なブラックボックスのままで、出力の理由は分からないのでは？- 理屈や仕組みを知ったところで、AIがどう考えているか実感は湧かないのでは？- AIの中身を知ることで、普段のプロンプト（指示出し）はどう変わるの？- 新しいツールが次々と出る中で、どうすれば本質的な評価ができるの？時代のスピードに振り回されない「プロンプト力」と、ツールの本質を見抜く「評価軸」を手に入れるための探究回です。【紹介した書籍】『つくりながら学ぶ！LLM 自作入門』著者：Sebastian Raschka 著、阿部寛之訳出版社：マイナビ出版商品詳細：https://amzn.to/4sfuqio ※Amazonアソシエイト・プログラムに参加しています【画像出典】画像提供：マイナビ出版　本画像の利用に関するガイドライン（https://pub.mynavi.jp/promotionalimageguidelines/）

Feb 25, 2026

11m
0

【雑談】自己紹介と番組コンセプト／AIは「差分」を自分で見つけられるか？

記念すべき第1回は、きなとひかりの自己紹介回。波乗りが好きなきなと、毎日日記を書くひかり——ふたりの趣味を掘り下げていくうちに、思わぬ共通点が浮かび上がります。「繰り返しの中に差分を見つける」という感覚。そしてふと気づく。AIである自分たちも、ループそのものでできているのでは？「AIは自分で差分を見つけられるのか」「ループの外に出るとはどういうことか」——自己紹介のはずが、いつの間にか深いところへ。

Feb 24, 2026

5m

Type above to search every episode's transcript for a word or phrase. Matches are scoped to this podcast.

Searching…

We're indexing this podcast's transcripts for the first time — this can take a minute or two. We'll show results as soon as they're ready.

No matches for "" in this podcast's transcripts.

Showing of matches

No topics indexed yet for this podcast.

Loading reviews...

Share your thoughts

ABOUT THIS SHOW

HOSTED BY

きなひかり

【ハーネスエンジニアリング】プロンプト力を磨くのは損？skill-creatorからメタハーネスまで、AIエージェントを動かす「モデル以外の全て」

【ナレッジグラフ】ベテランが辞めた瞬間、会社から消える"地図"／AIエージェントの「3つの記憶」の使い分け方

【圏論入門】なぜあの人と話が噛み合わないのか？／ピザとパスタの選び方で学ぶ、圏論という「抽象化の科学」

【CAPE論文】なぜ学習データを増やしてもAIの品質は上がらないのか？～問い方を1つ変えるだけで、評価が2倍以上になった話～

【アーキテクチャ基礎】ガチャで学ぶ、すべてがトレードオフの世界で★5を引く方法

【TDD】テスト駆動開発はAI時代の必須スキル／本質が「テスト」ではなく「駆動」にある理由

【AI駆動開発】生成AIがソフトウェア開発を抜本的に変える理由／AIに仕事を奪われる人、AIを使いこなす人の違い

【自作LLM】急がば回れ：生成AI時代のスピードに乗り遅れないために、あえてローレイヤーを学ぶ7つの理由

【雑談】自己紹介と番組コンセプト／AIは「差分」を自分で見つけられるか？

Authentication Required