PodParley PodParley

Глас будущего

Episode 8 of the QAk-QAk — и в продакшен podcast, hosted by Тинькофф, titled "Глас будущего" was published on May 15, 2025 and runs 52 minutes.

May 15, 2025 ·52m · QAk-QAk — и в продакшен

0:00 / 0:00

Гости: Женя Брицын, руководитель направления голосовых технологий AI-Центра Т-Банка, и Валера Болдаков, тимлид команды синтеза голоса AI-Центра Т-Банка. О чем болтаем? Узнаем, в чем миссия AI-Центра и знакомимся с платформой VoiceKit. Сравниваем распознавание с ушами, а синтез с голосовыми связками робота. Разбираемся, почему разные голоса имеют разную эффективность и синтезируем голоса Маши и Стаса. Выясняем, что такое расстояние Левенштейна и как оно помогает следить за качеством распознавания. Уточняем, какие еще метрики качества есть в распознавании и синтезе и что такое вайб-кодинг – методика программирования через генеративные текстовые модели. Таймкоды: 00:40 О чем болтаем 4:42 Команда VoiceKit в Т-Банке 5:34 Синтез и появление новых голосов 6:42 Где применяются голосовые технологии в Т-Банке 8:07 Cинтез в VoiceKit 9:07 Зачем синтезировать разные голоса 10:23 Распознавание в VoiceKit 11:43 Как используется речевая аналитика 12:22 Как отслеживается качество распознавания 13:39 Как находят ошибки в распознавании и синтезе 17:23 Сравнение синтезированного голоса с оригиналом (эталоном) 20:35 Что такое вайб-кодинг 23:11 Как работают разметчики 26:49 Эффект зловещей долины 29:06 Как работает каскад моделей 31:50 Клонировали голоса Маши и Стаса 38:12 Синтез голоса Пушкина 39:11 Будущее голосовых технологий 43:38 LLM копируют людей и их ошибки 44:34 Омографы и ударение 45:28 Общение голосовых помощников между собой 47:14 Применение в озвучке и дубляже 49:50 Блиц Ссылки: Центр искусственного интеллекта Т-Банка: https://ai.tbank.ru/ VoiceKit от Т-Банка: https://www.tbank.ru/software/voicekit/ T-Meetup: CV & Speech: https://meetup.tbank.ru/conference/ml-cv-speech/ Turbo ML Conf 2024: CV & Speech: https://www.youtube.com/playlist?list=PLXEnq8LHVLRq0trLwRoL-JtgO6zwrLHGE Еще больше полезного для всех MLE: https://t.me/zheltyi_ai Канал QA-команды Т-Банка в Телеграме: https://l.tbank.ru/yellow_qa Больше о разработке и технологиях Т-Банка: https://l.tbank.ru/kod_zheltyi О жизни команды и свежих ИТ-вакансиях: https://l.tbank.ru/t_crew

Гости: Женя Брицын, руководитель направления голосовых технологий AI-Центра Т-Банка, и Валера Болдаков, тимлид команды синтеза голоса AI-Центра Т-Банка. 


О чем болтаем?

Узнаем, в чем миссия AI-Центра и знакомимся с платформой VoiceKit. Сравниваем распознавание с ушами, а синтез с голосовыми связками робота. Разбираемся, почему разные голоса имеют разную эффективность и синтезируем голоса Маши и Стаса.

Выясняем, что такое расстояние Левенштейна и как оно помогает следить за качеством распознавания. Уточняем, какие еще метрики качества есть в распознавании и синтезе и что такое вайб-кодинг – методика программирования через генеративные текстовые модели.


Таймкоды:

00:40 О чем болтаем

4:42 Команда VoiceKit в Т-Банке

5:34 Синтез и появление новых голосов

6:42 Где применяются голосовые технологии в Т-Банке

8:07 Cинтез в VoiceKit

9:07 Зачем синтезировать разные голоса

10:23 Распознавание в VoiceKit

11:43 Как используется речевая аналитика

12:22 Как отслеживается качество распознавания

13:39 Как находят ошибки в распознавании и синтезе

17:23 Сравнение синтезированного голоса с оригиналом (эталоном)

20:35 Что такое вайб-кодинг 

23:11 Как работают разметчики

26:49 Эффект зловещей долины

29:06 Как работает каскад моделей

31:50 Клонировали голоса Маши и Стаса

38:12 Синтез голоса Пушкина

39:11 Будущее голосовых технологий

43:38 LLM копируют людей и их ошибки

44:34 Омографы и ударение

45:28 Общение голосовых помощников между собой

47:14 Применение в озвучке и дубляже

49:50 Блиц


Ссылки:

Центр искусственного интеллекта Т-Банка: https://ai.tbank.ru/

VoiceKit от Т-Банка: https://www.tbank.ru/software/voicekit/

T-Meetup: CV & Speech: https://meetup.tbank.ru/conference/ml-cv-speech/


Turbo ML Conf 2024: CV & Speech: https://www.youtube.com/playlist?list=PLXEnq8LHVLRq0trLwRoL-JtgO6zwrLHGE


Еще больше полезного для всех MLE: https://t.me/zheltyi_ai

Канал QA-команды Т-Банка в Телеграме: https://l.tbank.ru/yellow_qa

Больше о разработке и технологиях Т-Банка: https://l.tbank.ru/kod_zheltyi

О жизни команды и свежих ИТ-вакансиях: https://l.tbank.ru/t_crew



No similar episodes found.

No similar podcasts found.

URL copied to clipboard!