EPISODE · May 15, 2025 · 52 MIN
Глас будущего
Гости: Женя Брицын, руководитель направления голосовых технологий AI-Центра Т-Банка, и Валера Болдаков, тимлид команды синтеза голоса AI-Центра Т-Банка. О чем болтаем?Узнаем, в чем миссия AI-Центра и знакомимся с платформой VoiceKit. Сравниваем распознавание с ушами, а синтез с голосовыми связками робота. Разбираемся, почему разные голоса имеют разную эффективность и синтезируем голоса Маши и Стаса.Выясняем, что такое расстояние Левенштейна и как оно помогает следить за качеством распознавания. Уточняем, какие еще метрики качества есть в распознавании и синтезе и что такое вайб-кодинг – методика программирования через генеративные текстовые модели.Таймкоды:00:40 О чем болтаем4:42 Команда VoiceKit в Т-Банке5:34 Синтез и появление новых голосов6:42 Где применяются голосовые технологии в Т-Банке8:07 Cинтез в VoiceKit9:07 Зачем синтезировать разные голоса10:23 Распознавание в VoiceKit11:43 Как используется речевая аналитика12:22 Как отслеживается качество распознавания13:39 Как находят ошибки в распознавании и синтезе17:23 Сравнение синтезированного голоса с оригиналом (эталоном)20:35 Что такое вайб-кодинг 23:11 Как работают разметчики26:49 Эффект зловещей долины29:06 Как работает каскад моделей31:50 Клонировали голоса Маши и Стаса38:12 Синтез голоса Пушкина39:11 Будущее голосовых технологий43:38 LLM копируют людей и их ошибки44:34 Омографы и ударение45:28 Общение голосовых помощников между собой47:14 Применение в озвучке и дубляже49:50 БлицСсылки:Центр искусственного интеллекта Т-Банка: https://ai.tbank.ru/VoiceKit от Т-Банка: https://www.tbank.ru/software/voicekit/T-Meetup: CV & Speech: https://meetup.tbank.ru/conference/ml-cv-speech/Turbo ML Conf 2024: CV & Speech: https://www.youtube.com/playlist?list=PLXEnq8LHVLRq0trLwRoL-JtgO6zwrLHGEЕще больше полезного для всех MLE: https://t.me/zheltyi_aiКанал QA-команды Т-Банка в Телеграме: https://l.tbank.ru/yellow_qaБольше о разработке и технологиях Т-Банка: https://l.tbank.ru/kod_zheltyiО жизни команды и свежих ИТ-вакансиях: https://l.tbank.ru/t_crew
What this episode covers
Гости: Женя Брицын, руководитель направления голосовых технологий AI-Центра Т-Банка, и Валера Болдаков, тимлид команды синтеза голоса AI-Центра Т-Банка. О чем болтаем? Узнаем, в чем миссия AI-Центра и знакомимся с платформой VoiceKit. Сравниваем распознавание с ушами, а синтез с голосовыми связками робота. Разбираемся, почему разные голоса имеют разную эффективность и синтезируем голоса Маши и Стаса. Выясняем, что такое расстояние Левенштейна и как оно помогает следить за качеством распознавания. Уточняем, какие еще метрики качества есть в распознавании и синтезе и что такое вайб-кодинг – методика программирования через генеративные текстовые модели. Таймкоды: 00:40 О чем болтаем 4:42 Команда VoiceKit в Т-Банке 5:34 Синтез и появление новых голосов 6:42 Где применяются голосовые технологии в Т-Банке 8:07 Cинтез в VoiceKit 9:07 Зачем синтезировать разные голоса 10:23 Распознавание в VoiceKit 11:43 Как используется речевая аналитика 12:22 Как отслеживается качество распознавания 13:39 Как находят ошибки в распознавании и синтезе 17:23 Сравнение синтезированного голоса с оригиналом (эталоном) 20:35 Что такое вайб-кодинг 23:11 Как работают разметчики 26:49 Эффект зловещей долины 29:06 Как работает каскад моделей 31:50 Клонировали голоса Маши и Стаса 38:12 Синтез голоса Пушкина 39:11 Будущее голосовых технологий 43:38 LLM копируют людей и их ошибки 44:34 Омографы и ударение 45:28 Общение голосовых помощников между собой 47:14 Применение в озвучке и дубляже 49:50 Блиц Ссылки: Центр искусственного интеллекта Т-Банка: https://ai.tbank.ru/ VoiceKit от Т-Банка: https://www.tbank.ru/software/voicekit/ T-Meetup: CV & Speech: https://meetup.tbank.ru/conference/ml-cv-speech/ Turbo ML Conf 2024: CV & Speech: https://www.youtube.com/playlist?list=PLXEnq8LHVLRq0trLwRoL-JtgO6zwrLHGE Еще больше полезного для всех MLE: https://t.me/zheltyi_ai Канал QA-команды Т-Банка в Телеграме: https://l.tbank.ru/yellow_qa Больше о разработке и технологиях Т-Банка: https://l.tbank.ru/kod_zheltyi О жизни команды и свежих ИТ-вакансиях: https://l.tbank.ru/t_crew
NOW PLAYING
Глас будущего
No transcript for this episode yet