Podlodka #292 – Распознавание речи episode artwork

EPISODE · Oct 31, 2022 · 1H 25M

Podlodka #292 – Распознавание речи

from Podlodka Podcast · host Егор Толстой, Стас Цыганов, Екатерина Петрова и Евгений Кателла

В эфире ваша любимая рубрика: «как устроены сложные штуки» 🤓. Мы уже не раз затрагивали тему голосовых ассистентов и их тестирования. Настало время фундаментальных вопросов — в этом выпуске разбираемся, как работают системы распознавания речи! Иван Бондаренко, старший преподаватель и научный сотрудник НГУ, рассказал из каких компонентов устроены типичные архитектуры таких систем, принцип их работы, и как системы эволюционируют, все больше полагаясь на нейронные сети. Не обошли стороной и практику и обсудили, как самому реализовать распознавание речи из open-source решений. Поддержи лучший подкаст про IT: www.patreon.com/podlodka Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
 Telegram-чат: https://t.me/podlodka Telegram-канал: https://t.me/podlodkanews Страница в Facebook: www.facebook.com/podlodkacast/ Twitter-аккаунт: https://twitter.com/PodlodkaPodcast Ведущие в выпуске: Катя Петрова, Стас Цыганов Полезные ссылки: - https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf (классическая книга Мартина и Журавского "Speech and Language Processing", правда, на английском языке) - https://www.deeplearningbook.org/ (супер-книга про глубокое обучение от Гудфеллоу, Бенджио и Курвиля, а ведь глубокое обучение активно используется в современных методах распознавания речи) - https://kaldi-asr.org/ (конструктор систем распознавания речи на основе компонентного подхода) - https://habr.com/ru/post/470696 (простое описание того, как установить Kaldi на своём компьютере и как его сравнить с другими системами распознавания) - https://github.com/alphacep/vosk-api (упоминавшийся мной проект Николая Шмырёва по распознаванию речи с "классической" архитектурой на базе Kaldi) - https://www.openslr.org/12 (знаменитый англоязычный датасет Librispeech, включающий в себя более 1000 часов аннотированной речи) - https://www.openslr.org/114 (большой вручную аннотированный датасет русской речи, созданный ребятами из SberDevices) - https://t.me/speech_recognition_ru (известный русскоязычный телеграм-канал по распознаванию речи, созданный Николаем Шмырёвым) - https://github.com/nsu-ai/russian_g2p (система для преобразования русских слов и текстов в цепочку фонем устной речи) - https://maelfabien.github.io/machinelearning/wav2vec (статья про современные речевые нейросеточки семейства Wav2Vec и Wav2Vec2) - https://jonathanbgn.com/2021/09/30/illustrated-wav2vec-2.html (Wav2Vec2 в картинках) - https://huggingface.co/bond005/wav2vec2-large-ru-golos (глубокая нейросеть типа Wav2Vec2 для распознавания русской речи) - https://huggingface.co/bond005/wav2vec2-large-ru-golos-with-lm (глубокая нейросеть типа Wav2Vec2 с дополнительной языковой моделью для распознавания русской речи) - https://kheafield.com/code/kenlm/ (инструмент для построения своих языковых моделей) - https://habr.com/ru/post/513218/ (как распарсить Википедию и превратить её в текстовый корпус для обучения языковой модели в системе распознавания речи и не только) - https://habr.com/ru/post/494006 (почему не стоит слепо доверять опубликованным показателям качества систем распознавания речи и, вообще, пара слов о том, как сделать свою систему) - https://www.researchgate.net/profile/Ivan-Bondarenko (профиль Ивана на ResearchGate) - https://github.com/bond005 (гитхаб Ивана)

В эфире ваша любимая рубрика: «как устроены сложные штуки» 🤓. Мы уже не раз затрагивали тему голосовых ассистентов и их тестирования. Настало время фундаментальных вопросов — в этом выпуске разбираемся, как работают системы распознавания речи! Иван Бондаренко, старший преподаватель и научный сотрудник НГУ, рассказал из каких компонентов устроены типичные архитектуры таких систем, принцип их работы, и как системы эволюционируют, все больше полагаясь на нейронные сети. Не обошли стороной и практику и обсудили, как самому реализовать распознавание речи из open-source решений. Поддержи лучший подкаст про IT: www.patreon.com/podlodka Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
 Telegram-чат: https://t.me/podlodka Telegram-канал: https://t.me/podlodkanews Страница в Facebook: www.facebook.com/podlodkacast/ Twitter-аккаунт: https://twitter.com/PodlodkaPodcast Ведущие в выпуске: Катя Петрова, Стас Цыганов Полезные ссылки: - https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf (классическая книга Мартина и Журавского "Speech and Language Processing", правда, на английском языке) - https://www.deeplearningbook.org/ (супер-книга про глубокое обучение от Гудфеллоу, Бенджио и Курвиля, а ведь глубокое обучение активно используется в современных методах распознавания речи) - https://kaldi-asr.org/ (конструктор систем распознавания речи на основе компонентного подхода) - https://habr.com/ru/post/470696 (простое описание того, как установить Kaldi на своём компьютере и как его сравнить с другими системами распознавания) - https://github.com/alphacep/vosk-api (упоминавшийся мной проект Николая Шмырёва по распознаванию речи с "классической" архитектурой на базе Kaldi) - https://www.openslr.org/12 (знаменитый англоязычный датасет Librispeech, включающий в себя более 1000 часов аннотированной речи) - https://www.openslr.org/114 (большой вручную аннотированный датасет русской речи, созданный ребятами из SberDevices) - https://t.me/speech_recognition_ru (известный русскоязычный телеграм-канал по распознаванию речи, созданный Николаем Шмырёвым) - https://github.com/nsu-ai/russian_g2p (система для преобразования русских слов и текстов в цепочку фонем устной речи) - https://maelfabien.github.io/machinelearning/wav2vec (статья про современные речевые нейросеточки семейства Wav2Vec и Wav2Vec2) - https://jonathanbgn.com/2021/09/30/illustrated-wav2vec-2.html (Wav2Vec2 в картинках) - https://huggingface.co/bond005/wav2vec2-large-ru-golos (глубокая нейросеть типа Wav2Vec2 для распознавания русской речи) - https://huggingface.co/bond005/wav2vec2-large-ru-golos-with-lm (глубокая нейросеть типа Wav2Vec2 с дополнительной языковой моделью для распознавания русской речи) - https://kheafield.com/code/kenlm/ (инструмент для построения своих языковых моделей) - https://habr.com/ru/post/513218/ (как распарсить Википедию и превратить её в текстовый корпус для обучения языковой модели в системе распознавания речи и не только) - https://habr.com/ru/post/494006 (почему не стоит слепо доверять опубликованным показателям качества систем распознавания речи и, вообще, пара слов о том, как сделать свою систему) - https://www.researchgate.net/profile/Ivan-Bondarenko (профиль Ивана на ResearchGate) - https://github.com/bond005 (гитхаб Ивана)

NOW PLAYING

Podlodka #292 – Распознавание речи

0:00 1:25:03

No transcript for this episode yet

We transcribe on demand. Request one and we'll notify you when it's ready — usually under 10 minutes.

That Hoarder: Overcome Compulsive Hoarding That Hoarder Hoarding disorder is stigmatised and people who hoard feel vast amounts of shame. This podcast began life as an audio diary, an anonymous outlet for somebody with this weird condition. That Hoarder speaks about her experiences living with compulsive hoarding, she interviews therapists, academics, researchers, children of hoarders, professional organisers and influencers, and she shares insight and tips for others with the problem. Listened to by people who hoard as well as those who love them and those who work with them, Overcome Compulsive Hoarding with That Hoarder aims to shatter the stigma, share the truth and speak openly and honestly to improve lives. The Small Business Startup School – Business Notes | Financial Literacy | Retail Psychology – For Professionals & Entrepreneurs The Small Business Startup School Inc. Starting or buying a small business? While personal circumstances may vary, business patterns remain timeless. On The Small Business Startup School, we explore strategies, insights, and practical solutions to help entrepreneurs confidently navigate their journey.Hosted by Ola Williams—a retail entrepreneur, fintech founder, and financial coach with over two decades of experience—this podcast marries financial awareness and retail psychology with optimism to deliver actionable takeaways.Join us to learn, grow, and connect as we uncover the keys to business success.Let’s continue to learn together and be encouraged to keep on connecting! DIOSA. Carolina Sanper This podcast is a sacred space created by Carolina Sanper where you connect with your inner wisdom and embody your magnetic feminine power.It is the realization that the mystical realm is where you plant the seeds of your desired reality.It is a portal to your true essence: awareness, presence, and receiving with ease. Welcome home, DIOSA. 🖤 XXX Tech by SOVRYN Dr. Brian Sovryn The crossroads between technology, sensuality, and metaphysics - and the longest running anarchist podcast in the world! Brought to you by Dr. Brian Sovryn.

Frequently Asked Questions

How long is this episode of Podlodka Podcast?

This episode is 1 hour and 25 minutes long.

When was this Podlodka Podcast episode published?

This episode was published on October 31, 2022.

What is this episode about?

В эфире ваша любимая рубрика: «как устроены сложные штуки» 🤓. Мы уже не раз затрагивали тему голосовых ассистентов и их тестирования. Настало время фундаментальных вопросов — в этом выпуске разбираемся, как работают системы распознавания речи! Иван...

Can I download this Podlodka Podcast episode?

Yes, you can download this episode by clicking the download button on the episode player, or subscribe to the podcast in your preferred podcast app for automatic downloads.
URL copied to clipboard!