Технологія розпізнавання голосу: як це працює

TL;DR: Сучасне розпізнавання голосу перетворює аудіо в текст за допомогою нейронних мереж, навчений на величезних обсягах багатомовної мови. Старі системи порівнювали звукові фрагменти з базами даних фонем; сьогоднішні моделі end-to-end навчаються безпосередньо відображенню звуку на речення, що робить транскрипцію акцентів, фонових шумів та 30+ мов практичною — включаючи голосові нотатки WhatsApp через сервіси на кшталт Transcribe Bot.

Технологія розпізнавання голосу стала невід'ємною частиною повсякденного життя, забезпечуючи роботу всього, від віртуальних помічників до транскрипції голосових повідомлень WhatsApp. Але як телефон насправді перетворює тискові хвилі вашого голосу на читабельний текст? Давайте пройдемо через процес — як класичну архітектуру, так і сучасний підхід ШІ, який її замінив.

Що відбувається між вашим голосом і текстом?

Кожна система розпізнавання мови починається однаково:

Захоплення аудіо: мікрофон перетворює аналогові звукові хвилі на цифровий сигнал — тисячі числових зразків на секунду.
Попередня обробка: сигнал очищається — зменшується фоновий шум, нормалізується гучність, обрізається тиша. Цей етап має величезне значення для голосових нотаток, записаних на вулиці або в кафе.
Видобуток ознак: сирий звуковий сигнал перетворюється на компактне представлення (зазвичай спектрограму), яке фіксує, як енергія на різних частотах змінюється з часом — "відбиток" звуків мови.

Як працювало класичне розпізнавання мови?

Протягом десятиліть розпізнавання було ланцюгом окремих статистичних моделей. Акустична модель співвідносила аудіо-ознаки з фонемами — найменшими одиницями звуку. Словник вимови відображав послідовності фонем на кандидатні слова. Нарешті, мовна модель обирала найбільш правдоподібну послідовність слів ("розпізнати мову", а не "зруйнувати гарний пляж"). Кожен компонент створювався та налаштовувався окремо, а помилки на одному етапі переходили на наступний. Ці системи працювали в тихих кімнатах з чіткими спікерами — і мали труднощі в інших умовах.

Чому сучасна транскрипція ШІ набагато краща?

Прорив стався завдяки заміні цього ланцюга на одну нейронну мережу end-to-end — зазвичай архітектуру трансформера — навчений на сотнях тисяч годин реальної мови в багатьох мовах. Замість того, щоб отримувати інформацію про те, що таке фонеми, модель навчається безпосередньо з прикладів, як звук відображається на текст. Три практичні наслідки:

Стійкість: оскільки навчальні дані включають шумну, акцентовану, повсякденну мову, моделі обробляють реальні голосові нотатки, а не лише студійні записи.
Багатомовне покриття: одна модель може транскрибувати десятки мов і навіть обробляти спікерів, які змінюють мови під час повідомлення — це важливо для багатомовних користувачів WhatsApp.
Увага до контексту: модель використовує навколишні слова для розв'язання неоднозначності, тому імена, числа та омоніми виходять правильними набагато частіше.

Що все ще ускладнює розпізнавання голосу?

Жодна система не є ідеальною. Точність передбачувано знижується, коли кілька людей говорять одночасно, коли мікрофон далеко або заглушений, з дуже сильними діалектами або рідкісними мовами, а також з спеціалізованим жаргоном, який модель рідко бачила під час навчання. Пунктуація та розділення спікерів є додатковими висновками, накладеними на сире розпізнавання, і вони можуть іноді бути неправильними. Гарне правило: якщо людині потрібно буде перемотати двічі, машині також буде важко.

Наскільки точна транскрипція ШІ сьогодні?

Точність розпізнавання мови зазвичай вимірюється як коефіцієнт помилок слів — частка слів, які вставлені, видалені або замінені в порівнянні з людською транскрипцією. На чіткому аудіо з одним спікером сучасні системи регулярно досягають продуктивності на рівні людини; на неохайному реальному аудіо розрив залишається, але значно звузився.

Що насправді впливає на результат:

Якість запису: телефон, триманий близько в тихій кімнаті, транскрибує майже ідеально; гучномовець у русі — ні.
Стиль мовлення: природна безперервна мова працює краще, ніж перебільшена повільна диктовка, яка парадоксально спотворює шаблони, з яких навчалися моделі.
Покриття мов та акцентів: широко розповсюджені мови з великою кількістю навчальних даних ведуть; мови з низькими ресурсами відстають.

Для типових голосових нотаток WhatsApp — один спікер, мікрофон телефону, повсякденна мова — точність тепер достатня для того, щоб читання транскрипції було швидшим і надійнішим, ніж повторне прослуховування для деталі, яку ви пропустили.

Що це означає для ваших голосових нотаток WhatsApp?

Практичний результат сучасного ШІ в мові полягає в тому, що транскрипція голосової нотатки WhatsApp більше не є компромісом. Transcribe Bot — це бот WhatsApp, який транскрибує голосові повідомлення в текст: пересилайте голосову нотатку, і транскрипція з'явиться в тому ж чаті протягом кількох секунд, на 30+ мовах, без необхідності встановлювати додаток. Аудіо обробляється під час виконання та видаляється після цього — ми пояснюємо деталі в що насправді відбувається з вашим аудіо.

Цікаво, як це порівнюється з вбудованою спробою WhatsApp? Дивіться чому рідна транскрипція не відповідає вимогам і що працює краще — або просто спробуйте Transcribe Bot безкоштовно на WhatsApp.

Технологія розпізнавання голосу: як це працює

Що відбувається між вашим голосом і текстом?

Як працювало класичне розпізнавання мови?

Чому сучасна транскрипція ШІ набагато краща?

Що все ще ускладнює розпізнавання голосу?

Наскільки точна транскрипція ШІ сьогодні?

Що це означає для ваших голосових нотаток WhatsApp?

Супутні статті

Проблеми конфіденційності у голосових повідомленнях: що вам потрібно знати

Чому всі надсилають голосові повідомлення, але ніхто не хоче їх слухати

Зекономте 2 години щодня: Революція диктування на робочому місці