Вы читаете avva

Извиняйте, дядьку, если что-то случилось, о чем уже давно было спето - текст в речь [entries|archive|friends|userinfo]
Anatoly Vorobey

[ website | Website ]
[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Links
[Links:| English-language weblog ]

текст в речь [июл. 3, 2010|09:39 pm]
Anatoly Vorobey
http://www.acapela-group.com/text-to-speech-interactive-demo.html

В этом демо можно выбрать русский голос (Алена), и скопировать туда небольшой текст, чтобы она его произнесла. Скажите, меня глючит, или качество для компьютерного голоса очень и очень высокое? Я поражен, если честно. Английские и французские голоса тоже потрясающе звучат, но русский меня прямо-таки выбил из колеи.

Если есть среди читающих это люди "в теме" - подскажите, эта фирма лучше всех, state of the art? Или ничего особенного, и так хорошо генерировать голос уже многие умеют?
СсылкаОтветить

Comments:
Страница 1 из 2
<<[1] [2] >>
[User Picture]From: xxqs
2010-07-03 06:43 pm none (UTC)
у меня трёхлетней давности TomTom-навигатор синтезирует слова на английском вполне прилично. Названия городов почти не врёт.
(Ответить) (Thread)
[User Picture]From: xxqs
2010-07-03 06:44 pm none (UTC)
на названия швейцарских улиц ему мощности не хватает - заканчивает произносить, когда поворот уже пройден
(Ответить) (Parent) (Thread)
[User Picture]From: _nik_
2010-07-03 06:49 pm none (UTC)
Довольно неплохо говорит, да. Немного с ударениями ошибается, но так у всех.
А вот когда же её портируют под android, чтобы мне мой телефон книжки голосом читал? (windows mobile телефон уже несколько лет как книжки голосом читать умеет, а вот новый google nexus one ещё не научился).
(Ответить) (Thread)
From: valen00k
2010-07-03 06:50 pm none (UTC)
Испытанием "Эйяфьятлайокудль"ем не выдержала, но в целом впечатляет.
(Ответить) (Thread)
[User Picture]From: gambo
2010-07-03 07:14 pm none (UTC)
это как раз показатель правильного синтезатора- его и люди не выдерживают
(Ответить) (Parent) (Thread)
[User Picture]From: niobium0
2010-07-03 06:53 pm none (UTC)
замечательно работает! забавные ошибки начинаются, если кормить синтезатор стихами: все же интонирование заточено под разговорную речь.
(Ответить) (Thread)
[User Picture]From: spamsink
2010-07-03 06:58 pm none (UTC)
Скороговорками ее хорошо кормить.
(Ответить) (Parent) (Thread) (Развернуть)
[User Picture]From: ezhik_israely
2010-07-03 06:54 pm none (UTC)
я не знаю про другие фирмы, но мне мои "слушающие" друзья советовали именно эту фирму, с этой "Аленой" как один из лучших (приятный на слух) вариантов озвучки текстов.

"Алена" прочитала это пост с ударением "глючИт" :)
(Ответить) (Thread)
[User Picture]From: incogn1too
2010-07-03 06:54 pm none (UTC)
Хорошо постарались. Когда последний раз интересовался синтезом голоса - дела обстояли гораздо хуже.
(Ответить) (Thread)
[User Picture]From: malfet_
2010-07-03 06:54 pm none (UTC)
С той поры, как отказались от дифонов и начали использовать Марковские цепи качество синтеза речи сильно повысилось. Если интересно - вот здесь есть небольшая подборка статей по теме.
(Ответить) (Thread)
[User Picture]From: egorfine
2010-07-03 07:42 pm none (UTC)
ухты! цепи маркова для синтеза речи. Это гениально.
(Ответить) (Parent) (Thread)
[User Picture]From: spamsink
2010-07-03 06:57 pm none (UTC)
"Полили ли лилии?" - очень плохо, и дело не только в ударении в слове "полили".

"На дворе трава. На траве дрова?" - повествовательная и вопросительная интонация не отличаются.

Так что
(Ответить) (Thread)
[User Picture]From: tlkh
2010-07-03 08:37 pm none (UTC)
Отличаются, но не всегда заметно.
Попробуйте "И это вопрос" с и без знака.
(Ответить) (Parent) (Thread) (Развернуть)
[User Picture]From: zhilyaev_v
2010-07-03 07:06 pm none (UTC)
Отличная программа.
(Ответить) (Thread)
[User Picture]From: imfromjasenevo
2010-07-03 07:08 pm none (UTC)
класс, поймал на зммеееде, длиношеее
тоже не может взять
(Ответить) (Thread)
From: ghooky
2010-07-07 11:07 am none (UTC)
с двумя "н" все-таки лучше получается
(Ответить) (Parent) (Thread)
[User Picture]From: klonkaktusa
2010-07-03 07:08 pm none (UTC)
"Р" плохо выговаривает.
(Ответить) (Thread)
[User Picture]From: anita43765
2010-07-03 07:10 pm none (UTC)
ааа, офигенно говорит! огрехи есть, конечно, но у кого их нет.
(Ответить) (Thread)
From: the_netwalker
2010-07-03 07:23 pm none (UTC)
По сравнению с тем малым, что я слышал - говорит прекрасно.
Однако, на удивление "Алена" споткнулась на простейшем:
"Няка", получилось почему-то "никА".
(Ответить) (Thread)
[User Picture]From: raydac
2010-07-03 07:24 pm none (UTC)
(Ответить) (Thread)
[User Picture]From: gruimed
2010-07-03 07:27 pm none (UTC)
У Алены смешной акцент на английском
(Ответить) (Thread)
[User Picture]From: gaal
2010-07-03 07:30 pm none (UTC)
Some of the English ones suck too. But some got me floored.
(Ответить) (Thread)
[User Picture]From: baramin
2010-07-03 07:31 pm none (UTC)
Я был сильно в теме TTS/ASR по состоянию на 2006 год (SmartphonePro).
Эти парни неплохи, но Real Speaker от разорившейся Lernout&Hauspie звучал лучше (не путать с их же базовым TTS). Их разорение нанесло колоссальный вред индустрии - до того момента они подобрали под себя все приличные начинания. Real Speaker стоил, как живой слон и грузил CPU не хуже ASR, но сгенерированные им сообщения кране мало отличались от дикторских.
Инженеры из L&H И MS соглашались в одном - сделать TTS начального уровня значительно проще, чем ASR командного языка (ограниченной грамматики) "того же" уровня. Сделать приличный TTS, слабо отличающийся от человеческого, сравнимо со свободным распознаванием речи. Чудовищное количество исключений, аббревиатур, дат и числительных.
Вообще как-то все в ступоре. От соответствующего подразделения MS я года 3 ничего не слышал - после SAPI 5.1 они так ничего и не совершили. А была очень сильная команда.
О Dragon Dictation тоже как-то не слышно особо.
(Ответить) (Thread)
[User Picture]From: egorfine
2010-07-03 07:43 pm none (UTC)
"Их разорение нанесло колоссальный вред индустрии"

а разве их патенты кто-то не подгреб с тем чтобы потом полицензировать желающим? Это же интеллектуальная собственность компании.
(Ответить) (Parent) (Thread) (Развернуть)
[User Picture]From: annie_celeblas
2010-07-03 07:32 pm none (UTC)
Очень неплохо, особенно prosody, с ударениями тоже справляется (а это очень нетривиально). У нас не так хорошо получается. ;-)
Хотя я про эту фирму даже не слышала. В принципе, хорошей считается Nuance.
(Ответить) (Thread)
[User Picture]From: mikhailian
2010-07-03 09:17 pm none (UTC)
Хочу уточнить, Nuance — это в данном случае бывший Lernout & Hauspie, разработчик RealSpeak.
(Ответить) (Parent) (Thread) (Развернуть)
[User Picture]From: sorcino
2010-07-03 07:36 pm none (UTC)
Итальянский мужчина тоже звучит неплохо, интонация просто блестящая.
(Ответить) (Thread)
[User Picture]From: mme_n_b
2010-07-03 07:41 pm none (UTC)
Очень здорово. Ударения глючат, и все голоса слишком торопятся, но тем не менее качество восхищает.
(Ответить) (Thread)
[User Picture]From: mikhailian
2010-07-03 09:26 pm none (UTC)
У современных TTS скорость речи сложно менять в широких пределах, поэтому уже на этапе сбора материала диктор старается говорить быстро. Это всё потому, что люди с расстройствами зрения предпочитают быструю речь.
(Ответить) (Parent) (Thread) (Развернуть)
[User Picture]From: lxe
2010-07-03 07:44 pm none (UTC)
Сравнивая связную речь и произвольный набор слогов ("глокую куздру"), быстро приходишь к предположению, что честный синтез подкреплен словарем.
Можно попробовать оценить размер словаря на специализированных текстах, на естественнонаучной лексике какой-нибудь.
(Ответить) (Thread)
[User Picture]From: klonkaktusa
2010-07-03 07:54 pm none (UTC)
+1 одни слова хорошо, другие хуже.
(Ответить) (Parent) (Thread)
[User Picture]From: lordakryl
2010-07-03 08:01 pm none (UTC)
По-моему, она (девушка-диктор) использует для всех слов двойные и тройные ударения, то есть "на всякий случай" большинство слогов - ударные.
(Ответить) (Thread)
[User Picture]From: status_constr
2010-07-03 09:25 pm none (UTC)
Не совсем --- попробуйте "Бостон Жмеринки не кучерявей" :)
(Ответить) (Parent) (Thread)
[User Picture]From: mi_b
2010-07-03 08:04 pm none (UTC)
сложноподчиненные предложения интонирует совсем плохо. Типа

По всей видимости, адмирал Чичагов, считая как шведских, так и русских моряков не слишком опытными и искусными в управлении своими кораблями, полагал, что преимущество в бою будет на стороне стоящих.
(Ответить) (Thread)
From: (Anonymous)
2010-07-03 08:14 pm none (UTC)
Да, с обработкой запятых у них не очень.
Напимер "По всей видимости, нам, бля пиздец." призосится хорошо, а "По всей видимости, нам, бля, пиздец." - уже совсем неправильно.
(Ответить) (Parent) (Thread)
[User Picture]From: dimorlus
2010-07-03 08:13 pm none (UTC)
Да ладно, первый же естественно пришедший в голову тест - "иди на хуй!" она произносит не правильно.
(Ответить) (Thread)
[User Picture]From: ygam
2010-07-04 12:57 am none (UTC)
"Ющ - пидарас! Ющ - пидарас! С нами Севастополь, Харьков, Донбасс" - все правильно, кроме "Харьков".
(Ответить) (Parent) (Thread)
From: (Anonymous)
2010-07-03 08:19 pm none (UTC)
Я синтезаторы тестирую на «Серпуховских» Лейбова (http://unclear.rinet.ru/~r_l/serp/), веришь, нет? Алёна неплохо справляется, хотя где ударение в слове «Серпухов», ей неизвестно.
(Ответить) (Thread)
[User Picture]From: avva
2010-07-03 08:23 pm none (UTC)
Ух ты, отличная идея для тестирования, да.
(Ответить) (Parent) (Thread) (Развернуть)
Страница 1 из 2
<<[1] [2] >>