Anatoly Vorobey (avva) wrote,
Anatoly Vorobey
avva

Categories:

расшифровка записи с помощью механического турка

Месяц назад я прочитал лекцию по истории математики на иврите. С тех пор много раз собирался сесть и расшифровать ее запись в текстовый формат, чтобы легче было отредактировать и подготовить версию на русском или английском. Но все время это откладывал, потому что жалко было времени, и жалко было так скучно его тратить. Я не так быстро набираю на иврите, как по-русски или по-английски, и мне ясно было, что перевести час лекции в текст займет у меня как минимум 5, а то и 10 часов времени.

Почему-то идея заплатить кому-то, а не делать самому, мне всегда приходит на ум с большим опозданием. Но вот наконец она пришла, и я поискал услуги расшифровки аудиозаписи в текст. Оказалось, что израильские компании, занимающиеся этим, в основном заточены под расшифровку телефонных разговоров для судебных заседаний, и берут за это солидные деньги (некоторые из них, по крайней мере; большинство сайтов, в лучших традициях израильского бизнеса, не публикуют свои расценки, а просят, чтобы им позвонили или оформили запрос). Но зато я обнаружил, что по-английски такую расшифровку успешно делают задешево с помощью Mechanical Turk - платформы Амазона, позволяющей предложить армии анонимных работников умственного труда любые задания за любую плату, на которую они согласятся. Я ни разу не пользовался Механическим Турком и давно хотел попробовать, так что решил, что вот удобный случай.

Так вот, отчитываюсь. Если вкратце, то эксперимент прошел удачно. Я получил полную текстовую расшифровку своей часовой лекции на иврите, заплатив за нее примерно $30. Расшифровка отличного качества, кроме фамилий математиков и некоторых математических терминов (но этого я ожидал). До того, как я попробовал сделать это через Турка, я был готов заплатить за этот результат какому-то агентству в 3-5 раз больше (но не нашел, кому заплатить).

Теперь подробности. Я следовал почти точно рекомендациям в этой блог-записи: Cheap, Easy Audio Transcription with Mechanical Turk. Ей почти семь лет, но советами в ней можно пользоваться практически без изменений. Вот что я сделал:

- записал аудио своей лекции в отдельный MP3-файл
- с помощью программы Mp3splt нарезал звук на 5-минутные куски, всего вышло 13 кусков. Не пытался специально разбивать на паузах или еще как-то хитрить, просто по-тупому 5 минут 00 секунд на каждый кусок.
- скопировал эти 13 файлов в свой Dropbox, чтобы можно было дать на них ссылки
- зарегистрировался на сайте Турка. Вообще-то сайт требует, чтобы работодатель был из Америки, и просит ввести американский адрес. Но я ввел случайный адрес из Fake Name Generator и его это удовлетворило; баланс на своем счету оплатил израильской кредиткой без всяких проблем.
- создал шаблон задания на сайте Турка, начав с их шаблона транскрипции. Я изменил его, подчеркнув несколько раз в заголовке и описании, что речь идет о тексте на иврите, и нужно знать иврит, чтобы выполнить задание. Я полагал изначально, что на сайте можно будет каким-то образом указать, что я требую работников со знанием такого-то языка, но ничего такого я не нашел.
- следуя указаниям в той записи, на основании шаблона сделал партию из 13 заданий, каждое со своей ссылкой на свой mp3-файл, который нужно прослушать и транскрибировать. Указал, что хочу заплатить $2 за каждое задание (расшифровка 5 минут аудио). Судя по другим обсуждениям, что я нашел, за расшифровку англоязычных записей обычно платят еще раза в два меньше, но я решил, что на иврите рынок намного меньше, конкуренции меньше и цены скорее всего выше; кроме того, если честно, мне было неловко предлагать еще меньше.

(я не знаю, кто эти люди, которые выполняют задания на Турке - какие у них типичные жизненные обстоятельства. Подозреваю, что часто это бедные студенты или неработающие люди, которые зарабатывают этим не на жизнь, а на карманные деньги и мелкие расходы)
- Это важно: по умолчанию Амазон ввел на мое задание ограничение "Master Workers" - это значит, что только работники определенного элитного статуса могут его выполнять. За это ограничение Амазон также берет комиссионные 30% от всей суммы платежа. Я не хотел ограничивать пул потенциальных работников, учитывая мое требование знания иврита, так что убрал это ограничение, и это снизило мне комиссионные до стандартных 10%.
- Я дал срок в неделю на все задания, но в итоге все 13 заданий были выполнены за двое суток.
- Было несколько недоразумений, 3-4 раза, когда я в виде ответа получал что-то странное или оборванное посредине. Обычно мне тут же приходило письмо от работника, который объяснял, что случайно нажал на кнопку конца работы, и просил не отвергать задание (это влияет на их статистику, за которой следят работодатели). Во всех случаях я договаривался с ними, что они просто пришлют мне остаток по мейлу, и все это сделали. Я также мог просто открыть новый запрос на то же задание и ждать другого работника (и любопытства ради два раза так сделал).
- Несколько раз приходили уточняющие вопросы от работников. Меня удивило, что при переписке работника с работодателем Амазон просто посылает мейл от одного к другому, используя их реальные имена и адреса, и дальше они продолжают просто по мейлу. Я был уверен, что будет какая-то схема с сообщениями только с "работником/работодателем номер такой-то" через сайт.
- Я все время заходил на сайт и проверял, не сделали ли еще задания, потому что мне было любопытно и боязно, что никто не захочет делать, но я зря тратил на это время. Если бы я отнесся к этому с полным пофигизмом, то 15 минут на подготовку файлов и шаблона было бы все мои затраты времени, и я бы все равно получил те же результаты, заплатив на пару долларов больше.

Итог: 13 кусков текста. У меня заняло полчаса склеить их, пройтись и исправить основные имена/термины. Результатом очень доволен. Впредь несомненно буду пользоваться Турком для работ такого рода.
Tags: интернет
Subscribe
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 22 comments