Дзяржава распазнання голасу Linux

by Гэры Newell

ўвядзенне

Я праводжу шмат часу на вывучэнне артыкулаў і даволі часта я думаю пра прадмет для артыкула ў той час як пешшу да чыгуначнай станцыі або калі і пра ў цэлым.

Аднойчы ўвечары, ідучы ў 1,5 мілях на станцыі ад маёй працы, я думаў, што «не было б добра, калі б я мог запісаць тое, што я хацеў сказаць, а затым ён аўтаматычна перапісаныя ў тэкставы файл, які я мог рэдагаваць і фарматаваць пазней» ,

Я правёў доўгія гадзіны, гледзячы на розныя варыянты даступных для распазнання голасу і дыктоўкі, уключаючы запіс непасрэдна праз мікрафон з дапамогай дыктоўкі праграмнага забеспячэння ў Linux, запісваючы файл у фармаце MP3 або WAV і канвертаванне яго праз камандны радок, а таксама з дапамогай Chrome і Android прыкладанняў.

Гэты артыкул асвятляе мае высновы пасля некалькіх дзён цяжкай працы.

варыянты Linux

Спрабуючы знайсці дыктоўку і праграмнае забеспячэнне для распазнання голасу ў Linux не так проста, як гэта можа быць і даступныя варыянты не тое, што разумны.

Гэтая старонка вікіпедыі ёсць спіс магчымых варыянтаў, уключаючы CMU Sphinx, Юліус і Сайман.

Я выкарыстоўваю SparkyLinux, які заснаваны на Debian Testing ў дадзены момант, і я магу вам сказаць, што адзіны пакет распазнання голасу ў рэпазітарах з'яўляецца Sphinx.

Мясцовыя праграмы Linux я ў канчатковым выніку спрабую былі PocketSphinx, якія я выкарыстаў, каб канвертаваць WAV файлы ў тэкставым і Freespeech-VR, які з'яўляецца дадаткам пітона, які дазваляе запісваць прама з мікрафона.

Я таксама паспрабаваў некалькі прыкладанняў Chrome, уключаючы VoiceNote II і Dictanote.

Нарэшце-то я паспрабаваў «дыктоўку і электронную пошту» і «Talk Talk і дыктоўкі» Android Apps.

Freespeech-VR

Freespeech-VR не даступны ў стандартных рэпазітарах. Я запампаваў файлы адсюль.

Пасля загрузкі і здабывання змесціва з архіву я адкрыў тэрмінал і пераходзіце ў тэчку, дзе файлы былі вынятыя ст.

Я надрукаваў наступную каманду, каб адкрыць freespeech-вр.

Судо пітон freespeech-вр

У мяне ёсць пара навушнікаў з даволі прыстойным мікрафонам і даволі выразным паўднёвым ангельскай акцэнтам.

Наступны тэкст з'явіўся ў акне freespeech-вр:

Сардэчна запрашаем адзінкавымі сабак выніковым сёння забяспечваюць Як кіраваныя тэсты Ань павінны праверыць Калі да тэксту Карыстаецца сістэма двухбаковай прамовы Я, каб адзін кожны быў толькі ў Спадзявацца знаходжання і з дапамогай аднаго куранят залацістых як сістэма еа, калі гэта маё імя наступнага ofch званкі гэты файл досыць хутка выпадкі тэлефона гучнай сувязі прасторы сфінкс Going гэта не з'яўляецца тэлефоны будуць перададзеныя навучаны і і выкарыстоўваць інструменты кажучы калі вы скончылі Say які выкарыстоўваецца файл праслужыць гісторыі і выкарыстоўваючы самым Калі вельмі як поспеху гэта Linux ці быў пазбегнуць гэта

Я проста хацеў бы сказаць цяпер, што гэта не Адзінка сайта сабак і ні ў які момант я не згадаць нічога агульнага з залатым курэй. Я быў на самай справе спрабую апісаць працэс з дапамогай праграмнага забеспячэння для распазнання голасу.

Я паспрабаваў Праграмнае забеспячэнне некалькі разоў, уключаючы змены вышыні і хуткасці, але дакладнасць была бедная.

PocketSphinx

PocketSphinx можа ўзяць файл WAV і пераўтварыць яго ў тэкст з дапамогай каманднага радка.

PocketSphinx даступны праз рэпазітары Debian і павінен быць даступныя для большасці дыстрыбутываў.

Асноўнае пытанне, які я знайшоў з PocketSphinx, што вам практычна патрэбна ступень у канцэпцыях распазнання прамовы, моўныя файлы, слоўнікі і як навучыць сістэму.

Пасля ўстаноўкі PocketSphinx вы павінны перайсці на сайт CMU Sphinx і чытаць як мага больш інфармацыі, наколькі гэта магчыма. Акрамя таго, неабходна загрузіць наступны файл мадэлі.

ЗША Ангельскага Generic мадэль мовы

(Калі вы не з'яўляецеся носьбітам ангельскай мовы выбраць моўную мадэль, якая падыходзіць для вас).

Дакументацыя PocketSphinx і Сфінкс наогул цяжка зразумець, для свецкага чалавека, але ад таго, што я мог бы зрабіць з слоўніка файлаў выкарыстоўваецца для стварэння спісу магчымых слоў і моўныя мадэляў ёсць спіс патэнцыйнага вымаўлення.

Для праверкі PocketSphinx я выкарыстаў запіс уласнага голасу, сниппета з Аль Пачына ў «The Devils Advocate» і урывак з «Морган Фрыман». Сэнс гэтага ў тым, каб паспрабаваць розныя галасы, і для мяне няма нікога, хто можа расказаць гісторыю так ясна, як Морган Фрыман і ніхто не пастаўляе лінію, як Аль Пачына.

Для PocketSphinx працы ён патрэбны файл WAV, і ён павінен быць у пэўным фармаце. Калі файл у фармаце MP3 з дапамогай FFmpeg каманды, каб пераўтварыць яго ў фармат WAV:

FFmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Для запуску PocketSphinx выкарыстоўвайце наступную каманду:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5,0-ен-2 us.lm> voice2.log

pocketsphinx_continuous прымае файл WAV і пераўтворыць яго ў тэкст.

У камандзе вышэй pocketsphinx расказана выкарыстоўваць файл слоўніка пад назвай «/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic» з моўнай мадэллю «cmusphinx-5,0-ен-us.lm». Файл пераўтворыцца ў тэкст называецца voice2.wav (які ўяўляе сабой запіс я зрабіў з маім голасам). Нарэшце, 2> змяшчае ўсе падрабязны выснову, што вам не абавязкова трэба ў файл з імем voice2.log. Фактычныя вынікі тэсту адлюстроўваюцца ў акне тэрмінала.

Вынікі з выкарыстаннем майго голасу наступным чынам:

Сардэчна запрашаем да наступнага аб добра ня на гэтым тыдні, пры ўмове, пра які прызнанне праграмнага забеспячэння ў хвіліну

Вынікі не гэтак жудасныя, як з freespeech-уг, але да гэтага часу не вельмі карыснай. Затым я паспрабаваў выкарыстаць PocketSphinx з Аль Пачына, але гэта не даў ніякіх вынікаў.

Нарэшце, я паспрабаваў з дапамогай голасу Моргана Фрыман з фільма «Брус Усемагутны» і вось вынікі:

000000000: мы будзем на ёй
000000001: усё, што жорсткая ды ў той дзень, цяпер да это самае мы былі жывыя я частка па гарачых
000000002: у ліфце, які ключ з трохі бейсбола гадзін або ведаць, што рабіць у жыцці
000000003: якія тыя, якія будуць аднавіць
000000004: яны нічога не пісалі
000000005: яны аказваюць на мяне прама
000000006: вы павінны быць правілы
000000007: я чакаў вас
000000008, і ён даведаўся, што тут было ілюстрацыя была забойца каляднай вечарыны
000000009: аказваецца адным з спосабаў, каб напісаць пра. асёл я думаў мала заўсёды насіць адзін
000000010: як праблема аб'ядноўвае не дасць Ці ён добры Я расцаніў іх у той момант, калі мы не зрабілі ўсё, што вы думаеце, я знаходжуся ў свеце будзе дома, і я бачыў, што
000000011: бацька, які мае яго
000000012: што шмат пра гэта
000000013: гэта што, улічваючы
000000014: усё, што тыя, якія не трапляюць на шмат
000000015: прама ў падзенні
000000016: добра трымацца толькі для мяне
000000017: гэта няшчасны, калі я думаю таксама, што яны будуць мець, што, што будзе ўсё, што жаніліся на не было ў нас я, як у адрозненне ад шляху

Мой тэст наўрад ці можна лічыць навуковым і распрацоўшчыкі PocketSphinx могуць заявіць, што я не выкарыстоўваю праграмнае забеспячэнне правільна. Існуе таксама метад, званы голас навучання, які можа быць выкарыстаны для стварэння лепшых слоўнікаў і моўных файлаў.

Маё найважнейшае меркаванне, хоць у тым, што гэта занадта складана для звычайнага паўсядзённага выкарыстання.

VoiceNote II

VoiceNote II ўяўляе сабой прыкладанне Chrome, які выкарыстоўвае API Google распазнання голасу.

Калі вы выкарыстоўваеце браўзэры Chrome або Chromium вы можаце ўсталяваць VoiceNote II праз Інтэрнэт - крама .

Значкі на VoiceNote II выкладзены ў дзіўнай манеры, як вам трэба наладзіць мову ў ніжняй частцы акна і кнопкі рэдагавання таксама ў ніжняй часткі, аднак кнопка запісу знаходзіцца ў правым верхнім становішчы.

Першае, што вам трэба зрабіць, гэта выбраць мову, і гэта можа быць дасягнута, націснуўшы на значок свету.

Каб пачаць запіс, націсніце на значок мікрафона і пачаць гаварыць у мікрафон. Для дасягнення найлепшых вынікаў я знайшоў казаць павольна быў ключ, так што праграмнае забеспячэнне будзе мець магчымасць ісці ў нагу.

Вынікі не былі вялікія, як можна ўбачыць ніжэй:

Прывітанне і дабро запрашаем для падлучэння. About.com сённяшнія артыкулы пра голасе да пераўтварэння тэксту dunelm Фарэл рэцэсіі 2008 канверсіі і ён сказаў, добра падтрымліваецца лепшым спосабам я знайшоў голас тэкст адон, каб паказаць 2014debian або пакеты RPM адкрыць яго галасавой тып прамовы ў тэкст адкрытым, калі вы хочаце выбраць супраць абраў у Эдынбург французскі нямецкі атрымаць вас час у адзіным kingdomstart на моры microphonewhat вы скончылі пісаць тэкст у выглядзе тэкставага файла ў itsuccess добра, што вельмі стандартны англійская акцэнт з поўдня Англіі лепшай для яго, але я іду ў textvia гэта torrentalong з рэальным дакументам, і вы можаце ўбачыць за памылкі, якія makethank за listeningfriends

Dictanote

Dictanote з'яўляецца яшчэ адным дадаткам Chrome, які можа быць выкарыстаны для мэт дыктантаў і наткнуўся як больш інтуітыўным, але вынікі былі не лепшыя за, чым VoiceNote II.

Я толькі выкарыстаў дэма-версію Dictanote, якая перашкаджае вам ствараць новыя дакументы, але гэта дазваляе казаць па тэксце, які ўжо ў рэдактары. Я быў у стане праверыць распазнання голасу, але вынікі былі не лепшыя за, чым VoiceNote II, і таму я не падпісацца на пра версію.

Дыктоўка And Mail

«Дыктоўка And Mail» з'яўляецца Дадаткам для Android, які выкарыстоўвае роднай Google распазнаванне галасы API.

Вынікі «дыктоўкі і Поштай» былі значна лепш, чым любы іншы праграме спробы да гэтага моманту.

прывітанне сардэчна запрашаем у Linux а., сёння мы гаворым аб пераўтварэнні гуку ў тэкст

Трук з «дыктоўкі і Mail», каб гаварыць павольна і pronunciate, а таксама вы можаце з цотных акцэнтам.

Пасля таго, як вы скончылі размову вы можаце па электроннай пошце вынікі для сябе.

Абмеркаванне і абмеркаванне дыктоўкі

Іншы Android прыкладанняў, якія я паспрабаваў было «казаць і казаць дыктоўкі».

Інтэрфейс для гэтага прыкладання быў лепшым з згустку і распазнаванне галасоў працавала вельмі добра. Пасля запісу дыктоўкі я змог падзяліцца вынікамі розных спосабамі, уключаючы па электроннай пошце.

Сардэчна запрашаем у Linux about.com сёння мы гаворым аб пераўтварэнні прамовы ў тэкст

Як вы можаце ўбачыць тэкст вышэй прыкладна так жа ясна, як магчыма, вы можаце чакаць, каб атрымаць. Кажучы павольна з'яўляецца ключавым.

рэзюмэ

Native Linux мае некаторы шлях касаемо распазнання голасу і, у прыватнасці дыктоўку. Ёсць некаторыя прыкладання, якія выкарыстоўваюць Google Voice API, але яны яшчэ не пералічаны ў сховішчах.

ChromeOS дадатак трохі лепш, але значна лепшыя вынікі былі дасягнутыя з дапамогай майго Android тэлефона. Можа быць, тэлефон мае лепшы мікрафон і, такім чынам, праграмнае забеспячэнне распазнання голасу мае больш шанцаў пераўтварэнні.

Для распазнання голасу, каб стаць сапраўды карыснай яна павінна быць больш інтуітыўным з меншай колькасцю налады не патрабуецца. Вам не трэба важдацца з мадэлямі мовы і слоўнікаў для таго, каб зрабіць яго зразумелым.

Я цаню, аднак, што ўсё мастацтва распазнання прамовы з'яўляецца вельмі складанай задачай, паколькі кожны мае іншы голас, і ёсць так шмат дыялектаў ад рэгіёну да рэгіёну ў адной краіне дулі турбавацца пра сотні моў, якія выкарыстоўваюцца па ўсім свеце.

Мой аналіз, такім чынам, з'яўляецца тое, што праграмнае забеспячэнне распазнання голасу ўсё яшчэ ў стадыі распрацоўкі.