Lo stato di Linux Voice Recognition

Trascorro molto tempo alla ricerca di articoli e molto spesso penso all'argomento di un articolo mentre cammino verso la stazione ferroviaria o fuori e in generale.

Una sera, mentre percorrevo le 1,5 miglia dalla stazione, ho pensato "non sarebbe bello se potessi registrare ciò che volevo dire e poi farlo trascrivere automaticamente in un file di testo che potrei modificare e formattare in seguito" .

Ho passato molte ore a guardare le diverse opzioni disponibili per il riconoscimento vocale e la dettatura inclusa la registrazione diretta tramite un microfono tramite software di dettatura in Linux, la registrazione del file in formato MP3 o WAV e la conversione tramite la riga di comando, oltre all'utilizzo di Chrome e applicazioni Android.

Questo articolo evidenzia le mie scoperte dopo giorni di duro lavoro.

Opzioni di Linux

Cercare di trovare software di dettatura e riconoscimento vocale in Linux non è così semplice come potrebbe essere e le opzioni disponibili non sono così intelligenti.

Questa pagina di Wikipedia contiene un elenco di possibili opzioni tra cui CMU Sphinx, Julius e Simon.

Sto usando SparkyLinux che è basato su Debian Testing al momento e posso dirti che l'unico pacchetto di riconoscimento vocale disponibile nei repository è Sphinx.

I programmi nativi di Linux che ho provato sono stati PocketSphinx, che ho usato per convertire i file WAV in testo e Freespeech-VR, un'applicazione python che consente di registrare direttamente da un microfono.

Ho anche provato un paio di app di Chrome tra cui VoiceNote II e Dictanote.

Finalmente ho provato le app Android "Dettatura e Email" e "Diatazione Talk and Talk".

FreeSpeech-VR

Freespeech-VR non è disponibile nei repository standard. Ho scaricato i file da qui.

Dopo aver scaricato ed estratto il contenuto del file zip ho aperto un terminale e sono passato alla cartella in cui sono stati estratti i file. Ho digitato il seguente comando per aprire freespeech-vr.

sudo python freespeech-vr

Ho un paio di cuffie con un microfono abbastanza decente e un accento inglese meridionale abbastanza chiaro.

Il seguente testo è apparso nella finestra di freespeech-vr:

Benvenuti nell'unità I cani del risultato Oggi Assicuratevi come gestire i test E 'necessario testare quando si scrive Utilizza il modo di sistema Voce I a Uno ciascuno era Solo in a Per sperare di restare E I mezzi di uno polli d'oro come sistema L'Ea quando il mio nome è il prossimo chiama telefonicamente Questo file Presto abbastanza un telefono cellulare a Hands-Space la sfinge Going Che non è un telefono saranno condivisi Un esperto e strumenti Usare parlare Quando hai finito Dire un file usato Ultima a storia A E usando un dal Quando è così che il successo di questo Linux è stato come lo si evita

Vorrei solo dire che questo non è il sito web di Unit Of Dogs e in nessun momento ho menzionato nulla a che fare con i polli dorati. Stavo davvero cercando di descrivere il processo di utilizzo del software di riconoscimento vocale.

Ho provato il software un paio di volte, includendo diverse tonalità e velocità, ma la precisione era scarsa.

pocketsphinx

PocketSphinx è in grado di prendere un file WAV e convertirlo in testo utilizzando la riga di comando. PocketSphinx è disponibile tramite i repository Debian e dovrebbe essere disponibile per la maggior parte delle distribuzioni.

Il problema principale che ho riscontrato con PocketSphinx è che hai praticamente bisogno di una laurea nei concetti di riconoscimento vocale, file di lingua, dizionari e come addestrare il sistema.

Dopo aver installato PocketSphinx, visita il sito Web della CMU Sphinx e leggi quante più informazioni possibili. È inoltre necessario scaricare il seguente file di modello.

Modello di lingua generica inglese americano

(Se non sei un madrelingua inglese scegli il modello linguistico adatto a te).

La documentazione per PocketSphinx e Sphinx in generale è difficile da capire per i laici, ma da quello che potrei capire i file del dizionario vengono utilizzati per fornire un elenco di possibili parole e i modelli linguistici hanno un elenco di pronunce potenzialmente possibili.

Per testare PocketSphinx ho usato una registrazione della mia voce, un frammento di Al Pacino in "The Devils Advocate" e un frammento di "Morgan Freeman". Il punto di questo era provare diverse voci e per me non c'è nessuno che possa raccontare una storia chiaramente come Morgan Freeman e nessuno offre una linea come Al Pacino.

Perché PocketSphinx funzioni ha bisogno di un file WAV e deve essere in un determinato formato. Se il file è in formato MP3 usa il comando ffmpeg per convertirlo in formato WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Per eseguire PocketSphinx, utilizzare il seguente comando:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-it-us.lm 2> voice2.log

pocketsphinx_continuous prende un file WAV e lo converte in testo.

Nel comando sopra a pocketphinx viene detto di usare un file di dizionario chiamato "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" con il modello di linguaggio "cmusphinx-5.0-en-us.lm". Il file che viene convertito in testo si chiama voice2.wav (che è una registrazione che ho fatto con la mia voce). Infine il 2> colloca tutti gli output dettagliati che non sono necessariamente necessari in un file chiamato voice2.log. I risultati effettivi del test vengono visualizzati nella finestra del terminale.

I risultati usando la mia voce sono i seguenti:

benvenuto al prossimo su bene no questo argomento settimana su quale software di riconoscimento in un minuto

I risultati non sono così orrendi come con freespeech-vr, ma non sono ancora veramente utilizzabili. Ho quindi provato a utilizzare PocketSphinx con Al Pacino, ma questo non ha restituito alcun risultato.

Alla fine ho provato ad usare la voce di Morgan Freeman dal film "Bruce Almighty" e qui ci sono i risultati:

000000000: ci penseremo noi000000001: sono così duro sì il giorno in cui proprio ora è questo il più che siamo stati vivi faccio parte del caldo000000002: nell'ascensore chi è la chiave di un po 'di baseball o sa cosa fare nelle vite000000003: quali sono quelli che si riprenderanno000000004: non l'hanno scritto000000005: hanno su di me proprio fuori000000006: devi essere regole000000007: ti stavo aspettando000000008: e ha appreso qui che un'illustrazione è stata la festa natalizia assassina000000009: risulta uno dei modi per scrivere o. ho pensato che pochi ne indossassero sempre uno000000010: come il problema unito non gli darò il bene, li ho stimati in quel momento in cui non abbiamo fatto tutto quello che pensi che io sia nel mondo e le case che ho visto000000011: un padre che ce l'ha000000012: che molto su questo000000013: lo fa000000014: tutto ciò che non cadi per molto000000015: proprio in autunno000000016: tenetevi forte solo per me000000017: è infelice se penso anche che ne avranno uno che sarà tutto ciò che è sposato su un no è che ci piace il modo diverso dal modo in cui

Il mio test può difficilmente essere considerato scientifico e gli sviluppatori di PocketSphinx potrebbero affermare che non sto utilizzando il software correttamente. Esiste anche una tecnica chiamata addestramento vocale che può essere usata per creare migliori dizionari e file di linguaggio.

La mia opinione prevalente è che è troppo difficile per un uso quotidiano standard.

VoiceNote II

VoiceNote II è un'app Chrome che utilizza l'API di riconoscimento vocale di Google.

Se si utilizzano i browser Chrome o Chromium, è possibile installare VoiceNote II tramite il Web Store.

Le icone su VoiceNote II sono disposte in modo strano in quanto è necessario impostare la lingua nella parte inferiore della finestra e il pulsante di modifica è anche nella parte inferiore, tuttavia il pulsante di registrazione è in alto a destra.

La prima cosa che devi fare è selezionare una lingua e questo può essere ottenuto facendo clic sull'icona del mondo.

Per iniziare la registrazione, fai clic sull'icona del microfono e inizia a parlare nel microfono. Per i migliori risultati, ho trovato che parlare lentamente era fondamentale in modo che il software avrebbe avuto la possibilità di tenere il passo.

I risultati non erano grandi come si può vedere qui sotto:

Ciao e benvenuto per la connessione. Go-Travels.com articoli di oggi sulla conversione da voce a testo dunelm farrell recessione 2008 come conversioni e ha detto che ha ben supportato il modo migliore in cui ho trovato addon del testo vocale per mostrare 2014debian o pacchetto rpm aprire il suo tipo di voce a voce in testo aprirlo se si desidera scegliere vs scelto in edinburgh francese tedesco ti fa passare il tempo in united kingdomstart in mare microphonewhat hai finito di scrivere il tuo testo come un file di testo per il suo successo, questo è un accento inglese molto standard dal sud dell'Inghilterra, ma per questo vado al textvia questo torrentalong con il documento vero e puoi vedere gli errori che ti hanno fatto per gli amici d'ascolto

Dictanote

Dictanote è un'altra app di Chrome che può essere utilizzata a scopo di dettatura e risulta più intuitiva, ma i risultati non sono migliori di VoiceNote II.

Ho usato solo la versione demo di Dictanote che ti impedisce di creare nuovi documenti ma ti consente di parlare su un testo già presente nell'editor. Sono stato in grado di testare il riconoscimento vocale ma i risultati non erano migliori di VoiceNote II e quindi non mi sono iscritto alla versione pro.

Dettatura e posta

"Dettatura e posta" è un'applicazione Android che utilizza l'API nativa di riconoscimento vocale di Google.

I risultati di "Dettatura e posta" erano molto meglio di qualsiasi altro programma tentato fino a questo punto.

ciao benvenuto a Lifewire Linux., oggi stiamo parlando di convertire il suono in testo

Il trucco con "Dettatura e posta" è di parlare lentamente e pronunciare la pronuncia con un accento uniforme.

Dopo aver finito di parlare, puoi inviare i risultati via email a te stesso.

Dettatura di Talk and Talk

L'altra applicazione Android che ho provato era "Talk and Talk Dictation".

L'interfaccia per questa app è stata la migliore e il riconoscimento vocale ha funzionato molto bene. Dopo aver registrato il dettato, sono stato in grado di condividere i risultati in vari modi, anche via email.

benvenuto a linux Go-Travels.com oggi stiamo parlando di convertire il parlato in testo

Come puoi vedere il testo qui sopra è più chiaro che puoi aspettarti di ottenere. Parlare lentamente è la chiave.

Sommario

Linux nativo ha un modo per andare per quanto riguarda il riconoscimento vocale e in particolare la dettatura. Esistono alcune applicazioni che utilizzano l'API di Google Voice ma non sono ancora elencate nei repository.

Le applicazioni ChromeOS sono un po 'migliori ma i migliori risultati sono stati ottenuti utilizzando il mio telefono Android. Forse il telefono ha un microfono migliore e quindi il software di riconoscimento vocale ha una migliore possibilità di conversione.

Perché il riconoscimento vocale diventi realmente utilizzabile, deve essere più intuitivo con meno impostazioni necessarie. Non dovresti aver bisogno di scherzare con modelli e dizionari linguistici per renderlo comprensibile.

Apprezzo comunque che l'intera arte del riconoscimento vocale sia molto impegnativa perché tutti hanno una voce diversa e ci sono così tanti dialetti da una regione all'altra in un paese che non si preoccupa delle centinaia di lingue usate in tutto il mondo.

La mia analisi, quindi, è che il software di riconoscimento vocale è ancora in fase di elaborazione.