Skip to main content

Staten av Linux Voice Recognition

A prosecutor's vision for a better justice system | Adam Foss (April 2025)

A prosecutor's vision for a better justice system | Adam Foss (April 2025)
Anonim

Jeg bruker mye tid på å forske på artikler og ganske ofte tenker jeg på emnet for en artikkel mens du går til togstasjonen eller når du er ute og om i det hele tatt.

En kveld mens jeg gikk 1,5 kilometer til stasjonen fra jobben min trodde jeg "det ville ikke vært bra hvis jeg kunne registrere hva jeg ønsket å si og så ha det transkribert automatisk til en tekstfil som jeg kunne redigere og formatere senere" .

Jeg har brukt mange lange timer på å se på de forskjellige alternativene som er tilgjengelige for stemmegjenkjenning og diktering, inkludert innspilling direkte via en mikrofon ved hjelp av diktatprogramvare i Linux, innspilling av filen til MP3- eller WAV-format og konvertering av det via kommandolinjen, samt bruk av Chrome og Android-applikasjoner.

Denne artikkelen fremhever funnene mine etter dager med hardt arbeid.

Linux-alternativer

Å forsøke å finne diktat- og talegjenkjenningssoftware i Linux er ikke så enkelt som det kunne være, og tilgjengelige alternativer er ikke så kloge.

Denne wikipedia-siden har en liste over mulige alternativer, inkludert CMU Sphinx, Julius og Simon.

Jeg bruker SparkyLinux, som er basert på Debian Testing for øyeblikket, og jeg kan fortelle deg at den eneste talegjenkjennelsespakken som er tilgjengelig i repositoriene, er Sphinx.

De innfødte Linux-programmene jeg endte opp med, var PocketSphinx, som jeg pleide å konvertere WAV-filer til tekst og Freespeech-VR, som er et python-program som lar deg spille inn direkte fra en mikrofon.

Jeg har også prøvd et par Chrome-apps, inkludert VoiceNote II og Dictanote.

Til slutt prøvde jeg "Dictation and Email" og "Talk and Talk Dictation" Android Apps.

Freespeech-VR

Freespeech-VR er ikke tilgjengelig i standardregisterene. Jeg lastet ned filene herfra.

Etter å ha lastet ned og hentet innholdet i zip-filen, åpnet jeg en terminal og navigerte til mappen der filene ble hentet ut. Jeg skrev følgende kommando for å åpne freespeech-vr.

sudo python freespeech-vr

Jeg har et par hodetelefoner med en ganske anstendig mikrofon og en ganske klar sørlig engelsk aksent.

Følgende tekst dukket opp i freespeech-vr-vinduet:

Velkommen til enhetens hunder av utfall I dag Har du sikret deg hvordan du administrerer testene En må teste når du bruker tekst Bruker en systemvei Tale jeg til Til hver var bare i a For å håpe på å bli og Det betyr at en kylling er gylden som system Ea når det heter navnet mitt neste telefonsamtale denne filen Snart nok en sak telefon til Hands-Space sfinxen Going Det er ikke en telefon vil bli delt En utdannet og og verktøy Bruk snakk Når du er ferdig Si en brukt fil Sende en historie A og bruk av av når det er veldig hvordan suksess Denne Linux var som Unngå du

Jeg vil bare si nå at dette ikke er nettstedet for Enhet av hunder og på ingen måte nevnte jeg noe å gjøre med Golden kyllinger. Jeg prøvde faktisk å beskrive prosessen med å bruke talegjenkjenningssoftware.

Jeg prøvde programvaren et par ganger, inkludert varierende tonehøyde og hastighet, men nøyaktigheten var dårlig.

PocketSphinx

PocketSphinx kan ta en WAV-fil og konvertere den til tekst ved hjelp av kommandolinjen. PocketSphinx er tilgjengelig via Debian-depotene og bør være tilgjengelig for de fleste distribusjoner.

Hovedproblemet jeg fant med PocketSphinx er at du praktisk talt trenger en grad i begreper talegjenkjenning, språkfiler, ordbøker og hvordan du trener systemet.

Etter installasjon av PocketSphinx bør du gå til CMU Sphinx nettsiden og lese så mye informasjon som mulig. Du må også laste ned følgende modellfil.

  • US English Generic Language Model

(Hvis du ikke er en engelsk engelsktalende, velg språkmodellen som passer for deg).

Dokumentasjonen for PocketSphinx og Sphinx generelt er vanskelig å forstå for lekpersonen, men fra det jeg kunne lage ordlistefiler brukes til å gi en liste over mulige ord og språkmodeller, har du en liste over potensielle uttalelser.

For å teste PocketSphinx brukte jeg en innspilling av min egen stemme, en utdrag fra Al Pacino i "The Devils Advocate" og en utdrag fra "Morgan Freeman". Poenget med dette var å prøve forskjellige stemmer, og for meg er det ingen som kan fortelle en historie så tydelig som Morgan Freeman og ingen leverer en linje som Al Pacino.

For PocketSphinx å jobbe trenger den en WAV-fil, og den må være i et bestemt format. Hvis filen er i MP3-format, bruk ffmpeg-kommandoen til å konvertere den til WAV-format:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

For å kjøre PocketSphinx, bruk følgende kommando:

lommerphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-no-us.lm 2> voice2.log

lommerphinx_continuous tar en WAV-fil og konverterer den til tekst.

I kommandoen ovenfor blir lommefinx fortalt å bruke en ordlistefil kalt "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" med språkmodellen "cmusphinx-5.0-en-us.lm". Filen som blir konvertert til tekst kalles voice2.wav (som er et opptak jeg laget med stemmen min). Endelig plasserer 2> alle de ordinære utgangene du ikke nødvendigvis trenger i en fil som heter voice2.log. De faktiske resultatene av testen vises i terminalvinduet.

Resultatene som bruker stemmen min er som følger:

Velkommen til neste om vel nei denne uken tema om hvilken anerkjennelse programvare på et minutt

Resultatene er ikke så fryktelige som med freespeech-vr, men fortsatt ikke veldig brukbare. Jeg prøvde da å bruke PocketSphinx med Al Pacino, men dette ga ingen resultater i det hele tatt.

Til slutt prøvde jeg å bruke Morgan Freeman sin stemme fra filmen "Bruce Almighty", og her er resultatene:

000000000: Vi kommer på henne000000001: er alt det tøft ja dagen som akkurat nå ja dette er det meste vi har levd, jeg er en del av det varme000000002: i heisen hvem er nøkkelen ut av en bit av baseball klokken eller vet hva du skal gjøre med i liv000000003: hva er de som vil gjenopprette000000004: de skrev ikke den000000005: de har på meg rett ut000000006: du må være regler000000007: Jeg har ventet deg000000008: og han lærte her det var en illustrasjon, var det morderen julefest000000009: Det viser seg en måte å skrive på. ekk, jeg trodde at noen alltid bærer en000000010: Som problemet united vil ikke gi han det gode jeg er de estimerte dem i det øyeblikket da vi ikke alt det du tror jeg er i verden, vil hjem og jeg har sett det000000011: en far som har det000000012: Hva mye om dette000000013: Gjør det gitt000000014: Alt du de som ikke faller for mye000000015: rett på høsten000000016: Vel, hold meg bare for meg000000017: det er en ulykkelig hvis jeg tror også at de skal ha en som den som vil alt det som giftes på en var nei, jeg liker jeg i motsetning til veien

Min test kan nesten ikke betraktes som vitenskapelig, og utviklerne av PocketSphinx kan anføre at jeg ikke bruker programvaren riktig. Det er også en teknikk som kalles taletrening, som kan brukes til å lage bedre ordbøker og språkfiler.

Min overordnede mening er at det bare er for vanskelig for vanlig daglig bruk.

VoiceNote II

VoiceNote II er en Chrome-app som bruker Google Voice-gjenkjennings API.

Hvis du bruker Chrome- eller Chrome-nettleserne, kan du installere VoiceNote II via nettbutikken.

Ikonene på VoiceNote II er lagt ut på en merkelig måte, da du må sette opp språket nederst i vinduet, og redigerings-knappen er også nederst, men opptaksknappen er øverst til høyre.

Det første du må gjøre er å velge et språk, og dette kan oppnås ved å klikke på verdensikonet.

For å begynne å spille inn, klikk på mikrofonikonet og begynn å snakke i mikrofonen. For de beste resultatene jeg syntes å snakke sakte var nøkkelen, slik at programvaren ville ha en sjanse til å fortsette.

Resultatene var ikke gode som det kan sees nedenfor:

Hei og velkommen til å koble til. Go-Travels.com dagens artikler om stemme til tekst konvertering dunelm farrell recession 2008 som konverteringer og det sa godt støttet den beste måten jeg fant stemme tekst tillegg for å vise 2014debian eller rpm pakke åpne det taletype til tale til tekst åpne det hvis du vil velge vs valgte i edinburgh fransk tysk får deg tiden i United Kingdom start på sjøen microphonewhat du ferdig med å skrive teksten som en tekstfil til itsuccess vel det er veldig standard engelsk aksent fra sør for england best for det, men jeg skal til textvia denne torrentalong med selve dokumentet, og du kan se for de feilene som makethank deg for listeningfriends

Dictanote

Dictanote er en annen Chrome-app som kan brukes til diktatformål og kom over som mer intuitiv, men resultatene var ikke noe bedre enn VoiceNote II.

Jeg brukte bare demoversjonen av Dictanote som forhindrer deg i å lage nye dokumenter, men det lar deg snakke over tekst som allerede er i redigeringsprogrammet. Jeg var i stand til å teste stemmegjenkjenningen, men resultatene var ikke bedre enn VoiceNote II, og så registrerte jeg ikke for pro-versjonen.

Diktat og post

"Diktat og e-post" er en Android-applikasjon som bruker den innfødte Google-stemmegjenkjennings-APIen.

Resultatene fra "Diktat og post" var mye bedre enn noe av det andre programmet som ble forsøkt opp til dette punktet.

Hei velkommen til Linux Lifewire. I dag snakker vi om å konvertere lyd til tekst

Trikset med "Diktat og post" er å snakke sakte og uttalt så godt du kan med en jevn aksent.

Når du er ferdig med å snakke, kan du sende resultatet til deg selv.

Snakk og snakk diktat

Den andre Android-applikasjonen jeg prøvde var "Talk and Talk Dictation".

Grensesnittet for denne appen var det beste av gjenga og stemmen anerkjennelse fungerte veldig bra faktisk. Etter opptak av dikteringen kunne jeg dele resultatene på ulike måter, inkludert via e-post.

velkommen til linux Go-Travels.com i dag snakker vi om å konvertere tale til tekst

Som du kan se, er teksten ovenfor omtrent like tydelig som du muligens kan forvente å få. Snakkes sakte er nøkkelen.

Sammendrag

Native Linux har en måte å gå med hensyn til stemmegjenkjenning og spesifikt diktatisering. Det er noen programmer som bruker Google Voice API, men de er ikke oppført i repositorier.

ChromeOS-programmer er litt bedre, men de beste resultatene ble oppnådd ved hjelp av min Android-telefon. Kanskje telefonen har en bedre mikrofon, og derfor er talegjenkjenningssoftware en bedre sjanse for konvertering.

For talegjenkjennelse for å bli virkelig brukbar, må det være mer intuitivt med mindre oppsett nødvendig. Du bør ikke rote rundt med språkmodeller og ordbøker for å gjøre det forståelig.

Jeg setter stor pris på at hele kunsten med talegjenkjennelse er svært utfordrende fordi alle har en annen stemme, og det er så mange dialekter fra region til region i ett land som aldri er bekymret for de hundrevis av språkene som brukes over hele verden.

Min analyse er derfor at talegjenkjennelsesprogramvaren fortsatt er i gang.