Full installation och installation av Realtek High Definition Audio. Den enklaste kontrollen av en dator med din röst

Youtube

Jag arbetar ofta på min dator medan andra familjemedlemmar sover. Vanligtvis, innan jag påbörjar eller avslutar arbetet, stänger jag av ljudet, men om jag glömmer att göra detta eller om det uppstår en nödsituation, bärs ljud genom hela huset. Finns det något sätt att stänga av Windows automatiskt?

Andrew Hobbs, North Carolina

I drift Windows -system erbjuder inte tyst nedladdning som ett speciellt alternativ, men några rondeller och några verktyg hjälper till att övervinna denna begränsning. Här är några av mina favorit tricks och verktyg för att hålla din dator från att prata och styra dess ljudfunktioner i allmänhet.

Hårdvara metod. Det enklaste sättet att tysta datorn innan den ens börjar göra ljud är att sänka volymen till noll genom att vrida volymkontrollen på högtalarna, eller helt enkelt stänga av strömmen om det finns en strömbrytare.

Tyvärr, liknande sätt passar inte bara för bärbara datorer, utan också för många stationära system... För enskilda datorer kan du dock stänga av ljudet via inställningsskärmen om du går in där vid starttid innan Windows startar. Naturligtvis, för att få tillbaka ljudet, måste du starta om och ändra inställningarna igen.

Stäng av ljudet vid start. Mer bra beslut- med ett gratis verktyg för att stänga av ljudet. Läsaren Christian Klukas från Magdeburg skapade programmen Mute och SetVol. Dessa gratis verktyg tillgänglig på find.pcworld. com / 12280. Placera dem i en valfri mapp. Klicka på för att tysta Windows -start Högerklicka musen på "Start" -knappen, välj "Öppna", dubbelklicka på ikonen "Program" och sedan, även två gånger, på "Start" -ikonen. Använd Explorer eller Starta sökningen för att hitta filen mute.exe. Dra den med höger musknapp nedtryckt till mappen "Start" och välj alternativet "Skapa genväg". Håll sedan ned tangenten, dubbelklicka på genvägen (eller högerklicka på den och välj "Egenskaper") för att öppna listan med dess egenskaper. Klicka på "Objekt" -fältet på fliken "Etikett". Placera markören i slutet av det befintliga kommandorad och ange ett mellanslag med nästa alternativknapp du vill ha; v det här fallet kräver fördröjning. När du är klar ska kommandoraden se ut ungefär "C: Program Filesmute.exe" på -delay (Figur 1).

Klicka nu på OK. Detta kommando stöder Mute -programmet i aktivt tillstånd så att ljudet stängs av varje gång du loggar ut eller loggar ut från Windows.

Även om Mute bara tar upp 1,5KB RAM, kanske du inte vill att det ska vara där hela tiden. Ta därför bort -fördröjningssekvensen från kolumnen "Objekt" i fönstret för genvägsegenskaper, och sedan stängs ljudet av under Windows -start och programmet Stäng av stängs. Windows kommer dock fortfarande att spela upp ett ljud när du startar applikationer från startmappen (inklusive Mute -programmet), så du får inte en helt tyst start. Du kan undvika detta problem genom att välja Start? Inställningar? Kontrollpanelen? Ljud (Ljud och multimedia i Windows 2000 och Me). I listan "Händelser" (i Windows 2000 och Me, välj först fliken "Ljud"), markera "Starta Windows", välj sedan "(Nej)" i fönstret "Arkiv". Om det finns andra program som startar i början av datorn kan du behöva upprepa detta steg för händelserna "Öppna programmet" och "Stänga programmet". Klicka på OK när du är klar.

Om du bara behöver stänga av startljudet ibland kan du använda Mute med -fördröjningsknappen, men starta programmet med hjälp av genvägen manuellt istället för att placera det i mappen Start.

Stäng av ljudet vid avstängning. Mute -programmet kan också aktiveras från alla applikationer som skapats specifikt för att starta program när stänga av Windows... Ett par sådana program beskrivs i sidofältet "Windows -verktyg".

Ikon i aktivitetsfältet. När ljudet är avstängt kan du återaktivera det genom att klicka på högtalarikonen i systemfältet (runt dygnet). När volymkontrollpanelen visas på skärmen stänger du av funktionen i rutan till vänster om Av. För att stänga av ljudet igen, upprepa samma steg, aktivera funktionen igen med ett klick. Om högtalarikonen inte syns öppnar du Kontrollpanelen och dubbelklickar på ikonen Multimedia (Windows 9x) eller Ljud och multimedia (Windows Me eller 2000). Slå på alternativet i läget "Volymkontroll i aktivitetsfältet" och klicka på OK. På panelen Windows -uppgifter XP klicka på ikonen Ljud, tal och ljudenheter, sedan på Ljud och ljudenheter. Slå på Visa systemfältikon och klicka på OK.

Snabbstart. När du klickar på högtalarikonen i aktivitetsfältet visas volymkontrollen ibland bara på skärmen efter några sekunder. För att undvika denna fördröjning kan du använda Mute -verktyget för att slå på och stänga av ljudet, eller du kan använda SetVol -verktyget för att ställa in volymnivån med ett enda klick på ikonen i snabbstartfältet på vänster sida av Windows aktivitetsfält.

Om du vill skapa en permanent ljudknapp väljer du Start, Sökalternativ som du vill hitta mute.exe-filen och drar den sedan med höger till snabbstartsfältet. Välj sedan alternativet "Skapa genväg". Ikonen Ljud av som visas som ett resultat av den här operationen kan användas för att stänga av eller stänga av ljudet. För att få volymkontrollikonen, gör samma sak för filen setvol.exe. Högerklicka sedan på SetVol-ikonen i snabbstartfältet och välj Egenskaper. I slutet av kommandoraden, i fältet Objekt på fliken Genväg, ange ett mellanslag följt av sekvensen -10. Skapa nu en ny genväg för SetVol med omkopplaren +10 i slutet av kommandoraden. Om du vill minska volymen med 10%, klicka på den första av dessa genvägar, och om du ökar den med 10%, klicka på den andra. Du kan använda alla siffror med ett steg lika med 10. Om du utelämnar tecknen "+" eller "-", kommer volymprocenten som du anger att ställas in.

Om du vill ge verktygsspetsar för nya ikoner högerklickar du på ikonen och väljer Byt namn. Ange prompttexten och klicka på OK (Windows 98 SE). I tidigare Windows -versioner För att göra detsamma, högerklicka på ett tomt fält i panelen "Snabbstart" och välj alternativet "Öppna", använd sedan den snabbtext som passar dig som namnet på ikonen (fig. 2).

Kontroll från tangentbordet. För att slå på och stänga av ljudet med tangentbordet, skapa en genväg till Mute -verktyget och placera det på skrivbordet eller i någon mapp i huvudmenyhierarkin. För att göra detta rekommenderar jag att du organiserar en mapp som heter Tangentbordsgenvägar (eller Tangentbordsgenvägar, om du vill) i huvudmenyn / program. Detta gör det enkelt att hitta information om dina kortkommandon om du någonsin skulle behöva ta bort eller byta ut dem.

Högerklicka på genvägen du behöver och välj Egenskaper. På fliken "Genväg" klickar du på "Genväg" -fältet och trycker sedan på knapparna som du vill tilldela för att aktivera / inaktivera ljudet. Om du väljer vilken som helst av funktionstangenter(- tangenterna på tangentbordets översta rad) eller en tangent på numerisk knappsats, kommer du inte att kunna använda den för andra ändamål i framtiden, så det är bättre att ange kombinationer, +, +, +eller ++ med någon annan nyckel. Försök också att välja en kombination som du inte kommer att ha i andra program (bild 3).

Klicka på OK. Om du senare tar bort den här genvägsknappen måste du starta om Windows för att motsvarande kombination ska bli ledig igen.

Kompakt volymkontrollpanel. Om du dubbelklickar på högtalarikonen i aktivitetsfältet visas en volymkontrolldialog på skärmen, inklusive en balanskontroll och separata volymkontroller för Wav-ljud, laserspelare etc. (den specifika uppsättningen beror på uppsättningen ljuddrivrutiner installerat på ditt system). För att göra denna dialogruta mer kompakt, tryck på + S (Figur 4). Det kommer att behålla detta nya, snyggare utseende tills du öppnar det igen och trycker på + S.

Direkt samtal till Aktivitetshanteraren

Windows 2000. Windows Aktivitetshanterare gör det enkelt att inaktivera dold eller problematiska applikationer, kontrollera vilka av programmen som slukar Bagge och analysera processorn. Du kanske är ett passionerat Task Manager -fan - och vet inte kortaste vägen gå till det här verktyget.

I Windows 2000 kan Aktivitetshanteraren startas genom att trycka på ++ -kombinationen för att visa " Windows säkerhet"Och klicka sedan på knappen" Aktivitetshanteraren ".

I Windows XP behöver du bara högerklicka på ett tomt utrymme i aktivitetsfältet och välja alternativet "Aktivitetshanteraren" från rullgardinsmenyn.

Och här är ett sätt att göra åtkomsten till Aktivitetshanteraren ännu bekvämare. Läsare Timothy J. Luoma från pc. Florida anger att när Aktivitetshanteraren körs placerar den en liten animerad ikon i systemfältet (nedre högra hörnet av skärmen) för att representera CPU: n. När du svävar över den och håller den där några ögonblick kan du också se ett meddelande om hur mycket CPU som används - den visas som en del av verktygstipset för den här ikonen. Om du gillar den här funktionen, varför inte få Aktivitetshanteraren att fungera hela tiden genom att placera en genväg till den i startmappen?

Högerklicka på Start-knappen och välj Öppna. Dubbelklicka på ikonen "Program" och sedan på "Start". Klicka på "Start" -knappen igen, välj "Hitta? Filer och mappar", ange kommandot tаskmgr.exe i den översta kolumnen, i kolumnen "Var ska du söka" anger enheten från vilken systemet startades (för de flesta användare det kommer att vara c :), och klicka på knappen "Hitta". När du ser programfil Aktivitetshanteraren i sökresultatfönstret, höger-dra den till den utökade startmappen. När du har släppt musknappen väljer du alternativet "Skapa genvägar". Högerklicka nu på den nya genvägen och välj Egenskaper. Välj sedan fliken "Genväg" och i listrutan i kolumnen "Fönster" - "Minimerad till ikon". Klicka på OK. För att hålla Aktivitetshanteraren utom synhåll när du inte behöver det, dubbelklicka på genvägen för att starta verktyget och välj "Alternativ? Dölj minimerat" i menyn högst upp i fönstret.

Nu startar Aktivitetshanteraren osynligt, men du kan alltid öppna fönstret genom att dubbelklicka på CPU-ikonen i systemfältet.

Scott Dunn. Ljud av: Ta kontroll över Windows ljudkontroller. PC World, januari 2002, sid. 148.

Starta uppgifter vid avstängning

Tillgänglig i Windows -mapp"Huvudmeny / Program / Start" och "Task Scheduler" kan användas för att automatisk start applikationer eller utföra andra uppgifter vid specifika tidpunkter, förutom när du behöver stänga av datorn. Om du vill städa upp tillfälliga filer som skapats under dagen när du stänger av datorn eller, säg, stäng av ljudet efter jobbet, hjälper följande verktyg dig.

Som möjligt gratis lösning prova ActiveSaver, en tunn 45K skärmsläckarfil (.scr) som, precis som en vanlig skärmsläckare, hjälper dig att starta en annan fil, avsluta Windows eller båda efter en förutbestämd tid. För att konfigurera ActiveSaver gör skärmsläckarens standard "Inställningar" -knapp. (Öppna åtkomst till den genom att högerklicka på skrivbordets fria yta, välj "Egenskaper" och klicka på "Skärmsläckare" -fliken). Men för att ActiveSaver ska fungera behöver det inte ens specificeras specifikt som den aktiva skärmsläckaren. Dra bara och släpp ActiveSaver.scr -filen på Start -knappen eller snabbstartfältet, och sedan, om du tror att du har fått nog för idag, använd den resulterande positionen / ikonen istället för de vanliga Start / Shutdown -kommandona.

ActiveSaver tillåter bara ett program att köras vid avstängning, och på min Windows 2000 -maskin är det i konflikt med datorns avstängningsfunktion. Om det oroar dig, eller om du vill ha ett mer funktionsrikt verktyg, överväg ShutdownPlus. Med detta shareware -program kan flera uppgifter köras vid avstängning, och i Windows 98 och senare ersätter det Windows -avstängningsdialogrutan med sin egen. Det betyder att du inte behöver starta någon speciell applikation för att logga ut. ShutdownPlus kommer i personliga ($ 30) och professionella ($ 40) versioner. Båda dessa program kan erhållas från ind.pcworld.com/12280.

Vissa webbplatser baserade på Flash-teknik har möjlighet att styra ljud. Du kan till exempel stänga av ljudet medan du spelar en tecknad film, ändra volymen och på vissa platser kan du till och med justera ljudbalansen. Tänk först allmän information och sedan gå vidare till ett exempel.
Ljudobjekt

För att arbeta med ljud behöver du bara använda ett objekt i klassen Sound och dess metoder. Först definieras objektet med följande konstruktion:
Mysound = nytt ljud Oh;
Här är Mysound namnet tilldelat ett objekt i ljudklassen. Nu kan du styra ljudet genom att lägga till metodnamn till objektnamnet under en period och ange
nödvändiga parametrar. Följande är huvudmetoderna för ljudobjektet:

attachSound ("sound_name") - bifogar en ljudfil från biblioteket till tecknad film;
getPan () - returnerar det sista balansvärdet i intervallet från -100 till 100. Den vänstra dynamiken motsvarar ett negativt värde, till höger - ett positivt värde. Ett värde på 0 representerar en jämn fördelning av ljudintensiteten mellan högtalarna;
getVolume () - returnerar volymnivån i intervallet från 0 till 100;
setPan () - Ställer in balansen mellan vänster och höger högtalare. Värden från -100 till -1 är högre på vänster högtalare och värden från 1 till 100 är högre till höger;
setVolume () - ställer in volymen i intervallet från 0 till 100. Standardvärdet är 100;
start (fördröjning, num_repeats) - startar uppspelning ljudfil. Valfria parametrar låter dig ställa in fördröjningstiden i sekunder och antalet upprepningar av uppspelningen;
stop () - pausar uppspelningen av en ljudfil. Det finns inga parametrar;

Förutom de som anges ovan finns det ytterligare en metod för Sound -objektet - setTransform. Syntaxen för att använda den är annorlunda. För att anropa setTransform -metoden måste du ange ett objekt som är kopplat till parametrarna för högtalarkontroll. Därefter skapas ett objekt i klassen Sound, som kommer att bearbeta värdena för dessa parametrar med setTransform -metoden. Parametrarna i fråga bestämmer nivån på insignalen i procent (i intervallet från -100 till 100):

l reproduktionsnivå i den vänstra högtalaren för signalen som kommer från den vänstra ingången;
1 r- uppspelningsnivå i den vänstra högtalaren för signalen som kommer från
höger ingång;
r r - uppspelningsnivå i signalens högra högtalare
från den högra ingången;
r l - uppspelningsnivå i den högra högtalaren för signalen som kommer från den vänstra ingången.

Som standard är ll- och rr -parametrarna inställda på 100, och parametrarna 1r och rl är inställda på 0. Proceduren för att ställa in ljudparametrar med setTransform -metoden är följande:
Mytransform = ne Object ();
Mytransform.il = 100;
Mytransform.Ir = 0;
Mytransform.rr = 100;
Mytransform.rl = 0;
MySound = nytt ljud ();
MySound.setTransform (Mytransform);

Intressanta effekter kan uppnås genom att ange andra kombinationer av ljudparametrar.

Exempel på ljudkontroll
Låt oss nu titta på ett exempel på hur du skapar en ljudkontroll. I den nya tecknade, låt oss definiera tre lager. Den första, den översta, kommer att kallas action, den andra - volymen och den tredje - pan. Vi borde få, som visas på bilden:

Ris. 630. Skapa actionlager, volym och panorering i en tecknad film
Låt oss sätta följande åtgärd i åtgärdsskiktet:

zvuk = nytt ljud ();
zvuk.attachSound ("zvuk");
zvuk.start (0, 999999);

Detta skapar ett nytt ljudobjekt. Vi bifogar det från ett bibliotek som heter zvuk och startar det från position 0, och anger antalet repetitioner till 99,999 gånger (dvs. nästan oändligt). Om vi börjar teckningen nu, kommer vi inte att se eller höra någonting. För att höra något måste du ge ljudet ett namn. För att göra detta, öppna biblioteket och hitta vår ljudsymbol i det. Det spelar ingen roll vad det heter där nu. För att namnge ett ljud, högerklicka på dess namn och välj Länk () från snabbmenyn. I fönstret som öppnas väljer du alternativknappen Exportera denna symbol och anger namnet zvuk. Med andra ord kommer vi att göra som visas i figuren:

Ris. 632. Ange koordinater och dimensioner för ljudvolymskalan

Låt oss nu skapa ett nytt lager i denna symbol och placera polzunok_MC_volume där. Skjutreglaget ska ligga över skallagret. Sätt reglaget i mitten av skalan och tilldela det följande åtgärd:
onClipEvent (enterFrame) (
root.zvuk.setVolume (detta. x);
Detta säkerställer att ljudet har ett värde som motsvarar x -koordinaten för reglaget. Gå nu till huvudscenen och sätt in symbolen shkala_volume där. Så vi har skapat en ljudvolymkontroll.
Nu kommer vi att organisera ljudbalansen mellan vänster och höger högtalare. För att göra detta, skapa en knappsymbol med namnet polzunok_pan och rita ett skjutreglage där, skapa sedan en filmklippsymbol med namnet polzunok_MC_pan och placera vår polzunok_pan där. Låt oss ge det en åtgärd:
på (tryck) (
startDrag (detta, falskt, på (release) (stopDrag ();
-100, 0, 100, 0) ;
}
Låt oss nu skapa ett annat filmklipp med namnet shkala_pan. Låt oss rita vår skala där i form av en rektangel med parametrar, som visas i figuren:

Ris. 633. Ställ in koordinater och storlekar på ljudbalanseringsskalan

Skapa ett annat lager i samma symbol och placera det ovanför det aktuella. I detta lager placerar du reglaget polzunok_MC_pan och anger följande åtgärd för det:

OnClipEvent (enterFrame)
(root.zvuk.setPan (detta. x);

Gå nu till huvudscenen och sätt in shkala_pan ljudbalanseringsskala i den. Titta på tecknad film och prova att ändra reglagen. Om det inte finns några fel kommer allt att fungera.

Vi har dock ingen digital visning av volym och ljudbalans. Låt oss också utveckla en sådan tjänst. Låt oss infoga två dynamiska textfält på huvudscenen. En för volymvisning och en för balans. Låt oss kalla dem vol respektive pan. Låt oss ta itu med volymfältet först.
Välj symbolen shkala_volume och öppna åtgärdspaletten för vårt reglage. Låt oss lägga till följande kod i den befintliga:
s = nytt ljud (zvuk);
_root.vol = s.getVolume ();
Således bör vi få följande:
onClipEvent (enterFrame) (
i Flash
rot. zvuk. ställ in volym (detta. _x); ^ = nytt ljud (zvuk); root.vol = s. getVolume ();
}

Nu kan användaren se det digitala värdet på ljudvolymen. Låt oss börja organisera den digitala visningen av balansen. För att göra detta, låt oss gå till symbolen shkala_pan och lägga till följande kod i dess åtgärder:
s = nytt ljud (zvuk);
rot. pan = s. getPan (); Resultatet ska vara: onClipEvent (enterFrame) (
rot. zvuk. ställ in Pan (detta -_x); s = nytt ljud (zvuk);
rot. pan = s.getPan (); )
Nu informeras användaren om ljudbalansen. Men när reglaget rör sig till vänster om skalan ser vi negativa tal. Vanligtvis i liknande program positiva siffror och bokstaven "L" eller "R" visas. Låt oss försöka göra detsamma. För att göra detta, i shkala_pan -symbolen i paletten Åtgärder för reglaget, kommer vi att förändras något befintlig kod... Efter bytet bör du få:
onClipEvent (enterFrame) (_root.zvuk. setPan (this ._x); s = nytt ljud (zvuk);
om (detta ._x<0) (
_root.pan = - (s .getPan ()) + "Vänster"; ) annars if (this._x> 0) (_root.pan = s. getPan () + "Right";) annars if (this._x = = 0) (_root.pan = s. getPan ();
Här ställer vi upp ett villkor att om värdet på skjutreglatorns x-koordinat är mindre än noll (dvs balansen flyttas till vänster), returneras värdet med minus i panelfältet (ett negativt tal med ett minus är ett positivt tal). Dessutom tilldelas strängen Vänster till det numeriska värdet. Och om balansen flyttas till höger, så förblir allt som det är och tilldelas också till höger. Om värdet på x -koordinaten är noll tilldelas ingenting alls. Nu har vi en mer bekant form för att visa balansen. På samma sätt kan du få det att matas ut med minsta volym, till exempel "AV" eller "Av", och med det maximala värdet - "MAX". För att göra detta behöver du bara ersätta koden för reglaget i symbolen shkala_volume med följande:
_rot. zvuk. ställ in volym (detta. _x);
s = nytt ljud (zvuk);
om (detta._x == 0) (
root.vol = "Av"; T
annars om (detta._x == 100) (_root.vol = "MAX"; T
else (_root.vol = s.getVolume ();

Denna artikel talar om trådbunden headset som arbetar med OS-baserade enheter Android.
Ett headset är en hörlur med mikrofon.

Headset med en knapp

Ett headset med en knapp är så enkelt att praktiskt taget alla moderna telefoner är kompatibla med alla headset med en knapp. De enda undantagen är headset "för gamla Nokia" på grund av att de är anslutna enligt den "gamla" standarden, men du måste fortfarande leta efter dem.

En-knapps fjärrkontrollen innehåller en mikrofon, en kondensator och en kortslutningsknapp. Alla är parallellt kopplade till varandra och föras ut till kontakterna 3 och 4 på TRRS -kontakten ▼

När du trycker på knappen förbikopplas mikrofonen och motståndet mellan kontakterna på pluggen 3-4 sjunker till noll... På denna grund förstår smarttelefonen att knappen har tryckts in. Kondensatorn tjänar till att jämna ut klicket som uppstår när knappen trycks in. Dessutom är det genom närvaron av en kondensator som vissa smartphones bestämmer att ett headset är anslutet till dem.

Knappens huvudfunktioner är att ta emot ett samtal, avsluta en konversation och slå på röstsökning. Röstsökning anropas genom att hålla knappen intryckt tills en karakteristisk signal visas - "OK Google pip" ▼

När du spelar upp ljud eller video pausar knappen. Förresten, när du spelar in på en diktafon också.

Du kan utöka funktionerna för en knapp, t.ex. dubbelklicka- övergång till nästa spår, trippel - till föregående. För detta tjänar de speciella applikationer- leta efter dem Google play på begäran som "headset knappstyrning". Dessutom tillåter vissa spelare dig att anpassa funktionen för headsetknappen, till exempel "Dream Player".

Headset med tre eller fler knappar

Mer sofistikerade headset låter dig justera volymen och växla spår framåt / bakåt. Denna eller den funktionen orsakas av att ett visst motstånd ställs in mellan kontakterna 3-4 på TRRS-kontakten ▼

Och här är inte allt så enkelt som med ett enda knapps headset. Det finns som vanligt två problem:

Det finns ingen enda standard för värdet av dessa motstånd! Varför finns det ingen fullständig kompatibilitet med tre knappar headset med olika modeller smartphones. Varje tillverkare har sitt eget motstånd. Fast det finns en som försöker förena alla.

Smarttelefonen är inte alls skyldig att utföra alla ljudkontrollkommandon. Samsung kan till exempel utan någon programvaraändra volymen på kommandot från headsetet, men vet inte hur man byter spår. Och lite Fluga modeller styrs inte alls av motstånd.

Det vill säga ett HTC-headset med tre knappar kommer naturligtvis att återge ljud från Samsung och mikrofonen fungerar. Men att byta spår fungerar inte, även om det finns spolningsknappar på fjärrkontrollen. Det enda som fungerar med alla smartphones är Play / Pause -knappen. Det stänger helt enkelt stiften 3-4 på TRRS-kontakten.

Naturligtvis med androfoner fungerar inte medieknappar på ett iPhone -headset.

Xiaomi, Nexus One

Xiaomi och Nexus ett på kommando från fjärrkontrollen växlar spår. Motståndsvärdena motsvarar den information som är utbredd i nätverket om den påstådda standardsats motstånd för Android -smartphones. Faktum är att inte alla androfoner stöder denna "standard".

Paus ⏸ - 0 Ω
Föregående spår ⏪ - 220 Ω
Nästa spår ⏩ - 600 Ω

HTC Desire

Budgetmodell HTC Desire styr volymen. Som jämförelse noterar jag det HTC Sensation XE styr spårväxling.

En fullständig beskrivning av parametrarna, samt instruktioner för inställning av det inbyggda ljudet Realtek -kort... Inställning av uppspelning, inspelning, 3D -ljud. Windows Vista / 7/8

2012-02-17T18: 19

Audiophiles programvara

Hela eller delvis kopiering av texten är tillåten endast med författarens skriftliga tillstånd.

Prolog

Den här gången kommer jag att beröra ett ämne som är relevant så att säga för nybörjare - det vill säga för dem som ännu inte fått tag i ett diskret ljudkort och vill få ut det mesta av det integrerade.

1. Utbildningsprogram

Att börja - kort utbildningsprogram... Som inte vet, eller inte helt förstår vad det är hårdvara ljud codec, läs noggrant de relevanta Wikipedia -sidorna:

Har du läst den? Bra! Och nu skulle det vara väldigt trevligt om du läser mina två artiklar:

Tja, nu kan vi börja.

2. Vad har vi

Så till mitt förfogande finns Windows 7 SP1 Ultimate x64 (inställningen som beskrivs i artikeln är lämplig för alla operativsystem, från Vista), inbyggt i moderkort(ASUS P7H55-V) ALC887-codec (datablad finns), extern förstärkare och mikrofon anslutna till de bakre kontakterna (gröna respektive rosa uttag). Observera att vi kommer att konfigurera kartan för uttag stereo- ljud av analog gränssnitt.

3. Programvaruinstallation

Först och främst måste du installera drivrutinerna. Naturligtvis har troligen Windows redan hittat och installerat drivrutiner för ljudenhet Men för att få tillgång till all funktionalitet och för sinnesro kommer vi att installera drivrutinspaketet direkt från Realtek, senaste versionen som du kan ladda ner på motsvarande sida på min webbplats. Förresten, de här angivna inställningarna testades på R2.67 -drivrutinsversionen.

Vi laddar ner drivrutinerna, utför en enkel installationsprocedur (genom att köra HD_Audio / Setup.exe), starta om din dator.

När du har läst in operativsystemet ska en brun högtalarikon visas i systemfältet:

4. Förarkonfiguration

Först och främst går vi till Windows Kontrollpanel-> Maskinvara och ljud-> Ljud och, se till att våra hörlurar eller högtalare är anslutna till ljudkortets gröna uttag, kopplar vi bort alla onödiga enheter och gör vår anslutna enhet till standardenhet:

Vi gör samma sak med inspelningsenheter samtidigt:

Dubbelklicka nu på fackikonen. Om det inte finns någon ikon, leta efter den dolda ikoner, om det inte finns där också, går vi till Kontrollpanelen-> Hårdvara och ljud->... På ett eller annat sätt ska avsändarfönstret öppnas:

Här ställer vi omedelbart in högtalarkonfigurationen (stereo), ställer in vår analoga enhet som standardenhet (varefter motsvarande knapp släcks), stänger av, om Gud förbjuder, surroundljud är på.

Knappen i form av en gul mapp kan användas för att inaktivera detektering av kontakter på frontpanelen:

Observera också att de anslutna kontakterna visas ljus färg- i vårt fall är högtalare anslutna till den gröna utgången, en mikrofon är ansluten till den rosa ingången. Här är en mycket viktig detalj: genom att dubbelklicka på anslutningsikonen ser du ett fönster med val av typ av ansluten enhet. Detta är viktigt för om du väljer "hörlurar", då använder codec en speciell extra förstärkare (annars blir ljudet i hörlurarna för tyst) för den anslutna aktiva högtalare eller externa förstärkare bör väljas "Utgång till främre högtalare"... Här aktiveras den automatiska popup-fönstret i det här fönstret när enheten är ansluten till någon av kortplatserna:

Med "i" -knappen kan du öppna ett fönster med information om drivrutinsversionen, DirectX, ljudkontrollen och codec -versionen, på samma ställe kan du slå på / av visningen av ikonen i systemfältet:

Låt oss nu stänga av effekterna:

"Rumskorrigeringar" -inställningarna för stereokonfigurationen är inte tillgängliga, vilket faktiskt är konstigt - i samma konsol från THX (som till exempel ingår i förarpaketet Kreativ X-Fi) kan du justera avståndet och riktningsvinkeln till högtalarna i förhållande till din plats, vilket är mycket användbart när du inte sitter direkt framför högtalarna, eller om de inte är symmetriskt placerade i förhållande till dig. Okej, låt det vara på utvecklarnas samvete.

Den sista fliken duplicerar inställningarna på kontrollpanelen (de flesta inställningarna från chefen finns dock också på kontrollpanelen):

Här kan du ställa in parametrarna för systemblandaren - med vilken samplingshastighet och djup Windows -bit blandar alla spelade ljud. Låt oss ställa in den på 24 bitar, 96 kHz. Varför - jag ska berätta mer.

Eftersom jag ständigt stormas av frågor om hur man ställer in en mikrofon (vilket enligt min mening borde orsaka ett minimum av förvirring) kommer jag fortfarande att fokusera på att installera inspelningsenheter. Deras inställningar, förresten, liksom uppspelningsenheter, finns på separata flikar högst upp i fönstret. Låt oss börja med en stereomixer:

Allt är elementärt här. Denna enhet registrerar allt du hör via högtalarna, det vill säga den färdiga ljudströmmen som Windows överför till ljudkortet. Det reduceras till den angivna formen (eftersom mixern arbetar med en samplingshastighet på 96 kHz, då sätter vi samma här).

Men vår huvudsakliga inspelningsenhet är naturligtvis mikrofonen:

Så, ställ in inspelningsvolymen till max och stäng av mikrofonförstärkningen (då kan du vid behov slå på den). Också ofta klagar människor på att de spelar ljudet som uppfattas av mikrofonen, så att detta inte händer - stäng av uppspelningen. Efter din smak - brusfiltrering, ekotryck... I fliken , igen, inspelningsformatet är inställt:

Med tanke på egenskaperna hos ljudinspelningsvägen räcker det med standard 16 bitar / 44,1 kHz här.

5. Konfigurera foobar2000

I princip är arbetet tillräckligt för att säkerställa högsta (för detta kort) ljudkvalitet i någon spelare. Men för den riktiga paranoid, jag ger dig foobar2000 inställningar. Vi kommer faktiskt att behöva själva spelaren och flera plugins för den - WASAPI -utgångsstöd och SoX Resampler... Tja, eller så kan du ladda ner min samling, som redan har allt.

Så, i spelarens utgångsinställningar (File-> Preferences-> Playback-> Output) välj WASAPI:<наше устройство> , vi ställer in bitdjupet 24 bitar:

Vid utmatning via WASAPI Exclusive kringgås alla ljudkortseffekter (om aktiverat), liksom Windows -mixern (för vilken vi specificerade samplingshastigheten).

Låt oss nu gå vidare till DSP -inställningarna:

Här lägger vi till omvandlaren SOund eXchange och Advanced Limiter i kedjan. Ställ in frekvensen på 96 kHz i omkopplingsinställningarna.

Och nu - varför 96 kHz. Jag gjorde en rad experiment och här är vad jag fick reda på. I "fronthögtalarnas utgång" -läge, om volymkontrollen är inställd på mer än 90%, vid uppspelning av en testton udial(44,1 kHz samplingshastighet) Stark distorsion hörs. Förvrängning försvinner om du antingen sänker volymen, eller byter till hörlursläge eller omproverar ljud till 96 kHz.

Det är svårt att bedöma orsakerna till detta fenomen enligt tillgängliga data, men det är möjligt att dra slutsatser och spela säkert två gånger: mata ut allt ljud med en samplingshastighet på 96 kHz och höj inte volymen till mer än 90%.

Och några ord om behovet av att konfigurera foobar2000. I princip är det möjligt att mata ut ljud till "DS: Primary ljuddrivrutin". I detta fall kommer omprovning att utföras Windows -verktyg(resamplern är inte det värsta där), dessutom kommer alla andra ljud inte att stängas av (som vid spelning via WASAPI Exclusive). Dessutom att välja denna apparat, Kommer Windows att mata ut ljud till den enhet som är inställd som standard på kontrollpanelen, vilket är bekvämt (till exempel när en av enheterna kopplas bort växlar ljudet automatiskt till den andra). Så valet är ditt - bekvämlighet eller förtroende för kvalitet.

6. Uppståndelse av 3D -ljud och hårdvarublandning

Och jag har naturligtvis inte glömt spelarna. Eftersom det i Windows, från Vista, inte finns någon åtkomst till hårdvarublandning av strömmar (alla operationer utförs av Windows, och sedan matas en enda ström ut till ljudkortet), utvecklarna kom med ett speciellt program, analogt med Creative ALchemy, men för Realtek - 3D SoundBack. Den ansluter till hårdvaruresurser via OpenAL -gränssnittet och emulerar för dessa program Windows emulerar en DirectSound -enhet (som i Windows XP) och konverterar sedan helt enkelt DirectSound (eller DirectSound 3D) -kommandon till OpenAL -kommandon som ett resultat - vi får riktiga EAX 2.0 i spel, liksom möjligheten att konvertera flerkanaligt ljud till stereo med surround -effekter.

För att köra programmet, öppna mappen ... / Programfiler / Realtek / 3D Sound Back Beta.0.1, i filegenskaper 3DSoundBack.exe i fliken "Kompatibilitet" Installera Windows Vista SP2 -kompatibilitetsläge:

Kör nu den här filen. För att lägga till ett program - klicka Lägg till spel, ange namn och adress för mappen som innehåller körbar fil program. Till exempel:

Efter att du har lagt till, glöm inte att markera det tillagda programmet och tryck på knappen Gör det möjligt.

Nu kommer den angivna applikationen som standard att använda den emulerade DirectSound -enheten och ha tillgång till ljudkortets hårdvaruressurser:

Epilog

Tja, ännu en storartad artikel är klar. Förresten, jag tänkte bara: men på ett bra sätt borde den här artikeln ha skrivits en av de första ... Men då hade jag fortfarande inte tillräckligt med kunskap för att beskriva allt i detalj så här, så det kan vara till det bästa.

Om något inte är klart finns det några frågor kvar - ställ, kommentera. Lycka till!

Information från sponsorn

EuroTechnika: butikskedja hushållsprodukter... På webbplatsen http://euro-technika.com.ua/ kan du bekanta dig med utbudet av moderna 8-kärniga smartphones (med hjälp av den praktiska katalogen) och göra en beställning här (med leverans eller självhämtning).

En man närmade sig mig med en förfrågan om att skriva ett program som gör det möjligt att styra en datormus med sin röst. Då kunde jag inte ens föreställa mig att en nästan helt förlamad person som inte ens kan vända på huvudet själv, men bara kan prata, kan utveckla kraftig aktivitet, hjälpa sig själv och andra att leva ett aktivt liv, få ny kunskap och färdigheter, arbeta och tjäna, kommunicera med andra människor runt om i världen, delta i en tävling sociala projekt.

Låt mig här nämna ett par länkar till webbplatser, vars författare och / eller ideologiska inspiratör är denna person - Alexander Makarchuk från staden Borisov, Vitryssland:

För att arbeta med datorn använde Alexander programmet "Vocal Joystick" - en utveckling av studenterna vid University of Washington, genomförd med pengar från National Science Foundation(NSF). Se melodi.ee.washington.edu/vj

jag kunde inte motstå

Förresten, på universitetets webbplats (http://www.washington.edu/) handlar 90% av artiklarna om pengar. Det är svårt att hitta något om vetenskapligt arbete. Här är till exempel utdrag från första sidan: ”Tom, en universitetsexamen, brukade äta svamp och kunde knappt betala sin hyra. Nu är han senior chef för ett IT -företag och lånar ut pengar till universitetet "," Big Data hjälper hemlösa "," Företaget har lovat att betala 5 miljoner dollar för en ny akademisk byggnad. "

Gör det ont i mitt öga ensam?

Programmet gjordes 2005-2009 och fungerade bra på Windows XP. I nyare versioner av Windows kan programmet frysa, vilket är oacceptabelt för en person som inte kan resa sig från en stol och starta om den. Därför måste programmet göras om.

Det finns inga källtexter, det finns bara enskilda publikationer som avslöjar den teknik som den bygger på (MFCC, MLP - läs om detta i andra delen).

I bilden och likheten skrevs nytt program(tre månader).

Egentligen kan du se hur det fungerar:

Ladda ner programmet och / eller titta på källkoder kan.

Du behöver inte utföra några speciella steg för att installera programmet, klicka bara på det och starta det. Det enda, i vissa fall krävs att den startas som administratör (till exempel när du arbetar med det virtuella tangentbordet ”Comfort Keys Pro”):

Kanske är det värt att nämna här och om andra saker som jag tidigare gjort för att kunna styra datorn utan händer.

Om du har förmågan att vända på huvudet är ett huvudmonterat gyroskop ett bra alternativ till eViacam. Du får snabb och exakt markörpositionering och belysningsoberoende.

Om du bara kan flytta ögonens pupiller kan du använda blickspåraren och programmet till det (det kan vara svårt om du bär glasögon).

Del II. Hur fungerar det?

Det var känt från det publicerade materialet om Vocal Joystick -programmet att det fungerar enligt följande:

Skär en ljudström i ramar på 25 millisekunder med en överlappning på 10 millisekunder
Erhåller 13 cepstralkoefficienter (MFCC) för varje bildruta
Kontrollera att ett av de 6 memorerade ljuden (4 vokaler och 2 konsonanter) uttalas med flerlagers perceptron (MLP)
Att föra hittade ljud i rörelse / musklick

Den första uppgiften är anmärkningsvärd bara för att lösa det i realtid, ytterligare tre strömmar måste matas in i programmet, eftersom dataläsning från mikrofonen, ljudbehandling och ljuduppspelning genom ljudkortet sker asynkront.

Den senare uppgiften implementeras helt enkelt med funktionen SendInput.

Det mest intressanta, tycks mig, är andra och tredje uppgifterna. Så.

Problem nummer 2. Erhåller 13 cepstralkoefficienter

Om någon inte är i ämnet är huvudproblemet med att känna igen ljud från en dator följande: det är svårt att jämföra två ljud, eftersom två är olika i kontur ljudvågor kan låta liknande när det gäller mänsklig uppfattning.

Och bland dem som sysslar med taligenkänning finns det en sökning efter en "filosofens sten" - en uppsättning funktioner som otvetydigt skulle klassificera en ljudvåg.

Av de tecken som är tillgängliga för allmänheten och som beskrivs i läroböcker är de vanligaste de så kallade kritfrekventa cepstralkoefficienterna (MFCC).

Deras historia är sådan att de ursprungligen var avsedda för något helt annat, nämligen att undertrycka ekot i signalen (en informativ artikel om detta ämne skrevs av de respekterade Oppenheim och Schafer, kanske glädje finns i dessa ädla mäns hem. Se AV Oppenheim och RW Schafer, "From Frequency to Quefrency: A History of the Cepstrum").

Men en person är byggd på ett sådant sätt att han är benägen att använda det som är bekant för honom bättre. Och de som behandlade talsignaler kom på idén att använda en färdig kompakt representation av signalen i form av MFCC. Det visade sig att det i allmänhet fungerar. (En bekant till mig, specialist på ventilationssystem, när jag frågade honom hur man gör en sommarstuga, föreslog att använda ventilationskanaler. Helt enkelt för att han kände dem bättre än andra byggmaterial).

Är MFCC en bra klassificerare för ljud? Jag skulle inte säga. Samma ljud, uttalat av mig i olika mikrofoner, faller in i olika regioner i utrymmet för MFCC -koefficienter, och en idealisk klassificerare skulle dra dem sida vid sida. Därför måste du särskilt lära om programmet när du byter mikrofon.

Detta är bara en av projektionerna av MFCC: s 13-dimensionella utrymme till tredimensionella, men det visar också vad jag menar-de röda, lila och blå punkterna erhålls från olika mikrofoner: (Plantronix, inbyggd mikrofonarray, Jabra), men ljudet kom ut ensam.

Men eftersom jag inte kan erbjuda något bättre kommer jag också att använda standardmetoden - beräkning av MFCC -koefficienter.

För att inte misstas i implementeringen användes koden från det välkända CMU Sphinx-programmet i de första versionerna av programmet, mer exakt, dess implementering på C-språket, kallat pocketphinx, utvecklat på Carnegie Mellon University (fred med dem båda! (C) Hottabych).

Pocketphinx -källkoderna är öppna, men otur - om du använder dem måste du skriva text i ditt program (både i källkoden och i den körbara modulen), som bland annat innehåller följande:

* Detta arbete stöddes delvis av finansiering från Defense Advanced * Research Projects Agency och National Science Foundation i * United States of America och CMU Sphinx Speech Consortium.
Det verkade oacceptabelt för mig, och jag var tvungen att skriva om koden. Detta påverkade programmets prestanda (till det bättre förresten, även om kodens "läsbarhet" led lite). Till stor del tack vare användningen av "Intel Performance Primitives" -biblioteken, men optimerade också några saker själv, som MEL -filtret. Ändå visade en kontroll av testdata att de erhållna MFCC -koefficienterna liknar dem som erhålls med exempelvis verktyget sfinx_fe.

I sfinxbasprogram beräknas MFCC -koefficienterna i följande steg:

Steg	Sfinxbasfunktion	Kärnan i operationen
1	fe_pre_emphasis	Det mesta av föregående räkning subtraheras från det aktuella urvalet (till exempel 0,97 från dess värde). Ett primitivt lågpassfilter.
2	fe_hamming_fönster	Hammarfönster - introducerar blekning i början och slutet av ramen
3	fe_fft_real	Snabb Fourier Transform
4	fe_spec2magnitude	Från det normala spektrumet får vi effektspektrumet, förlorar fas
5	fe_mel_spec	Vi grupperar frekvenserna i spektrumet [till exempel 256 bitar] i 40 högar med hjälp av MEL -skalan och viktningsfaktorer
6	fe_mel_cep	Ta logaritmen och applicera DCT2 -transformen på 40 värden från föregående steg. Lämna de första 13 värdena i resultatet. Det finns flera varianter av DCT2 (HTK, äldre, klassiska), som skiljer sig åt i den konstant genom vilken vi delar de erhållna koefficienterna, och en speciell konstant för nollkoefficienten. Du kan välja vilket alternativ som helst, det kommer inte att förändra essensen.

Dessa steg innehåller också funktioner som låter dig skilja signalen från brus och från tystnad, till exempel fe_track_snr, fe_vad_hangover, men vi behöver dem inte och vi kommer inte att distraheras av dem.

Följande ersättningar gjordes för stegen för att erhålla MFCC -koefficienter:

Problem nummer 3. Kontrollera att ett av de sex memorerade ljuden uttalas

Det ursprungliga programmet "Vocal Joystick" använde en multilayer perceptron (MLP) för klassificering - ett neuralt nätverk utan nyskapade klockor och visselpipor.

Låt oss se hur motiverad användningen av neuralt nätverk här.

Låt oss komma ihåg vad neuroner gör i artificiella neurala nätverk.

Om en neuron har N-ingångar delar neuronen det N-dimensionella rummet i hälften. Skär med en hyperplan backhand. Samtidigt, i ena halvan av utrymmet, fungerar det (ger ett positivt svar), och i den andra halvan fungerar det inte.

Låt oss titta på det [praktiskt taget] enklaste alternativet - en neuron med två ingångar. Han kommer naturligtvis att dela det tvådimensionella rummet i hälften.

Låt ingången vara värdena X1 och X2, som neuron multiplicerar med viktkoefficienterna W1 och W2, och lägger till den fria termen C.

Totalt får vi vid neurons utgång (vi betecknar det som Y):

Y = X1 * W1 + X2 * W2 + C

(låt oss utesluta finesser om sigmoidala funktioner för tillfället)

Vi antar att neuronen avfyras när Y> 0. Den raka linjen som ges av ekvationen 0 = X1 * W1 + X2 * W2 + C delar bara utrymmet i en del där Y> 0, och en del där Y<0.

Låt oss illustrera vad som har sagts med specifika siffror.

Låt W1 = 1, W2 = 1, C = -5;

Låt oss nu se hur vi kan organisera ett neuralt nätverk som skulle fungera på ett visst utrymme, relativt sett - en plats och inte skulle fungera på alla andra platser.

Det kan ses från figuren att för att kunna skissera ett område i tvådimensionellt utrymme behöver vi minst 3 raka linjer, det vill säga 3 neuroner associerade med dem.

Vi kommer att ansluta dessa tre neuroner tillsammans med ytterligare ett lager, så att vi får ett flerskiktigt neuralt nätverk (MLP).

Och om vi behöver det neurala nätverket för att fungera i två rymdregioner, behöver vi minst tre ytterligare neuroner (4,5,6 i figurerna):

Och här kan du inte klara dig utan ett tredje lager:

Och det tredje lagret är nästan Deep Learning ...

Låt oss nu vända oss till ett annat exempel för hjälp. Låt vårt neurala nätverk ge ett positivt svar på röda punkter och negativa - på blå punkter.

Om jag blev ombedd att klippa av rött från blått med raka linjer, skulle jag göra det ungefär så här:

Men det neurala nätverket a priori vet inte hur många raka linjer (neuroner) det kommer att behöva. Denna parameter måste ställas in innan nätverket tränas. Och en person gör det på grundval av ... intuition eller prövning och fel.

Om vi väljer för få neuroner i det första lagret (till exempel tre), kan vi få en sådan skivning, vilket kommer att ge många fel (det felaktiga området är skuggat):

Men även om antalet neuroner är tillräckligt, till följd av träning, kanske nätverket inte "konvergerar", det vill säga når ett visst stabilt tillstånd, långt ifrån optimalt, när andelen fel är hög. Som här har den övre tvärstången lagt sig på två knölar och kommer inte att lämna dem någonstans. Och nedanför det är ett stort felgenererande område:

Återigen beror möjligheten på sådana fall på de inledande villkoren för träning och träningens sekvens, det vill säga på slumpmässiga faktorer:

- Vad tror du att det hjulet kommer att nå, om det hände, till Moskva eller inte?
- Och vad tror du, det enta neurala nätverket kommer att konvergera eller kommer inte att konvergera?

Det finns ytterligare ett obehagligt ögonblick relaterat till neurala nätverk. Deras "glömska".

Om du bara börjar mata nätet med blå prickar och slutar mata röda, kan hon lugnt ta en bit av det röda området för sig själv och flytta sina gränser dit:

Om neurala nätverk har så många brister, och en person kan dra gränser mycket mer effektivt än ett neuralt nätverk, varför ska man använda dem alls?

Och det finns en liten men mycket viktig detalj.

Jag kan mycket väl skilja det röda hjärtat från den blå bakgrunden med linjesegment i tvådimensionellt utrymme.

Jag kan mycket väl skilja Venusstatyn från det omgivande tredimensionella rummet med plan.

Men i fyrdimensionellt utrymme kan jag inte göra någonting, förlåt. Och ännu mer i 13-dimensionell.

Men för ett neuralt nätverk är rymdens dimension inte ett hinder. Jag skrattade åt henne i lågdimensionella utrymmen, men så snart jag gick utöver det vanliga fick hon mig lätt.

Trots det är frågan fortfarande öppen - hur motiverad är användningen av ett neuralt nätverk i denna specifika uppgift, med tanke på ovanstående nackdelar med neurala nätverk.

Låt oss för en sekund glömma att våra MFCC-koefficienter finns i 13-dimensionellt utrymme och föreställa oss att de är tvådimensionella, det vill säga punkter på ett plan. Hur skulle då ett ljud kunna skiljas från ett annat?

Låt MFCC -punkterna för ljud 1 ha en standardavvikelse R1, vilket [ungefär] betyder att de punkter som inte avviker för långt från medelvärdet, de mest karakteristiska punkterna, är inuti en cirkel med en radie av R1. På samma sätt är de punkter vi litar på för ljud 2 inuti en cirkel med en radie av R2.

Uppmärksamhet, frågan: var ska man dra den raka linje som bäst skulle skilja ljud 1 från ljud 2?

Svaret antyder sig själv: mitt emellan gränserna för cirklarna. Några invändningar? Inga invändningar.
Korrektion: I programmet delar denna gräns segmentet som förbinder cirklarnas centrum i förhållandet R1: R2, så det är mer korrekt.

Och slutligen, låt oss inte glömma att någonstans i rymden finns det en punkt som representerar fullständig tystnad i MFCC -rymden. Nej, det här är inte 13 nollor, som det kan tyckas. Detta är en punkt som inte kan ha en standardavvikelse. Och de raka linjer som vi skär av från våra tre ljud kan dras direkt längs gränserna för cirklarna:

I figuren nedan motsvarar varje ljud ett utrymme i sin egen färg, och vi kan alltid säga till vilket ljud denna eller den punkten i rymden hör (eller gäller inte någon):

Nåväl, låt oss nu komma ihåg att rymden är 13-dimensionell, och det som var bra att rita på papper visar sig nu vara något som inte passar in i den mänskliga hjärnan.

Så, men inte så. Lyckligtvis finns det i ett utrymme av någon dimension sådana begrepp som punkt, linje, [hyper] plan, [hyper] sfär kvar.

Vi upprepar alla samma åtgärder i det 13-dimensionella rummet: vi hittar variansen, bestämmer radierna för [hyper] sfärerna, förbinder deras centrum med en rak linje, skär det med ett [hyper] -plan vid en punkt lika avlägsen från gränserna för [hyper] sfärerna.

Inget neuralt nätverk kan mer korrekt skilja ett ljud från ett annat.

Här bör dock en reservation göras. Allt detta är sant om informationen om ljudet är ett moln av punkter som avviker från medelvärdet lika i alla riktningar, det vill säga att det passar bra in i hypersfären. Om detta moln var en komplex form, till exempel en 13-dimensionell böjd korv, då skulle alla ovanstående resonemang vara fel. Och kanske, med rätt träning, kunde det neurala nätverket visa sina styrkor här.

Men jag skulle inte riskera det. Och jag skulle till exempel använda uppsättningar normalfördelningar (GMM), (som förresten görs i CMU Sphinx). Det är alltid trevligare när du förstår vilken algoritm som ledde till resultatet. Och inte som i ett neuralt nätverk: Oraklet, baserat på sina många timmars matlagningsbuljong från träningsdata, befaller dig att bestämma att det begärda ljudet är ljud nr 3. (Jag är särskilt irriterad när de försöker överlåta kontrollen över bilen till det neurala nätverket. Hur kan man då i en icke-standardiserad situation förstå varför bilen svängde vänster och inte höger? Almighty Neuron befallde?).

Men uppsättningar med normalfördelningar är redan ett separat stort ämne, vilket ligger utanför denna artikel.

Hoppas att den här artikeln var till hjälp och / eller fick din gyrus att knarka.