Omvänd mastering: kan det dynamiska intervallet för komprimerade inspelningar ökas? Syntes och taligenkänning. Moderna lösningar


Kompression är ett av de mest mytiska teman inom ljudproduktion. De säger att Beethoven till och med skrämde sina grannars barn :(

Okej, faktiskt är det inte svårare att använda komprimering än att använda distorsion, det viktigaste är att förstå hur det fungerar och ha bra kontroll. Vad vi är tillsammans nu och ser.

Vad är ljudkomprimering

Det första du måste förstå innan du förbereder dig är komprimering. arbeta med dynamiskt ljudomfång... Och i sin tur är det inget annat än skillnaden mellan de högsta och tystaste signalnivåerna:

Så, komprimering är komprimeringen av det dynamiska området... Ja, helt enkelt komprimering av dynamiskt omfång, eller med andra ord minska nivån på högljudda delar av signalen och öka volymen av tyst... Inte mer.

Du kan rimligen undra varför en sådan hype är ansluten då? Varför pratar alla om recept för rätt kompressorinställningar, men ingen delar dem? Varför, trots det enorma antalet häftiga plugins, används fortfarande dyra vintage kompressormodeller i många studior? Varför använder vissa tillverkare kompressorer vid extrema inställningar, medan andra inte använder dem alls? Och vem av dem har rätt i slutändan?

Komprimeringsuppgifter

Svaren på sådana frågor ligger i planet för att förstå kompressionens roll i arbetet med ljud. Och det tillåter:

  1. Betona attacken ljud, gör det mer uttalat;
  2. "Montera" enskilda instrumentdelar i mixen genom att lägga till kraft och "vikt" till dem;
  3. Gör grupper av instrument eller en hel mix mer sammanhängande, en sådan enda monolit;
  4. Lös konflikter mellan instrument med hjälp av sidkedja;
  5. Åtgärda bristerna i sångaren eller musikerna anpassa sin dynamik;
  6. Med en viss inställning fungera som en konstnärlig effekt.

Som du kan se är detta en inte mindre betydande kreativ process än att säga, komma med melodier eller introducera intressanta timbres. I detta fall kan någon av ovanstående uppgifter lösas med 4 huvudparametrar.

Kompressorns huvudparametrar

Trots det stora antalet program- och hårdvarumodeller av kompressorer sker all "magi" i komprimering med rätt inställning av huvudparametrarna: Tröskel, förhållande, attack och frigöring. Låt oss överväga dem mer detaljerat:

Tröskel eller tröskel, dB

Med denna parameter kan du ställa in det värde från vilket kompressorn kommer att arbeta (dvs. komprimera ljudsignalen). Så om vi sätter tröskeln till -12dB, kommer kompressorn att utlösas endast på de platser i det dynamiska området som överstiger detta värde. Om allt vårt ljud är tystare än -12db, kommer kompressorn helt enkelt att låta det passera genom sig själv utan att det påverkar det på något sätt.

Förhållande eller kompressionsförhållande

Förhållandeparametern bestämmer hur starkt signalen som överskrider tröskeln kommer att komprimeras. Lite matematik för att slutföra bilden: låt oss säga att vi satte upp en kompressor med en tröskel på -12dB, ett förhållande på 2: 1 och matade den med en trumslinga, där sparkvolymen är -4dB. Vad blir resultatet av kompressorn i detta fall?

I vårt fall överstiger fatnivån tröskeln med 8dB. Denna skillnad i enlighet med förhållandet kommer att komprimeras till 4dB (8dB / 2). Kombinerat med den obearbetade delen av signalen kommer detta att resultera i att kickvolymen blir -8db efter att den har bearbetats av kompressorn (tröskel -12dB + komprimerad 4dB -signal).

Attack, ms

Detta är tiden efter vilken kompressorn reagerar när tröskeln överskrids. Det vill säga om attacktiden är högre än 0 ms - kompressorn börjar komprimeraöverskridande av tröskelsignalen inte direkt, utan efter en viss tid.

Release eller recovery, ms

Motsatsen till en attack - värdet på denna parameter låter dig ange tiden efter signalnivån återkommer under tröskeln kompressorn slutar komprimera.

Innan vi går vidare rekommenderar jag starkt att ta ett välkänt prov, hänga någon kompressor på dess kanal och experimentera med parametrarna ovan i 5-10 minuter för att säkert fixa materialet.

Allt andra parametrar är valfria... De kan skilja sig åt i olika kompressormodeller, vilket delvis är varför producenter använder olika modeller för något specifikt ändamål (till exempel en kompressor för sång, en annan för en trumgrupp och en tredje för en masterkanal). Jag kommer inte att fördjupa mig i dessa parametrar i detalj, men kommer bara att ge allmän information för att förstå vad det handlar om:

  • Knä eller knä (hårt / mjukt knä)... Denna parameter avgör hur snabbt förhållandet kommer att tillämpas: hårt längs kurvan eller slät. Observera att i Soft Knee -läget fungerar kompressorn inte i en rak linje, utan startar smidigt (så långt det kan vara lämpligt när vi pratar om millisekunder) för att komprimera ljudet redan före tröskelvärdet... För att bearbeta grupper av kanaler och den allmänna mixen är det det mjuka knät som oftast används (eftersom det fungerar omärkligt), och för att betona attacken och andra funktioner hos enskilda instrument - hårt knä;
  • Svarsläge: Peak / RMS... Peak -läget är motiverat när du behöver begränsa amplitudutbrott tätt, liksom på signaler med en komplex form, vars dynamik och läsbarhet måste överföras fullt ut. RMS -läget är mycket skonsamt för ljudet, så att du kan tjockna det samtidigt som du behåller attacken;
  • Se framåt... Detta är den tid det tar för kompressorn att veta vad det kommer att ta. Ett slags preliminär analys av inkommande signaler;
  • Makeup eller gain... En parameter som låter dig kompensera för volymminskningen till följd av komprimeringsoperationen.

Först och det viktigaste rådet, som tar bort alla ytterligare frågor om komprimering: om du a) förstod komprimeringsprincipen, b) vet du bestämt hur denna eller den parametern påverkar ljudet, och c) lyckades prova flera olika modeller i praktiken - du behöver inga råd.

Jag är helt seriös. Om du noggrant läste det här inlägget, experimenterade med standardkompressorn på din DAW och ett eller två plug-ins, men fortfarande inte förstod i vilka fall du behöver ställa in stora attackvärden, vilket förhållande som ska användas och i vilket läge att bearbeta originalsignalen, så fortsätter du att söka på Internet efter färdiga recept och använder dem tanklöst var som helst.

Kompressor finjusterande recept det är som recept för finjustering av ett reverb eller refräng - utan någon mening och har inget att göra med kreativitet. Därför upprepar jag ständigt det enda rätta receptet: beväpna dig med den här artikeln, bra bildskärmshörlurar, en plug-in för visuell kontroll av vågformen och tillbringa kvällen med ett par kompressorer.

Åtgärd!

I en tid då forskare precis började lösa problemet med att skapa ett talgränssnitt för datorer, var de ofta tvungna att göra sin egen utrustning som gjorde att de kunde mata in ljudinformation i en dator, samt mata ut den från en dator. Idag är sådana enheter kanske bara av historiskt intresse, eftersom moderna datorer enkelt kan utrustas med ljudingångs- och utmatningsenheter som ljudadaptrar, mikrofoner, hörlurar och högtalare.

Vi kommer inte att fördjupa oss i detaljerna i den interna strukturen för dessa enheter, men vi kommer att prata om hur de fungerar och ge några rekommendationer för att välja ljuddatordatorer för att arbeta med taligenkänning och syntessystem.

Som vi sa i föregående kapitel är ljud inget annat än luftens vibrationer, vars frekvens ligger inom frekvensområdet som uppfattas av en person. De exakta gränserna för det hörbara frekvensområdet kan variera från person till person, men man tror att ljudvibrationer ligger i intervallet 16-20 000 Hz.

Mikrofonens uppgift är att konvertera ljudvibrationer till elektriska vibrationer, som kan förstärkas ytterligare, filtreras för att avlägsna störningar och digitaliseras för att mata in ljudinformation till en dator.

Enligt driftsprincipen är de vanligaste mikrofonerna uppdelade i kol-, elektrodynamiska, kondensator- och elektretmikrofoner. Vissa av dessa mikrofoner kräver en extern strömkälla för deras drift (till exempel kol- och kondensatormikrofoner), medan andra, under påverkan av ljudvibrationer, oberoende kan generera en växelströmsspänning (dessa är elektrodynamiska och elektretmikrofoner).

Du kan också separera mikrofonerna efter deras syfte. Det finns studiomikrofoner som du kan hålla i handen eller fästa i ett stativ, det finns radiomikrofoner som du kan fästa på dina kläder osv.

Det finns också mikrofoner utformade speciellt för datorer. Dessa mikrofoner är vanligtvis monterade på ett stativ som sitter ovanpå bordet. Datormikrofoner kan kombineras med headset, som visas i fig. 2-1.

Ris. 2-1. Hörlurar med mikrofon

Så hur väljer du bland en mängd mikrofoner den som fungerar bäst för taligenkänningssystem?

I grund och botten kan du experimentera med vilken mikrofon som helst, så länge den kan anslutas till datorns ljudadapter. Men utvecklare av taligenkänningssystem rekommenderar att du köper en mikrofon som under drift kommer att vara på ett konstant avstånd från högtalarens mun.

Om avståndet mellan mikrofonen och munnen inte förändras, kommer den genomsnittliga nivån för den elektriska signalen som kommer från mikrofonen inte heller att förändras för mycket. Detta kommer att ha en positiv inverkan på kvaliteten på moderna taligenkänningssystem.

Vad är problemet här?

En person kan framgångsrikt känna igen tal, vars volym varierar över ett mycket brett intervall. Den mänskliga hjärnan kan filtrera bort tyst tal från störningar, till exempel buller från bilar som passerar längs gatan, främmande samtal och musik.

När det gäller moderna taligenkänningssystem, lämnar deras förmågor inom detta område mycket att önska. Om mikrofonen ligger på ett bord, kommer avståndet mellan munnen och mikrofonen att ändras när du vrider på huvudet eller ändrar kroppens position. Detta kommer att leda till en förändring av mikrofonens utgångsnivå, vilket i sin tur försämrar tillförlitligheten hos taligenkänning.

Därför, när du arbetar med taligenkänningssystem, kommer de bästa resultaten att uppnås om du använder en mikrofon ansluten till hörlurarna, som visas i fig. 2-1. När du använder en sådan mikrofon kommer avståndet mellan munnen och mikrofonen att vara konstant.

Observera också att alla experiment med taligenkänningssystem görs bäst i ett tyst rum. I detta fall kommer påverkan av störningar att vara minimal. Naturligtvis, om du behöver välja ett taligenkänningssystem som kan fungera i en miljö med starka störningar, måste testet göras annorlunda. Såvitt bokens författare vet är bullerimmuniteten hos system för taligenkänning fortfarande mycket, mycket låg.

Mikrofonen utför för oss omvandlingen av ljudvibrationer till vibrationer av elektrisk ström. Dessa fluktuationer kan ses på oscilloskopskärmen, men skynda inte till affären för att köpa denna dyra enhet. Vi kan utföra alla oscillografiska studier med en vanlig dator utrustad med en ljudadapter, till exempel en Sound Blaster -adapter. Vi kommer att berätta hur du gör detta senare.

I fig. 2-2 har vi visat oscillogrammet för ljudsignalen som erhålls genom att uttala ett långt ljud a. Denna vågform erhölls med hjälp av GoldWave -programvaran, som vi kommer att diskutera senare i detta kapitel i boken, samt med hjälp av en Sound Blaster -ljudadapter och en mikrofon som liknar den som visas i fig. 2-1.

Ris. 2-2. Oscillogram för en ljudsignal

Med GoldWave -programvaran kan du sträcka ut vågformen längs tidsaxeln, vilket gör att du kan se de minsta detaljerna. I fig. 2-3 har vi visat ett sträckt fragment av ovan nämnda oscillogram av ljud a.

Ris. 2-3. Fragment av ett oscillogram av en ljudsignal

Observera att storleken på insignalen från mikrofonen ändras regelbundet och tar både positiva och negativa värden.

Om det bara fanns en frekvens i insignalen (det vill säga om ljudet var "rent") skulle vågformen som mottogs från mikrofonen vara sinusformad. Men som vi redan har sagt består spektrumet av mänskliga talljud av en uppsättning frekvenser, vilket resulterar i att talsignalens vågform är långt ifrån sinusformad.

En signal vars storlek ändras kontinuerligt med tiden kommer att ringas analog signal... Detta är signalen som kommer från mikrofonen. Till skillnad från en analog signal är en digital signal en uppsättning numeriska värden som diskret ändras över tid.

För att en dator ska kunna behandla en ljudsignal måste den konverteras från analog till digital form, det vill säga presenteras som en uppsättning numeriska värden. Denna process kallas digitalisering av en analog signal.

Digitalisering av ljudsignalen (och alla analoga) signaler utförs med en speciell enhet som kallas analog-till-digital-omvandlare ADC (analog till digital omvandlare, ADC). Den här enheten sitter på ljudkortet och är en vanlig mikrokrets.

Hur fungerar en analog till digital omvandlare?

Den mäter regelbundet nivån på insignalen och matar ut ett numeriskt värde för mätresultatet vid utgången. Denna process illustreras i fig. 2-4. Här markerar grå rektanglar ingångssignalvärdena uppmätta med ett visst konstant tidsintervall. Uppsättningen av sådana värden är den digitaliserade representationen av den analoga ingångssignalen.

Ris. 2-4. Mätningar av signalamplitud mot tid

I fig. 2-5 har vi visat anslutning av en analog-till-digital-omvandlare till en mikrofon. I detta fall matas en analog signal till ingången x 1, och en digital signal tas bort från utgångarna u 1 -u n.

Ris. 2-5. Analog-till-digital-omvandlare

Analog-till-digital-omvandlare kännetecknas av två viktiga parametrar-omvandlingsfrekvensen och antalet kvantiseringsnivåer för insignalen. Att välja dessa parametrar korrekt är avgörande för att uppnå adekvat digital representation av den analoga signalen.

Hur ofta behöver du mäta värdet på amplituden för en analog ingångssignal för att inte tappa information om förändringar i den analoga ingångssignalen till följd av digitalisering?

Det verkar som att svaret är enkelt - insignalen ska mätas så ofta som möjligt. Faktum är att ju oftare analog-till-digital-omvandlaren gör sådana mätningar, desto bättre kommer de minsta förändringarna i amplituden för den ingående analoga signalen att spåras.

Alltför frekventa mätningar kan emellertid leda till en omotiverad ökning av flödet av digital data och slöseri med datorresurser vid signalbehandling.

Lyckligtvis är det enkelt att välja rätt konverteringsfrekvens (samplingsfrekvens). För att göra detta är det tillräckligt att vända sig till Kotelnikov -satsen, känd för specialister inom digital signalbehandling. Satsen säger att omvandlingsfrekvensen måste vara dubbelt så hög som frekvensen för spektrumet för den konverterade signalen. Därför är det nödvändigt att välja en konverteringsfrekvens som inte är mindre än 40 000 Hz för att digitalisera utan förlust av kvaliteten på en ljudsignal, vars frekvens ligger inom intervallet 16-20 000 Hz.

Observera dock att i professionell ljudutrustning väljs konverteringsfrekvensen flera gånger högre än det angivna värdet. Detta görs för att uppnå mycket högkvalitativt digitaliserat ljud. För taligenkänningssystem är en sådan kvalitet inte relevant, så vi kommer inte att fokusera din uppmärksamhet på detta val.

Och vilken frekvens av omvandling behövs för att digitalisera ljudet av mänskligt tal?

Eftersom ljudet av mänskligt tal ligger i frekvensområdet 300-4000 Hz, är den lägsta erforderliga omvandlingsfrekvensen 8000 Hz. Många datorns taligenkänningsprogram använder dock den 44 000 Hz konverteringsfrekvens som är standard för konventionella ljudadaptrar. Å ena sidan leder en sådan omvandlingsfrekvens inte till en överdriven ökning av den digitala dataströmmen, och å andra sidan säkerställer den digitalisering av tal med tillräcklig kvalitet.

Tillbaka i skolan lärde vi oss att eventuella mätningar ger upphov till fel som inte helt kan elimineras. Sådana fel uppstår på grund av den begränsade upplösningen av mätinstrument, liksom på grund av att mätprocessen i sig kan införa vissa förändringar i mätvärdet.

Den analog-till-digital-omvandlaren representerar den analoga insignalen som en ström av begränsade längder. Typiska ljudadaptrar innehåller 16-bitars ADC-block som kan representera insignalens amplitud som 216 = 65536 olika värden. ADC-enheter i avancerad ljudutrustning kan vara 20-bitars, vilket ger större noggrannhet i att representera ljudsignalens amplitud.

Moderna taligenkänningssystem och program skapades för vanliga datorer utrustade med vanliga ljudadaptrar. Därför behöver du inte köpa en professionell ljudadapter för att experimentera med taligenkänning. En adapter som Sound Blaster är ganska lämplig för att digitalisera tal för ytterligare identifiering.

Tillsammans med den användbara signalen kommer vanligtvis olika ljud in i mikrofonen - brus från gatan, vindbrus, främmande samtal etc. Buller har en negativ inverkan på taligenkänningssystemens prestanda, så det måste hanteras. Ett av de sätt vi redan har nämnt är att dagens taligenkänningssystem bäst används i ett tyst rum, ensam med datorn.

Det är dock långt ifrån alltid möjligt att skapa idealiska förhållanden, så du måste använda speciella metoder för att bli av med störningar. För att minska ljudnivån används speciella trick vid design av mikrofoner och specialfilter som tar bort frekvenser som inte bär användbar information från den analoga signalens spektrum. Dessutom används en teknik såsom komprimering av det dynamiska området för insignalnivåerna.

Låt oss prata om allt detta i ordning.

Frekvensfilter kallas en enhet som omvandlar frekvensspektrumet för en analog signal. I det här fallet, under transformationsprocessen, sker valet (eller absorptionen) av svängningar av vissa frekvenser.

Du kan föreställa dig den här enheten som en sorts svart låda med en ingång och en utgång. Enligt vår situation kommer en mikrofon att anslutas till ingången på frekvensfiltret och en analog-till-digital-omvandlare kommer att anslutas till utgången.

Frekvensfilter är olika:

· Lågpassfilter;

· Högpassfilter;

· Passbandfilter;

· Hakbandspassfilter.

Lågpassfilter(lågpassfilter) tar bort alla frekvenser från insignalens spektrum, vars värden ligger under en viss tröskelfrekvens, beroende på filterinställningen.

Eftersom ljudsignalerna ligger i intervallet 16-20 000 Hz kan alla frekvenser under 16 Hz avbrytas utan att ljudkvaliteten försämras. För taligenkänning är frekvensområdet 300-4000 Hz viktigt, så frekvenser under 300 Hz kan minskas. I detta fall kommer all störning med ett frekvensspektrum under 300 Hz att avbrytas från insignalen, och de kommer inte att störa taligenkänningsprocessen.

Liknande, högpassfilter(högpassfilter) skär alla frekvenser över en viss tröskelfrekvens från insignalens spektrum.

En person hör inte ljud med en frekvens av 20000 Hz eller högre, så de kan klippas från spektrumet utan märkbar försämring av ljudkvaliteten. När det gäller taligenkänning kan du här stänga av alla frekvenser över 4000 Hz, vilket kommer att leda till en betydande minskning av nivån för högfrekventa störningar.

Passbandfilter(bandpassfilter) kan ses som en kombination av ett låg- och högpassfilter. Ett sådant filter fördröjer alla frekvenser under den så kallade lägre passfrekvens liksom ovan övre passfrekvens.

Således är ett passbandfilter bekvämt för taligenkänningssystem, som fördröjer alla frekvenser, förutom frekvenser i intervallet 300-4000 Hz.

När det gäller bandstoppfilter så tillåter de dig att stänga av alla frekvenser från insignalspektrumet som ligger inom ett givet område. Ett sådant filter är till exempel bekvämt för att undertrycka störningar som upptar en viss kontinuerlig del av signalspektret.

I fig. 2-6 har vi visat anslutningen av ett passbandfilter.

Ris. 2-6. Filtrerar ljudsignalen innan digitalisering

Det måste sägas att vanliga ljudadaptrar installerade i en dator inkluderar ett bandpassfilter genom vilket den analoga signalen passerar innan digitalisering. Bandbredden för ett sådant filter motsvarar vanligtvis intervallet för ljudsignaler, nämligen 16-20 000 Hz (i olika ljudadaptrar kan värdena för de övre och nedre frekvenserna variera inom små gränser).

Och hur uppnår man en smalare bandbredd på 300-4000 Hz, motsvarande den mest informativa delen av spektret av mänskligt tal?

Naturligtvis, om du har en förkärlek för att designa elektronisk utrustning, kan du göra ditt filter från ett operativt förstärkarkrets, motstånd och kondensatorer. Detta är ungefär vad de första skaparna av taligenkänningssystem gjorde.

Emellertid måste industriella taligenkänningssystem fungera på standard datorutrustning, så sättet att göra ett speciellt bandpassfilter är inte lämpligt här.

Istället använder moderna talbehandlingssystem sk digitala frekvensfilter implementeras i mjukvara. Detta blev möjligt efter att datorns centrala processorenhet blev tillräckligt kraftfull.

Ett digitalt frekvensfilter, implementerat i mjukvara, omvandlar en digital ingångssignal till en utgående digital signal. I konverteringsprocessen behandlar programmet på ett speciellt sätt strömmen av numeriska värden för signalamplituden som kommer från analog-till-digital-omvandlaren. Konverteringsresultatet kommer också att vara en ström av siffror, men denna ström kommer att motsvara den redan filtrerade signalen.

När vi talade om analog-till-digital-omvandlaren noterade vi en så viktig egenskap hos den som antalet kvantiseringsnivåer. Om en 16-bitars analog-till-digital-omvandlare är installerad i ljudadaptern, kan ljudsignalnivåerna efter digitalisering representeras som 216 = 65536 olika värden.

Om det finns få kvantiseringsnivåer, så är den s.k kvantiseringsbrus... För att minska detta brus bör högkvalitativa ljudsamplingssystem använda analog-till-digital-omvandlare med så många kvantiseringsnivåer som möjligt.

Det finns dock ytterligare en teknik som används i digitala ljudinspelningssystem för att minska kvantiseringsbrusets effekt på ljudsignalens kvalitet. Med denna teknik leds signalen genom en olinjär förstärkare före digitalisering, vilket betonar signaler med låg amplitud. En sådan enhet förstärker svaga signaler mer än starka.

Detta illustreras av grafen för beroende av amplituden för utsignalen på amplituden för insignalen, visad i fig. 2-7.

Ris. 2-7. Icke-linjär förstärkning innan digitalisering

I steget att konvertera det digitaliserade ljudet tillbaka till analogt (detta steg kommer att diskuteras senare i detta kapitel), förs den analoga signalen igen genom en olinjär förstärkare innan den matas ut till högtalarna. Den här gången används en annan förstärkare, som betonar signaler med stor amplitud och har en överföringskarakteristik (beroende av utsignalens amplitud på insignalens amplitud), motsatsen till den som används under digitaliseringen.

Hur kan allt detta hjälpa skaparna av taligenkänningssystem?

En person, som du vet, känner igen tillräckligt väl tal som hålls i en tyst viskning eller med tillräckligt hög röst. Vi kan säga att det dynamiska intervallet för ljudnivåer för framgångsrikt igenkänt tal för en person är ganska brett.

Tyvärr kan dagens datorsystem för taligenkänning ännu inte skryta med detta. För att något utöka det angivna dynamiska intervallet, innan du digitaliserar, kan du emellertid skicka signalen från mikrofonen genom en olinjär förstärkare, vars överföringskarakteristik visas i fig. 2-7. Detta kommer att minska nivån på kvantiseringsbrus vid digitalisering av svaga signaler.

Utvecklare av taligenkänningssystem tvingas återigen fokusera främst på kommersiellt tillgängliga ljudadaptrar. De tillhandahåller inte den olinjära signalomvandlingen som beskrivs ovan.

Det är dock möjligt att skapa en mjukvaruekvivalent till en olinjär förstärkare som omvandlar den digitaliserade signalen innan den skickas vidare till taligenkänningsmotorn. Och även om en sådan mjukvaruförstärkare inte kommer att kunna minska kvantiseringsbruset, kan den användas för att betona de signalnivåer som bär mest talinformation. Till exempel kan du minska amplituden för svaga signaler och därmed ta bort brus från signalen.

Hemljudentusiaster uppvisar en intressant paradox. De är redo att skotta lyssningsrummet, bygga högtalare med exotiska sändare, men retar sig generat framför musikalisk konserver, som en varg framför en röd flagga. Men i själva verket, varför är det omöjligt att kliva bakom flaggan och försöka laga något mer ätbart av konserver?

Då och då på forumet finns det klagande frågor: "Vänligen råda välinspelade album." Detta är förståeligt. Även om speciella audiofila utgåvor kommer att glädja örat den första minuten, lyssnar ingen på dem förrän i slutet, repertoaren är för tråkig. När det gäller resten av musikbiblioteket verkar problemet vara uppenbart. Du kan spara, men du kan inte spara och hälla mycket pengar i komponenter. Ändå är det få som gillar att lyssna på sin favoritmusik med hög volym och förstärkarens funktioner har inget att göra med det.

Idag, även i Hi-Res-album, klipps fonogrammets toppar bort och volymen drivs till klippning. Man tror att majoriteten lyssnar på musik på alla sorters skräp, och därför är det nödvändigt att "sätta på gasen", för att göra ett slags ljud.


Naturligtvis görs detta inte avsiktligt för att rubba ljudfiler. Få människor minns dem alls. Men de gissade bara att raka av huvudfiler från vilka huvudupplagan kopieras - CD -skivor, MP3 -skivor och så vidare. Naturligtvis har mastern länge blivit platt av kompressorn, ingen kommer medvetet att förbereda specialversioner för HD -spår. Om inte ett visst förfarande följs för vinylmedia, vilket av denna anledning låter mer humant. Och för den digitala vägen slutar allt på samma sätt - med en stor fettkompressor.

Så för närvarande komprimeras alla 100% av de publicerade fonogrammen, exklusive klassisk musik, under mastering. Någon utför denna procedur mer eller mindre skickligt, medan andra är helt dumma. Som ett resultat har vi pilgrimer på forumet med DR-instickslinjen i famnen, smärtsamma jämförelser av publikationer, en flykt till vinyl, där den första pressen också måste brytas.

Den mest förkylda vid åsynen av alla dessa störningar förvandlades bokstavligen till ljudsatanister. Inget skoj, de läser ljudteknikbibeln bakåt! Moderna ljudredigeringsprogram har något slags återställningsverktyg för den klippta ljudvågen.

Denna funktionalitet var ursprungligen avsedd för studior. Vid blandning finns det situationer där klippning har spelats in, och det är inte längre möjligt att göra om sessionen av ett antal skäl, och här kommer arsenalen för en ljudredigerare till undsättning - en declipper, en decompressor, etc.

Och nu drar vanliga lyssnare som blöder ur öronen efter ytterligare en nyhet mer och mer djärvt till sina program. Någon föredrar iZotope, någon Adobe Audition, någon delar verksamhet mellan flera program. Poängen med att återställa den tidigare dynamiken är att programmatiskt korrigera klippta signaltoppar, som vilar vid 0 dB, liknar en växel.

Ja, det talas inte om 100% återupplivning av källan, eftersom interpoleringsprocesser sker enligt ganska spekulativa algoritmer. Ändå tycktes några av bearbetningsresultaten intressanta och värda att studera.

Till exempel Lana Del Reys album "Lust For Life", konsekvent svordomar, usch, mastering! Originallåten "When the World Was at War We Kept Dancing" var så här.


Och efter en rad declippers och decompressors blev det så här. DR -koefficienten har ändrats från 5 till 9. Du kan ladda ner och lyssna på provet före och efter bearbetning.


Jag kan inte säga att metoden är universell och är lämplig för alla skenade album, men i det här fallet föredrog jag att behålla just den här versionen, bearbetad av en rotspårningsaktivist, istället för den officiella 24-bitarsversionen.

Även om artificiellt att dra topparna ur den klingande fyllningen inte återför den sanna dynamiken i musikframträdandet, kommer din DAC fortfarande att tacka dig. Det var så svårt för honom att arbeta utan fel på de extrema nivåerna, där det är stor sannolikhet för de så kallade inter-sample peaks (ISP). Och nu hoppar bara sällsynta blinkningar av signalen till 0 dB. Dessutom kommer det dämpade fonogrammet när det komprimeras i FLAC eller annan förlustfri codec nu att vara mindre i storlek. Mer "luft" i signalen sparar utrymme på hårddisken.

Försök att väcka liv i dina mest hatade album som dödades i kriget. För takhöjd måste du först sänka spårnivån med -6 dB och sedan starta neddragningen. De som inte tror på datorer kan helt enkelt sticka en studio -expander mellan CD -spelaren och förstärkaren. Denna enhet gör i huvudsak samma sak - hur den kan bygga om och sträcka topparna för en dynamiskt komprimerad ljudsignal. Sådana enheter från 80- och 90 -talen är värda att inte säga att de är väldigt dyra, och som ett experiment kommer det att vara mycket intressant att prova dem.


Dynamisk områdesstyrenhet DBX 3BX behandlar signalen separat i tre band - LF, MF och HF

En gång i tiden var equalizers en självklar komponent i ett ljudsystem, och ingen var rädd för dem. Idag krävs det inte att utjämna blockeringen av magnetfältets höga frekvenser, men med den fula dynamiken är det nödvändigt att lösa något, bröder.

Kodningsteknik som används i DVD -spelare med egenutvecklad

ljudavkodare och mottagare. Komprimering (eller reduktion) av dynamiskt omfång används för att begränsa ljudtopparna när du tittar på film. Om tittaren vill titta på en film där plötsliga förändringar i volymnivån är möjliga (en film om ett krig,

till exempel), men vill inte störa sina familjemedlemmar, då bör DRC vara påslagen. Subjektivt, efter örat, efter att DRC har slagits på, minskar andelen låga frekvenser i ljudet och höga ljud förlorar transparens, så du bör inte slå på DRC -läget utan att behöva.

DreamWeaver (se - Framsida)

En visuell hypertextdokumentredigerare utvecklad av mjukvaruföretaget Macromedia Inc. Det kraftfulla professionella programmet DreamWeaver innehåller möjligheten att generera HTML-sidor av vilken komplexitet och skala som helst, och har också inbyggt stöd för stora nätverksprojekt. Det är ett visuellt designverktyg som stöder avancerade WYSIWYG -koncept.

Förare Förare)

En mjukvarukomponent som låter dig interagera med enheter

dator, till exempel ett nätverkskort (NIC), tangentbord, skrivare eller bildskärm. Nätverksutrustning (t.ex. en hubb) ansluten till datorn kräver drivrutiner för att datorn ska kunna kommunicera med utrustningen.

DRM (Digital Rights Management)

u Ett koncept som förutsätter användning av speciell teknik och metoder för att skydda digitalt material för att säkerställa att de endast tillhandahålls auktoriserade användare.

v Klientprogram för interaktion med paketet Digital Rights Management Services, som är utformat för att styra åtkomsten till upphovsrättsskyddat information och dess kopiering. DRM -tjänster körs på Windows Server 2003. Klientprogramvaran körs på Windows 98, Me, 2000 och XP, vilket ger applikationer som Office 2003 åtkomst till lämpliga tjänster. I framtiden förväntas Microsoft släppa en digital rättighetshanteringsmodul för Internet Explorer. I framtiden är det planerat att ha ett sådant program på en dator för att arbeta med allt innehåll som använder DRM -teknik för att skydda mot olaglig kopiering.

Droid (Robot) (Se sid. Ombud)

DSA(Digital signaturalgoritm)

Offentlig nyckel digital signaturalgoritm. Utvecklad av NIST (USA) 1991.

DSL (Digital Subscrabe Line)

Modern teknik som stöds av stadens telefonväxlar för att utbyta signaler vid högre frekvenser än de som används i konventionella analoga modem. Ett DSL -modem kan fungera samtidigt med en telefon (analog signal) och en digital linje. Eftersom spektra för röstsignalen från telefonen och den digitala DSL -signalen inte "överlappar", i. E. stör inte varandra, DSL låter dig surfa på Internet och prata i telefon på samma fysiska linje. Dessutom använder DSL -tekniken vanligtvis flera frekvenser, och DSL -modem på båda sidor av linjen försöker hitta de bästa för dataöverföring. DSL -modemet överför inte bara data, utan fungerar också som en router. Utrustad med en Ethernet -port gör ett DSL -modem det möjligt att ansluta flera datorer till den.

DSOM(Distribuerad systemobjektmodell, distribuerad SOM - modell för distribuerade systemobjekt)

IBM -teknik med lämplig programvarusupport.

DSR? (Datauppsättning klar - signal redo att överföra data, signal DSR)

Seriell gränssnittssignal som indikerar att en enhet (t.ex.

modem) är redo att skicka en databit till datorn.

DSR? (Enhetsstatusrapport)

DSR? (Enhetsstatusregister)

DSS? (Beslutsstödssystem)

Ljudnivån är densamma under hela kompositionen, det finns flera pauser.

Minskar det dynamiska området

Förminska det dynamiska området, eller mer enkelt kompression, är nödvändiga för olika ändamål, de vanligaste av dem är:

1) Uppnå en enhetlig volymnivå genom hela kompositionen (eller instrumentdelen).

2) Uppnå en enhetlig volymnivå för låtar under hela albumet / radiosändningen.

2) Förbättra förståelsen, främst vid komprimering av en viss del (sång, bastrumma).

Hur minskar det dynamiska omfånget?

Kompressorn analyserar ingångsljudnivån genom att jämföra den med ett användardefinierat tröskelvärde.

Om signalnivån ligger under värdet Tröskel- sedan fortsätter kompressorn att analysera ljudet utan att ändra det. Om ljudnivån överskrider tröskelvärdet startar kompressorn. Eftersom kompressorns roll är att begränsa det dynamiska området är det logiskt att anta att den begränsar de största och minsta värdena för amplituden (signalnivå). I det första steget är de största värdena begränsade, vilka minskar med en viss kraft, som kallas Förhållande(Attityd). Låt oss titta på ett exempel:

De gröna kurvorna visar ljudnivån, ju större amplituden för deras oscillationer från X -axeln, desto högre signalnivå.

Den gula linjen är kompressortröskeln. Genom att göra tröskelvärdet högre flyttar användaren bort det från X-axeln. Genom att göra tröskelvärdet lägre för användaren det närmare Y-axeln. Det är klart att ju lägre tröskelvärdet är, desto oftare blir kompressorn fungerar och vice versa, ju högre - desto mindre ofta. Om Ratio -värdet är mycket högt kommer all efterföljande signal att undertryckas av kompressorn tills tystnaden har nått tröskelvärdet. Om Ratio -värdet är mycket litet kommer ingenting att hända. Valet av tröskel- och förhållandevärden diskuteras senare. Nu bör vi ställa oss följande fråga: Vad är poängen med att undertrycka allt efterföljande ljud? Detta är verkligen meningslöst, vi behöver bara bli av med amplitudvärdena (topparna) som överskrider tröskelvärdet (markerat med rött i grafen). Det är för att lösa detta problem som det finns en parameter Släpp(Decay), som anger varaktigheten för komprimeringen.

Exemplet visar att den första och den andra som överskrider tröskelgränsen varar mindre än den tredje som överskrider tröskelvärdet. Så om releaseparametern är inställd på de två första topparna kan en obearbetad del vara kvar vid bearbetning av den tredje (eftersom överskridande av tröskelvärdet tar längre tid). Om releaseparametern är inställd på den tredje toppen, bildas en oönskad minskning av signalnivån bakom dem under behandlingen av de första och andra topparna.

Detsamma gäller parametern Ratio. Om Ratio -parametern är inställd på de två första topparna, kommer den tredje inte att undertryckas tillräckligt. Om Ratio -parametern är inställd för att bearbeta den tredje toppen, kommer behandlingen av de två första topparna att vara för överskattad.

Dessa problem kan lösas på två sätt:

1) Att ställa in attackparametern är en delvis lösning.

2) Dynamisk komprimering är en komplett lösning.

Parameter mentaki (Attack)är utformad för att ställa in tiden efter vilken kompressorn ska börja sitt arbete efter att ha överskridit tröskeln. Om parametern är nära noll (lika med noll vid parallellkomprimering, se motsvarande artikel) - då börjar kompressorn att undertrycka signalen omedelbart och den tid som ställts in av parametern Release fungerar. Om attackhastigheten är hög, kommer kompressorn att börja sin åtgärd efter en viss tid (detta är nödvändigt för att ge klarhet). I vårt fall kan du justera parametrarna för tröskel, frigörings- och komprimeringsnivå (förhållande) för att bearbeta de två första topparna och ställa in attackvärdet nära noll. Då kommer kompressorn att undertrycka de två första topparna, och vid bearbetning av den tredje kommer den att undertrycka den tills tröskeln överskrids. Detta garanterar dock inte högkvalitativ ljudbehandling och är nära att begränsa (en grov nedskärning av alla amplitudvärden, i detta fall kallas kompressorn för en begränsare).

Låt oss titta på resultatet av ljudbehandlingen från kompressorn:

Topparna försvann, jag noterar att bearbetningsinställningarna var ganska skonsamma och vi dämpade bara de mest framträdande amplitudvärdena. I praktiken minskar det dynamiska området mycket mer och denna trend går bara framåt. I många kompositörers sinnen gör de musiken högre, men i praktiken berövar de den helt dynamiken för de lyssnare som kanske lyssnar på den hemma och inte på radion.

Det återstår för oss att överväga den sista komprimeringsparametern (Få). Gain är avsett att öka amplituden för hela kompositionen och är i huvudsak ekvivalent med ett annat ljudredigeringsverktyg, normalisera. Låt oss se det slutliga resultatet:

I vårt fall var komprimeringen motiverad och förbättrade ljudkvaliteten, eftersom den framträdande toppen är mer en olycka än ett avsiktligt resultat. Dessutom kan man se att musiken är rytmisk, därför har den ett smalt dynamiskt omfång. I de fall där högamplitudvärden medvetet har gjorts kan komprimering bli ett fel.

Dynamisk komprimering

Skillnaden mellan dynamisk och icke-dynamisk komprimering är att signalundertryckningsnivån (Ratio) i början beror på insignalnivån. Dynamiska kompressorer finns i alla moderna program, parametrarna Ratio och Threshold styrs med hjälp av fönstret (varje parameter har sin egen axel):

Det finns ingen enda standard för att visa grafen, någonstans längs Y -axeln visas insignalens nivå, någonstans tvärtom, signalnivån efter komprimering. Någonstans är punkten (0,0) i det övre högra hörnet, någonstans nere till vänster. Under alla omständigheter ändras värdena för siffrorna som motsvarar parametrarna Ratio och Threshold genom att flytta muspekaren över detta fält. De där. Du ställer in komprimeringsnivån för varje tröskelvärde, vilket gör det mycket flexibelt att justera komprimeringen.

Sidokedja

Sidokedjans kompressor analyserar signalen från en kanal, och när ljudnivån överskrider tröskeln, tillämpar den kompression på den andra kanalen. Sidkedjan har sina fördelar med att arbeta med instrument som är belägna i samma frekvensområde (bas-trumman används aktivt), men ibland används instrument som finns i olika frekvensregioner, vilket leder till en intressant sidokedjeffekt.

Del två - Kompressionsstadier

Det finns tre stadier av komprimering:

1) Det första steget är komprimering av enskilda ljud (singelskott).

Klangfärgen för alla instrument har följande egenskaper: Attack, Hold, Decay, Delay, Sustain, Release.

Komprimeringssteget för enskilda ljud är uppdelat i två delar:

1.1) Komprimering av individuella ljud från rytminstrument

Ofta kräver de ingående bitarna separat komprimering för att ge dem skarphet. Många bearbetar bastrumman separat från andra rytminstrument, både i skedet av komprimering av enskilda ljud och i skedet av att komprimera enskilda delar. Detta beror på att det är i lågfrekvensområdet, där det förutom det bara finns bas. Bastrummans klarhet förstås som närvaron av ett karakteristiskt klick (bastrumman har en mycket kort attack och hålltid). Om det inte finns något klick måste du bearbeta det med en kompressor, ställa tröskeln till noll och attacktiden från 10 till 50 ms. Kompressorns Realese måste sluta före sparken igen. Det sista problemet kan lösas med hjälp av formeln: 60 000 / BPM, där BPM är kompositionens tempo. Så, till exempel) 60 000/137 = 437,96 (tid i millisekunder tills en ny stark fraktion av en 4-dimensionell komposition).

Allt ovanstående gäller andra rytmiska instrument med korta angreppstider - de ska ha ett accentklick, som inte ska undertryckas av kompressorn vid något av skeden av kompressionsnivåerna.

1.2) Komprimeringenskilda ljudharmoniska instrument

Till skillnad från rytminstrument består harmoniska instrumentdelar sällan av separata ljud. Detta betyder dock inte att de inte ska bearbetas med ljudkomprimering. Om du använder ett prov med en inspelad del är detta den andra komprimeringsnivån. Endast syntetiserade harmoniska instrument tillhör denna kompressionsnivå. Dessa kan vara samplers, syntetisatorer som använder olika metoder för ljudsyntes (fysisk modellering, FM, additiv, subtraktiv, etc.). Som du säkert redan gissat - vi pratar om programmering av syntesinställningar. ja! Detta är också komprimering! Nästan alla synthesizers har en programmerbar kuvertparameter (ADSR), vilket betyder kuvert. Kuvertet används för att ställa in attack-, förfall-, uppehålls- och släpptider. Och om du säger till mig att detta inte är en komprimering av varje ljud - du är min fiende för livet!

2) Andra steget - Komprimering av enskilda delar.

Med komprimering av enskilda delar menar jag att det dynamiska området för en serie kombinerade individuella ljud minskas. Denna etapp inkluderar också inspelningar av delar, inklusive sång, som kräver kompressionsbehandling för att göra det klart och begripligt. Vid bearbetning av komprimering av delarna måste du ta hänsyn till det faktum att när du lägger till enskilda ljud kan oönskade toppar dyka upp, som du måste bli av med i detta skede, eftersom om detta inte görs nu, kan bilden förvärras vid blandningen av hela kompositionen. I skedet av komprimering av enskilda delar måste du ta hänsyn till komprimeringen av steget för bearbetning av enskilda ljud. Om du har uppnått klarheten i bastrumman kan felaktig omarbetning i det andra steget förstöra allt. Kompressorbehandling av alla delar är inte nödvändig, inte heller är det nödvändigt att bearbeta alla enskilda ljud. Jag råder dig att sätta en amplitudanalysator för att bestämma förekomsten av oönskade biverkningar av att kombinera enskilda ljud. Förutom kompression är det i detta skede nödvändigt att se till att delarna, om möjligt, ligger i olika frekvensområden, så att kvantisering utförs. Det är också användbart att komma ihåg att ljudet har en sådan egenskap som maskering (psykoakustik):

1) Det tystare ljudet maskeras av det starkare ljudet som kommer framför det.

2) Ett tystare ljud vid en låg frekvens maskeras av ett högre ljud vid en hög frekvens.

Så, till exempel, om du har en synthesizer -del, börjar noterna ofta spela innan de tidigare noterna avslutar sitt ljud. Ibland är detta nödvändigt (skapa harmoni, spelstil, polyfoni), men ibland inte alls - du kan klippa av deras ände (Delay - Release) om det hörs i sololäge, men inte hörs i alla delar uppspelningsläge. Detsamma gäller effekter som reverb - det ska inte vara förrän ljudkällan startar igen. Genom att stänga av och ta bort onödig signal - gör du ljudet renare, och detta kan också betraktas som komprimering - eftersom du tar bort onödiga vågor.

3) Det tredje steget - Kompression av kompositionen.

När du komprimerar en hel komposition, tänk på att alla delar är en kombination av många separata ljud. Därför, när du kombinerar dem och sedan komprimerar dem, måste du se till att den slutliga komprimeringen inte förstör vad vi uppnådde i de två första stadierna. Du måste också separera kompositioner där ett brett eller smalt område är viktigt. vid komprimering av kompositioner med ett brett dynamiskt intervall är det tillräckligt att sätta en kompressor som kommer att krossa kortsiktiga toppar som bildades som ett resultat av att parterna läggs ihop. Att komprimera en komposition där ett smalt dynamiskt område är viktigt är mycket mer komplicerat. Här kallas kompressorer nyligen för maximiserare. Maximizer är ett plug-in som kombinerar en kompressor, begränsare, graffitiutjämnare, förstärkare och andra ljudomvandlingsverktyg. Samtidigt måste han nödvändigtvis ha ljudanalysverktyg. Maximering, den slutliga bearbetningen av kompressorn, behövs på många sätt för att hantera misstagen i de föregående stadierna. Misstag handlar inte så mycket om komprimering (om du i det sista steget gör det som du kunde ha gjort i det första stadiet är dock redan ett misstag), som i det första valet av bra prover och instrument som inte skulle störa varandra ( vi pratar om frekvensområden) ... Det är för detta som frekvenssvaret korrigeras. Det händer ofta att med stark komprimering på mastern måste du ändra komprimerings- och blandningsparametrarna i tidigare skeden, eftersom med en kraftig förminskning av det dynamiska intervallet kommer tysta ljud som tidigare maskerades, ljudet från enskilda komponenter i komposition förändras.

I dessa delar pratade jag medvetet inte om specifika komprimeringsparametrar. Jag ansåg det nödvändigt att skriva om behovet av att uppmärksamma alla ljud och alla delar under komprimering i alla skeden av kompositionskapande. Detta är det enda sättet i slutändan att du får ett harmoniskt resultat, inte bara ur musikteoretisk synvinkel, utan också från ljudteknik.

Tabellen nedan ger praktiska råd för bearbetning av enskilda satser. Men i komprimering kan siffror och förinställningar bara berätta det område du behöver leta efter. Den perfekta komprimeringsinställningen varierar från fall till fall. Gain- och Threshold -parametrarna antar en normal ljudnivå (logisk användning av hela intervallet).

Del tre - komprimeringsalternativ

Snabbreferens:

Tröskel - bestämmer ljudnivån för den inkommande signalen, när kompressorn börjar arbeta.

Attack - definierar tiden efter vilken kompressorn ska börja arbeta.

Nivå (förhållande) - bestämmer graden av minskning av amplitudvärdena (i förhållande till amplitudens ursprungliga värde).

Release (release) - definierar tiden efter vilken kompressorn kommer att sluta fungera.

Gain - Bestämmer nivån på ökningen av insignalen efter att den har bearbetats av kompressorn.

Kompressionsbord:

Verktyg Tröskel Ge sig på Förhållande Släpp Beskrivning
Vokaler 0 dB 1-2 ms

2-5 mS

10 msek

0,1 ms

0,1 ms

mindre än 4: 1

2,5: 1

4:1 – 12:1

2:1 -8:1

150 ms

50-100 mS

150 ms

150 ms

0,5 sek

Komprimering under inspelning bör vara minimal, kräver obligatorisk bearbetning i blandningsstadiet för att göra det klart och begripligt.
Blåsinstrument 1-5 ms 6:1 – 15:1 0,3 sek
Tunna från 10 till 50 ms

10-100 mS

4: 1 eller högre

10:1

50-100 ms

1 mS

Ju lägre Thrshold och desto högre Ratio och ju längre Attack, desto mer uttalad klick i början av sparken.
Syntetiserare Beror på vågtypen (ADSR -kuvert).
Virveltrumma: 10-40 mS

1-5 ms

5:1

5:1 – 10:1

50 mS

0,2 s

Hej-hatt 20 mS 10:1 1 mS
Overhead mikrofoner 2-5 mS 5:1 1-50 mS
Trummor 5 ms 5:1 – 8:1 10 ms
Bas-gitarr 100-200 mS

4ms till 10ms

5:1 1 mS

10 ms

Strängar 0-40 mS 3:1 500 mS
Sint. bas 4ms - 10ms 4:1 10 ms Beror på kuverten.
Slagverk 0-20 mS 10:1 50 mS
Akustisk gitarr, piano 10-30 mS

5 - 10 ms

4:1

5:1 -10:1

50-100 mS

0,5 sek

Elektro-nitara 2 - 5 ms 8:1 0,5 sek
Slutkomprimering 0,1 ms

0,1 ms

2:1

2: 1 till 3: 1

50 ms

0,1 ms

0dB utgång Angreppstiden beror på målet - om du vill ta bort topparna eller göra spåret mjukare.
Begränsare efter slutkomprimering 0 mS 10:1 10-50 mS 0dB utgång Om du behöver ett smalt dynamiskt område och ett grovt "snitt" av vågor.

Informationen togs från olika källor, som de olika resurserna på Internet hänvisar till. Skillnaden i komprimeringsparametrar förklaras av skillnaden i ljudpreferenser och arbete med olika material.







2021 gtavrl.ru.