Bakó Tamás
(Budapesti Műszaki és Gazdaságtudományi Egyetem)

Régi filmek hangjának digitális felújítása újfajta módszerrel
(Elhangzott a filmek megőrzéséről, felújításáról, restaurálásáról rendezett nemzetközi szemináriumon a budapesti Örökmozgóban (2001. 03. 10-15.). (A szerk.) )

Arról szeretnék beszélni, hogy milyen digitális technikákat sikerült kifejlesztenünk az egyetemen régi mozifilmek hangjának feljavításához. Most nem különféle programok gyönyörű grafikus felületéről kívánok beszélni, hanem a digitális hangrestaurálás alapjairól. Remélem, hogy az itt megismert fogalmak segítségére lesznek a hangfelújítással foglalkozó mérnököknek és egyéb szakembereknek.

Előadásom során először definiálni szeretném a mozifilmek hangján előforduló főbb hangtorzulásokat, ezután pedig a saját munkánkra szeretnék koncentrálni, és a hangfelvételek digitális restaurálásáról szeretnék beszélni: a nagyméretű kattanások eltávolításáról, a háttérzaj és a nemlineáris torzítások csökkentéséről. Az előadás végén néhány példát is szeretnék mutatni.

Milyen hangtorzulások találhatók a régi mozifilmeknél? A főbb torzulások listája ezen a dián olvasható. Ezek sorban: frekvencia-ingadozás (nyávogásnak is szokták hívni), a nem egyenletes frekvenciamenete a felvételi berendezéseknek, a nemlineáris torzulások, kattogások és sercegések, hálózati zúgás és háttérzaj. Most pedig vizsgáljuk meg részletesebben ezeket.

Az első probléma a frekvencia-ingadozás. Ha felvétel során a filmszalag frekvenciamenete nem állandó, ez apró csúszásokat okoz a frekvenciákban. Általában a mozigépeknek nagyon kis fordulatszám-ingadozásuk van, ezért ez a hiba nem túl gyakori.

A második probléma a hang nem ideális frekvenciamenete, amit a régi felvevő berendezések (a mikrofon és a magnó) kis sávszélessége és a fényhangíró berendezés okoz. A fényhangíró fényrése egy átlagolási funkciót jelent, ami miatt a rendszer aluláteresztő szűrőként működik. Ezek miatt a hangfelvételek tompán és fátyolosan szólnak.

A hangok feljavíthatók analóg kompenzálószűrőkkel, viszont az analóg áramkörök némi extra zajt visznek be a hang mellé, sőt a felüláteresztő jellegű kompenzáló szűrők fel is erősítik ezt a zajt. A digitális technika előnye ilyenkor, hogy nem visz be semmilyen extra zajt a felvételbe és a lejátszásba.

Egy újabb probléma, ha a film hangsávja túl- vagy alulexponált, esetleg rosszul volt előhívva. Ha a hangot intenzitás-módszerrel rögzítették (ami elterjedt eljárás volt az 1954-es évek előtt), akkor az optikailag rögzített hang amplitúdója kikerülhet a feketedési karakterisztika lineáris tartományából, ami nemlineáris torzítást okoz.

A következő probléma a kattogások és sercegések problémája. Ezen a fólián egy 14 millisecundum hosszú hangrészlet látható. Az X tengelyen az idő, az Y tengelyen az amplitúdó látszik. Jól látható, hogy a kattanások nagy amplitúdóval rendelkeznek és a kattanás az eredeti hangot teljesen felülírja egy rövid szakaszon. A kattanás-szerű hangokat apró mechanikai sérülések okozzák (például a film vágása, gyűrődése vagy gombásodás). A sérülés helyén a hangból egy rövid részlet elveszik. Abban a pillanatban, amikor a sérülés eléri a lejátszóberendezés érzékelőjét egy hatalmas csattanást hallunk a hangszóróban.

A kattanások rövid időtartamú, impulzusszerű zavarok. Hatalmas hangenergiával rendelkeznek. Képesek tönkretenni a hangszórókat, ezen kívül rendkívül zavarják a művészi élvezetet. A sercegés nagyon hasonló a kattanásokhoz: ez apró kattanások sorozata.

A háttérzaj és a zúgás - ellentétben a sercegésekkel és a kattogásokkal - folyamatosan jelen vannak a felvételben. A filmeknél a zúgást a felvétel során a kezdetleges hangfelvételi berendezések okozták.

A hangosfilmek gyermekkorában a hang felvétele közvetlenül a film forgatása alatt történt, és nem csináltak utómunkálatokat. A hang gyenge minőségű volt, mert az 50 vagy 60 Hz-es búgása az elektromos berendezéseknek és a filmfelvevő gép zúgása zavarta a hangot.

A zúgás egy periodikus zavarjel. Általában 50 Hz-től kezdődően tartalmaz frekvenciakomponenseket egészen kHz-es frekvenciatartományokig. Ez azt jelenti, hogy a zavar frekvenciatartománya beleesik a beszéd és a zene frekvenciatartományába.

Egy másik fontos minőségromlás a háttérraj, amit gyakran sziszegésnek hívnak. A sziszegés egyrészt a felvétel során alkalmazott berendezések okozzák, másrészt a filmanyag tárolás során bekövetkező bomlása. Bomlás során a filmen - és így az optikai sávban is - apró tökéletlenségek (foltok) jönnek létre. Lejátszás sorért ezek a tökéletlenségek egy sziszegő jellegű zajt hoznak létre.

A sziszegés szélessávú zaj, éppen ezért a beszéd és zene frekvenciasávjában is zavart okoz.

És most vizsgáljuk meg, hogyan lehet ezeket a problémákat kezelni. A következőkben három különböző algoritmus alapjait fogom megmutatni, amelyeket a Műszaki Egyetemen fejlesztettünk ki, és amelyek képesek eltávolítani a nagyméretű kattanások hangját, hatékonyan csökkenteni a sziszegés és hálózati zúgás hangját, illetve csökkenteni a nemlineáris torzulások hatásait.

Itt szerezném hangsúlyozni, hogy ezek az algoritmusok az eredeti hangból egy olyan hangot készítenek, amelyik kellemesebb az emberi fül számára, de ez minden, és semmi több. Nem tudunk az eredeti hangban nem hallható információt előállítani. Ha például az eredeti hang zajos és a zaj teljesen elfed néhány halk jelet, akkor mi meg tudjuk szűrni a felvételt: a hang tiszta lesz, de az elfedett zaj eltűnik és nem lesz hallható. Éppen ezért rendkívül fontos hogy jó minőségű analóg lejátszó berendezésekkel minden hanginformációt összegyűjtsünk a hangsávról a digitalizálás előtt.

Az első próbálkozásunk az Egyetemen egy régi magyar film: a Sárga kaszinó hangjának a digitális restaurálása volt. A filmben gombásodás miatt hangos kattanások voltak hallhatók. A filmtekercsen egy vékony sávban a hangsáv tönkrement a gombásodástól, emiatt lejátszás során minden második másodpercben hatalmas durranások voltak hallhatók. A kattanások hossza negyed másodpercnél is hosszabb volt. A hagyományos digitális technikák, mint a polinomiális regresszió vagy az autoregresszió nem voltak alkalmasak a kattogás megszüntetésére. Ezért egy új technikát fejlesztettünk ki, egy nemlineáris szűrést, ami a Wiener-szűrési technikán alapszik. Feltételeztük, hogy a sérült hangrészlet és környezete kellően hasonlít egymásra. Ezzel a feltételezéssel előállítható egy olyan szűrőstruktúra, ami külön tudja választani a hangjelet és a kattanást, tehát a felvétel megtisztítható. Sajnos, a nagyméretű kattanások megbízható detektálása még nem megoldott, és jelenleg a nagyméretű kattanásokat kézi módszerrel kell kijelölni. Természetesen folyamatosan dolgozunk a problémán, és már jó eredményeink vannak kisebb méretű kattanások határainak a pontos megtalálásában.

A kattanásdetektorunk a nagyfrekvenciás spektrumban mérhető energia detektálásán alapul. Egy validáló rendszer találja meg és törli ki azokat a detektált részleteket, amelyek nem kattanások. Sajnos az eredeti hang néhány része (bizonyos beszédhangok) nem különböztethetők meg rendesen a kattanásoktól, ezért némi kézi segítségre is szűkség van, hogy elkerteljük ezeknek a hibátlan részleteknek a kijavítását.

A sziszegés és zúgás szűrése két fő lépésből áll. Először meg kell határoznunk a zaj paramétereit. Egy .,ujjlenyomatot" kell szerezni róla, ami nem más, mint a teljesítménysűrűség-spektrum . A teljesítménysűrűség-spektrum meghatározása egy olyan filmrészletből történhet, ami csak zajt tartalmaz. A zajspektrumot ennél a pontnál használjuk fel.

A pillanatnyilag vizsgált hangrészletnek előbb elkészítjük az amplitúdó és a fázisspektrumát, majd elkészítjük a teljesítménysűrűség -spektrumot. Az eredeti zajos spektrumból ennél a pontnál vonjuk ki a zaj spektrumát az eredeti hang spektrumából. Természetesen ez nem egy egyszerű matematikai kivonás, hanem egy bonyolult nemlineáris művelet, viszont attól tartok, hogy nincs elég időnk ennek a részleteiről beszélni. Ezután a tisztított spektrumot visszatranszformáljuk az időtartományba.

Most pedig a harmadik kutatási területünkről fogok beszélni: a nemlineáris torzítások csökkentéséről. Ez a kutatási terület rendkívül újnak számit. Analóg zajcsökkentési és kattogáscsökkentési eljárásokat már a 70-es évek óta használnak gramofonfelvételek tisztítására. Digitális technológiák a 90-es évek elejétől használatosak. Viszont a nemlineáris torzítások kompenzálásával csak az utóbbi néhány évben foglalkoznak, főként hangszórók és nagysebességű laboratóriumi berendezések, például oszcilloszkópok esetében. A filmeknél történő alkalmazás egy teljesen új terület, ami rengeteg kihívást tartogat.

Ez a fólián a nemlineáris torzítás és helyreállítás hatásait mutatja be. Ezen az ábrán egy egyszerű szinuszos jel látható, ami azután keresztülmegy egy eszközön, ami erős nemlineáris karakterisztikával rendelkezik. A torzult jel itt látható. Sajnos, a jelhez zaj is adódik. Ez egy általános probléma, mert minden felvevő és lejátszó berendezés zajt produkál. Mi szeretnénk visszaállítani az eredeti jelet. Ha a készülék nemlineáris függvényének az inverzét használjuk, akkor a zaj rendkívül fel fog erősödni, és amint azt látjuk, a helyreállított jel erőteljesen eltér az eredetitől és esetleg rosszabb hangzása van, mint a torzítottnak. Ezért egy újfajta, inverz karakterisztikára van szűkség, ami képes optimumot találni a torz és a zajos hang között

Egy új módszert fejlesztettünk ki, ami egy speciális regularizációs technikán alapszik és amely képes ezt a problémát kezelni.

Ezen a fólián az eredeti inverz karakterisztika és a regularizált inverz karakterisztika közötti különbség látható. Azoknál a pontoknál, ahol az eredeti karakterisztika zajerősítése magas, itt az erősítés jóval alacsonyabb.

És most néhány példát szeretnék bemutatni önöknek. Az első példa a kattogáscsökkentő algoritmusunk működését mutatja be a Sárga kaszinó című filmen. Az első 40 másodpercben az eredeti hangját fogjuk hallani a filmnek, ezután megismételjük a filmrészletet a tisztított verzióval. Ezután a zajcsökkentő algoritmusunkat mutatnám be a To Sei la Vita Mia című film egyik betétdalának gramofonfelvételén. Benjamino Gigli fog énekelni.

Végül néhány szimulációs példát fognak hallani a nemlineáris torzítás csökkentésére. Az első felvétel a torzult hangot tartalmazza, majd az eredeti inverzzel helyreállított hangot fogják hallani, majd az általunk készített módszerrel elkészített hangot.