Strona w budowie

Rozwój artystyczny oraz podniesienie kompetencji cyfrowych w zakresie nowego zastosowania technik kompozytorskich, wykorzystania technologii brzmienia przestrzennego, sensorycznego i psychoakustyki (RAiC-PSP)

Celem Przedsięwzięcia jest rozwój kompetencji artystycznych i cyfrowych poprzez pracę z technologiami dźwięku przestrzennego, sensorycznego i psychoakustyki. Powstaną cztery dzieła w formacie immersyjnym oraz otwarty pakiet edukacyjny (skrypty i wideo), z którego skorzystają także inni twórcy, edukatorzy i odbiorcy muzyki. Realizacja obejmuje analizę pracy twórczej, udział w konsultacjach eksperckich oraz warsztatach międzysektorowych.
Realizacja: Polska, 1.09.2025 – 28.02.2026.

WideoMateriały źródłowe

Skrypty

Po zakończeniu projektu zostaną udostępnione bezpłatne skrypty – kurs online.  W trakcie trwania projektu zamieszczam linki do materiałów źródłowych, które będą stopniowo aktualizowane.

Skrypt 1. Dźwiękowa przestrzeń 3D w twoim pokoju

Skrypt 2. Etapy pracy kompozytora – sesja startowa

Wideo

Posty promocyjne

Materiały źródłowe

W tej sekcji zamieściłam przegląd literatury z podziałem na tematy ważne dla projektu. Każda pozycja zawiera pełną referencję bibliograficzną oraz krótki opis. Celem opisu jest proste i zwięzłe przedstawienie najważniejszych informacji zawartych w danej publikacji. W praktyce są to moje robocze notatki.

Percepcja słuchowa

Nagrania binauralne od lat interesują specjalistów dźwięku. Najtrudniejsze jest uzyskanie takiego samego efektu przestrzennego dla wszystkich słuchaczy. Wynika to z różnic w budowie uszu, rodzaju słuchawek i indywidualnych funkcji HRTF.

Ujednolicenie tych funkcji zmniejsza dokładność lokalizacji dźwięku. Dlatego lepsze rezultaty daje tworzenie nagrań dla osób o podobnej budowie ucha lub dla konkretnych grup odbiorców.

Carlile omawia, jak nasz system słuchowy „uczy się” interpretować wskazówki przestrzenne i że z przodu jesteśmy dokładniejsi, ponieważ przez całe życie widzimy i słyszymy jednocześnie zdarzenia dźwiękowe, co „trenuje” nasz słuch.

Chociaż percepcja odległości dźwięku jest istotnym elementem słyszenia przestrzennego, otrzymała znacznie mniej uwagi naukowej niż kierunkowe aspekty lokalizacji dźwięku. W niniejszym opracowaniu podsumowujemy aktualną wiedzę na temat percepcji odległości dźwięku, ze szczególnym uwzględnieniem najnowszych wyników badań. Podsumowanie zostało uporządkowane wokół trzech głównych pytań:

Jak dokładnie ludzie potrafią ocenić odległość stacjonarnych źródeł dźwięku?

Wykazujemy, że zależność psychofizyczna jest dobrze przybliżana przez kompresyjną funkcję potęgową, co sugeruje, że słuchacze systematycznie niedoszacowują odległości od źródeł znajdujących się daleko.

Co decyduje o postrzeganej odległości źródła dźwięku?

Analizujemy różne czynniki akustyczne i nieakustyczne, które uważa się za wpływające na percepcję odległości źródła, i podsumowujemy literaturę psychofizyczną odnoszącą się do każdego z tych czynników.

Jakie są neuronalne korelaty postrzeganej odległości źródła dźwięku?

Najnowsze dowody wskazują na rolę obszarów w prawym płacie skroniowym w percepcji odległości dźwięku, a także w innych zadaniach przestrzennych realizowanych w różnych modalnościach sensorycznych.

Tu opisano m.in., że orientacja przestrzenna dźwięku jest silnie zależna od wcześniejszych doświadczeń i że mózg adaptuje się do wzorców słuchowych potwierdzonych wzrokiem.

To przegląd badań dotyczących lokalizacji dźwięku, w którym autorzy opisują zarówno fizjologiczne (kształt głowy i małżowiny usznej), jak i poznawcze mechanizmy lepszej lokalizacji w przodzie. Zwracają uwagę na rolę uczenia się i integracji wzrokowo-słuchowej.

To jedno z klasycznych badań nad lokalizacją dźwięku, w którym autorzy pokazali, że nawet w warunkach sztucznych (słuchawki) mózg potrafi lokalizować dźwięki dzięki filtrom HRTF. Wykazali również, że lokalizacja z przodu jest znacznie dokładniejsza niż z tyłu.

W artykule chodzi o percepcja odległości dźwięku, kóra jest istotnym elementem słyszenia przestrzennego. W odróżnieniu do percepcji kierunkowej (kątowej).

Podsumowanie wiedzy na temat percepcji odległości dźwięku zostało uporządkowane wokół trzech głównych pytań:

Jak dokładnie ludzie potrafią ocenić odległość stacjonarnych źródeł dźwięku?

  • Słuchacze raczej nie doszacowują odległości od źródeł znajdujących się daleko.

Co decyduje o postrzeganej odległości źródła dźwięku?

  • Analiza różnych czynników akustycznych i nieakustyczne, które uważa się za wpływające na percepcję odległości źródła, i podsumowanie literatury odnoszącą się do każdego z tych czynników.

Jakie są neuronalne korelaty postrzeganej odległości źródła dźwięku?

  • Najnowsze dowody wskazują na rolę obszarów w prawym płacie skroniowym w percepcji odległości dźwięku i w innych zadaniach przestrzennych realizowanych przez inne zmysły.

 

Lokalizacja słuchowa pozwala ocenić otoczenie na podstawie dźwięku i jest istotna szczególnie w warunkach miejskich oraz dla osób z wadami słuchu. Praca składa się z części teoretycznej, omawiającej słychanie przestrzenne, oraz eksperymentalnej, badającej zdolność lokalizacji dźwięku u osób 18–28 lat. Badania wykorzystały sygnały tonalne i szumowe przy 80 dB SPL, stosując metodę Zakrzewskiego do określenia kąta ostrości słyszenia kierunkowego (KOSK). Wyniki wskazują na znaczną zmienność KOSK, zwłaszcza przy 4 000 Hz.

Wykorzystanie technologii VR i dźwięku przestrzennego pozwala lepiej badać, jak ludzie lokalizują źródła dźwięku, ponieważ daje dużą precyzję, kontrolę i poczucie zanurzenia w eksperymencie. 

Badania polegają na tym, że uczestnicy zakładają gogle VR i słuchawki, a następnie wskazują, skąd słyszą dźwięk w wirtualnym środowisku.

W przyszłości VR w badaniach słuchu może być używany także do śledzenia ruchu oczu i testowania różnych sposobów odtwarzania dźwięku. Interaktywne narzędzia, zwłaszcza VR, są ważne w badaniach nad tym, jak słyszymy.

3D binaural audio – test percepcji.

3D binaural audio – test percepcji.

3D binaural audio – test percepcji.

3D binaural audio – dźwięki natury, eksperyment sensoryczny.

Teoria muzyki i kompozycja

Co to jest instrumentacja i aranżacja. 

Podstawy instrumentoznawstwa. 

Elementy techniki aranżowania.

Etapy pracy i muzyczne elementy aranżowania. Plany aranżacyjne.

Produkcja i formaty dźwięku przestrzennego

Nowe technologie dźwięku 3D pozwalają tworzyć przestrzenny dźwięk w słuchawkach. Renderery binauralne wykorzystują sposób, w jaki słyszy człowiek, by odtworzyć dźwięk w 3D. Artykuł pokazuje metodę, jak porównywać różne renderery: patrzy się na dokładność lokalizacji dźwięku, jakość brzmienia i ogólne wrażenia słuchaczy. Celem jest znalezienie, co wpływa na działanie rendererów i jak je ulepszyć.

W artykule pokazano, jak można tworzyć muzykę elektroniczną w 3D przy użyciu ambisoniki (techniki pozwalającej umieścić dźwięk w pełnej przestrzeni wokół słuchacza). 

W artykule omówiono proces miksowania, kompozycję dla systemów 3D, czynnik twórczy i kwestie estetyczne, a następnie przeprowadzono testy odsłuchowe.

Kompozycje, produkcja i proces miksowania były ze sobą powiązane – były wykonywane przez jedną osobę w wielu iteracjach.

Przekształcanie utworu stereo w dźwięk 3D (przełączanie między formatami) daje więcej możliwości, ale też problemy. Dźwięki mogą brzmieć ciekawiej i w pełnej przestrzeni, ale stare dźwięki stereo czasem nie wystarczą i trzeba użyć efektów, automatyki lub zmienić aranżację. W ambisonice trudno też utrzymać spójność i odpowiednią interakcję dźwięków.

Najważniejsze dźwięki (melodia i rytm) były ustawione centralnie lub rozłożone równomiernie, tak aby miks był zbalansowany i żaden kierunek nie dominował, a wszystkie częstotliwości były równomiernie rozłożone w przestrzeni.

Badanie polegało na odsłuchu w stereo, ambisonice i w binauralnym dźwięku 3D. Renderowanie binauralne jest teraz bardzo obiecujące, bo pozwala badać, skąd dokładnie dochodzi dźwięk i jak dobrze brzmi w różnych kierunkach.

Stemy

Każdy element oryginalnego miksu stereo został przygotowany jako osobna ścieżka stereo i w tej formie zaimportowany do zestawu do remiksu 3D. Autorzy starali się nie zmieniać barwy ani głośności, ale niektóre zmiany i tak się pojawiły, np. przez przesuwanie dźwięków w przestrzeni. Narzędzia ambisoniczne mogą trochę zmieniać brzmienie, więc trzeba to brać pod uwagę przy produkcji. Każda ścieżka mogła być pozycjonowana w 3D i modyfikowana, a pogłos dodawano osobno i sumowano w finalnym miksie.

Oryginalne nagranie i mix STEREO >> render stemów STEREO (osobno instrumenty i efekty takie jak pogłosy) >> remix 3D.

W wersji 3D tła i dźwięki atmosferyczne (pogłosy i efekty) są większe i rozchodzą się we wszystkich kierunkach. Główne dźwięki są przed słuchaczem, ale bardziej rozłożone w głębi i mają większe rozmiary oraz bardziej złożone ruchy. Dźwięki drugorzędne są często umieszczone w nietypowych miejscach, np. z tyłu lub nad słuchaczem.

Mapowanie przestrzenne

Zostało też zastosowane mapowanie przestrzenne. Szersze wyjaśnienie, co to jest Spatial Mapping:
Spatial mapping to technika w dźwięku 3D/ambisonice, w której:

  1. Każdy dźwięk lub wysokość dźwięku jest przypisywany do określonego miejsca w przestrzeni.

  2. Słuchacz odbiera dźwięki nie tylko jako pochodzące z jednego punktu, ale rozłożone w przestrzeni, co daje wrażenie większych, „pełniejszych” instrumentów.

  3. Efekt wielkości źródła osiąga się przez manipulacje głośnością, fazą, pogłosem, opóźnieniami lub innymi efektami, które wpływają na percepcję przestrzeni.

Abstrakcyjna przestrzeń

Modulowanie przy użyciu losowych sygnałów. Remiks tworzył abstrakcyjne przestrzenie dźwiękowe poprzez manipulowanie sygnałem ambisonicznym i jego pozycją w przestrzeni. Dźwięki ciągłe były powoli obracane w 3D (yaw i roll), aby zmienić ich atmosferę, a dźwięki impulsowe przesuwano szybko i losowo, aby były rozmieszczone w nietypowych miejscach. Do tego używano funkcji programu Reaper, które pozwalają modulować parametry pannerów ambisonicznych przy użyciu losowych sygnałów w pionie i poziomie.

Metoda badań

Ciekawa metoda odsłuchu i porównania Stereo vs Ambisonic oraz Stereo vs. Binuaral render – kryteria. 

Do poprawy

Automatyzacja ruchu fantomowego źródła dźwięku – wydaje się bez konkretnego celu – tylko bo można.

Brak możliwości przetwarzania sygnału na busach ambisonicznych.

Inne terminy

Fantomowe źródło dźwięku – w audio używa się tego terminu na określenie dźwięku, którego słuchacz postrzega w konkretnym miejscu, choć fizycznie nie ma tam głośnika.

Techniki channel-based vs object-based:

  • Technika oparta na kanałach – dźwięk jest przypisany do konkretnych kanałów (np. stereo, 5.1).

  • Technika oparta na obiektach – każdy dźwięk traktowany jest jako osobny obiekt, który można umieścić w dowolnym miejscu w przestrzeni 3D.

Techniki oparte na obiektach pozwalają na bardzo dokładny, przestrzenny dźwięk i działają z różnymi systemami wielokanałowymi. Są standardem w kinach i wysokiej jakości domowych zestawach audio, ale najpopularniejsze formaty są drogie i zamknięte, co utrudnia badania naukowe. Ambisonika jest darmowa i otwarta, używana w VR (np. Google VR, Facebook 360). Wyższe rzędy ambisoniki (HOA) dają więcej możliwości przestrzennych, ale brakuje narzędzi i wsparcia dla dużych projektów w popularnych programach muzycznych. Duże wyzwanie stanowi też integracja z istniejącymi wtyczkami i stworzenie platformy do strumieniowania wielokanałowego.

Szybki start, czyli jak przygotować hardware i software do pracy z miksem w formacie Dolby Atmos.

Jak przygotować sesję Logic Pro do pracy w formacie Dolby Atmos.

Nagrywanie, sprzęt, programy i wtyczki

Kim jest Morten Lindberg?

  • Norweski inżynier dźwięku, producent i szef wytwórni 2L. Specjalizuje się w dźwięku immersyjnym (Atmos), ale nie robi miksów w tradycyjnym sensie.
  • Jego celem jest nagrać muzykę tak, aby dało się ją odtworzyć bez żadnej obróbki – po prostu „mikrofon → głośnik”.

Podejście do produkcji

  • Pracuje głównie z muzyką klasyczną, folkową i jazzem.
  • Lubi naturalną akustykę i pełną kontrolę nad całym procesem nagrania.
  • Wytwórnia 2L powstała, gdy duże firmy ograniczyły nagrania muzyki klasycznej.
  • Wypuszczają 10–15 premier rocznie (SACD, Blu-ray, streaming).

Filozofia nagrywania

  • Brak wielu mikrofonów i późniejszego miksu. Zamiast tego: od razu ustawia mikrofony w taki sposób, by uzyskać końcowy efekt.
  • Muzycy muszą grać „dla nagrania”, nie jak na koncercie. Często proszą, by grali bardziej intymnie, ciszej, z lepszą kontrolą brzmienia.
  • Nie chodzi o „rekonstrukcję koncertu”, ale o tworzenie idealnej iluzji i maksymalnego wrażenia emocjonalnego.

Wybór przestrzeni nagraniowej

  • Najczęściej duże sale, kościoły i katedry.
  • Nie po to, by mieć dużą pogłosowość, ale otwartość i brak wczesnych odbić.
  • Wyzwaniem jest balans między bliskością dźwięku a naturalną przestrzenią.

Technika nagrań immersyjnych

  • Lindberg używa sześciennej matrycy mikrofonów – 2L Cube.
  • Każdy mikrofon odpowiada jednemu głośnikowi (np. w systemie 7.1.4).
  • Używa mikrofonów DPA, zwykle prawdziwych omni.
  • Brak mikrofonów spotowych, chyba że partytura tego wymaga.

Parametry techniczne

  • Prosta i krótka ścieżka sygnału.
  • Nagrywa w 24-bit / 352,8 kHz.
  • Ważniejsza jest dla niego częstotliwość próbkowania niż długość słowa.

Postprodukcja

Zero EQ, zero kompresji.

  • Poprawki tylko poprzez edycję materiału, a nie przetwarzanie brzmienia.
  • Pracuje w Pyramix, bo jest przejrzysty i wspiera immersyjne formaty.

Odsłuch i miks w Atmos

  • Ma własną, niestandardową salę odsłuchową bez preferencji kierunkowych.
  • Używa różnych konfiguracji głośników (Atmos, Auro-3D, 5.1).
  • Zwraca uwagę, by nie nadużywać kanału LFE.

Skalowanie miksów

Nie wierzy w „jeden plik dla wszystkich systemów”.

  • Robi oddzielne, dedykowane wersje: Atmos, Auro-3D, 5.1, stereo.
  • Zasada: jeden mikrofon → jeden głośnik, a przy mniejszej liczbie głośników po prostu usuwa niektóre źródła.
  • Nie jest zadowolony z binauralnego Atmosu; poleca na słuchawki własny miks stereo.

Dokument opisuje zmienny system dwóch mikrofonów o nazwie „Stereophonic Zoom”, który pozwala realizatorowi dźwięku uzyskać optymalne rezultaty nagrania w większości warunków akustycznych. System ten wykorzystuje mikrofony o dowolnej charakterystyce kierunkowej pierwszego rzędu i odpowiadającej jej charakterystyce częstotliwościowej, umożliwiając niezależną kontrolę nad:

  • kątem rejestracji stereo,
  • zniekształceniami geometrycznymi,
  • rozmieszczeniem pogłosu,
  • lokalizacją wczesnych odbić.

Ciekawa metodyka testów ustawień mikrofonów stereo.

Technika stereo ORTF (zwana też side-other-side) to metoda mikrofonowa (Office de Radiodiffusion Télévision Française). Wykorzystuje dwa mikrofony kardioidalne ustawione pod kątem 110° i oddalone o 17 cm, co łączy różnice poziomu i czasu docierania dźwięku do mikrofonów.

Zalety:

  • daje naturalne i realistyczne pole stereo, które dobrze współpracuje z odtwarzaniem mono.
  • ogranicza wpływ akustyki pomieszczenia i pozwala na umieszczenie mikrofonów dalej od źródła dźwięku.

Układ ORTF jest efektem licznych badań i umożliwia powtarzalne, przewidywalne rezultaty, choć w praktyce kąt i odległość mogą być dostosowywane „na słuch” w zależności od warunków nagrania.

ambiX and mcfx by Matthias Kronlachner

Czteromikrofonowa matryca rejestruje dźwięki z różnych kierunków z różną czułością.

Nie ma całkowitych „martwych punktów”, są tylko słabsze i silniejsze obszary odbioru.

Dźwięki z boków trafiają głównie do lewego lub prawego głośnika, z minimalną spójnością.

Przykładem takiego odwzorowania dźwięku jest dwumikrofonowa matryca ORTF.