Przejdź do treści

Publikacje

Wartość? 200 punktów

Publikacje to nieodłączna część pracy naukowców. To publikacje opisują i podsumowują dorobek badawczy, często wielomiesięczny albo nawet wieloletni wysiłek, budują pozycję naukowców i całych zespołów. Są także elementem ewaluacji – oceny konkretów osób, a co za tym udzie – całych dyscyplin.

Na poniższej liście prezentujemy najwyżej punktowane publikacje (czyli takie za 200 punktów), w które wkład mieli naukowcy z Politechniki Warszawskiej. Wykaz obejmuje dane od początku 2023 roku.

Onset of Constituent Quark Number Scaling in Heavy-Ion Collisions at RHIC

Kolektywność partonów jest jednym z niezbędnych sygnatur do powstania plazmy kwarkowo-gluonowej w zderzeniach jądrowych o wysokiej energii. Zaobserwowano skalowanie liczby kwarków (NCQ) dla eliptycznego przepływu hadronów v₂ w zderzeniach jądrowych o najwyższej energii w Relativistic Heavy Ion Collider oraz w LHC, przewidywania teoretyczne sugerują, że stanowi to silny dowód zjawiska kolektywności. W niniejszym artykule przedstawiono systematyczną analizę v₂ dla π±, K±, K⁰_s, p, oraz Λ w zderzeniach Au+Au przy √s_NN = 3,2, 3,5, 3,9 i 4,5 GeV, przeprowadzonych w eksperymencie STAR w Relativistic Heavy Ion Collider. Skalowanie NCQ jest wyraźnie naruszone przy energii 3,2 GeV, co jest zgodne z równaniem stanu opisującym stany partonów związanych w hadrony.   Jednakże, wraz ze wzrostem energii zderzeń, obserwuje się stopniową ewolucję w kierunku skalowania NCQ. Ta zależność v₂ od energii wiązki dla wszystkich badanych hadronów dostarcza dowodów na pojawienie się dominujących oddziaływań partonowych przy energii √s_NN = 4,5 GeV.

Artykuł:

Physical Review Letters

Rok wydania:

Autorzy z PW:

Daniel Kikoła, Daniel Wielanek, Jan Pluta, Hanna Zbroszczyk, Diana Pawłowska-Szymańska, Jędrzej Kołaś, Srikanta Kumar Tripathy, Priyanka Roy Chowdhury

Dyscyplina:

Highly sensitive bi-layer interferometer on an optical fiber tip for label-free biosensing purposes

W niniejszej pracy przedstawiono kompaktowy czujnik światłowodowy oparty na dwóch przezroczystych cienkich warstwach (układ dwuwarstwowy) osadzonych na czole światłowodu jednomodowego, w którym warstwa wewnętrzna i zewnętrzna pełnią odpowiednio funkcję reflektora dielektrycznego oraz wnęki interferometru Fabry’ego–Perota. W szczególności omówiono wpływ właściwości reflektora z punktu widzenia zastosowań w czujnikach współczynnika załamania oraz biosensorach bez znaczników (label-free). Rozszerzona analiza numeryczna odpowiedzi widmowej układu dwuwarstwowego wykazała istnienie optymalnych właściwości reflektora dla interferencji niskiego rzędu oraz detekcji w dowolnie wybranym zakresie widmowym. Wybrane wyniki numeryczne zweryfikowano eksperymentalnie z wykorzystaniem warstw tlenku hafnu (HfO₂) oraz tlenku krzemu (SiO₂), osadzonych odpowiednio jako reflektor i wnęka. Dla odpowiednio zaprojektowanego reflektora możliwe jest uzyskanie dobrze zdefiniowanego spektralnie minimum interferencyjnego w widmie odbiciowym. Śledzenie jego długości fali zapewnia czułość na zmiany grubości wnęki SiO₂ przekraczającą 5,6 nm/nm. Wysoka czułość oraz niewielkie rozmiary czujnika (125 µm średnicy czoła) stanowią istotne zalety w zastosowaniach biosensorycznych, zwłaszcza w przypadku małych receptorów lub analitów. W celu potwierdzenia funkcjonalności podejścia w detekcji bez znaczników, powierzchnię czujnika sfunkcjonalizowano aptamerami DNA i z powodzeniem wykorzystano do wykrywania małych analitów, takich jak wybrane jony metali ciężkich, przy granicach detekcji niższych niż wartości wskazywane przez Światową Organizację Zdrowia dla wody pitnej. Opracowana technologia ma charakter uniwersalny zarówno pod względem materiałowym, jak i aplikacyjnym. Umożliwia niskokosztową produkcję masową elastycznych i wysoce czułych czujników oraz biosensorów bez znaczników.

Artykuł:

Measurement

Rok wydania:

Autorzy z PW:

Monika Janik, Mateusz Jakub Śmietana, Agnieszka Martychowiec, Norbert Kwietniewski, Sławomir Szostak

Spatial resolution-enhanced electrical capacitance tomography using 32-electrode sensor and neural network training based on synthetic data

Niska rozdzielczość przestrzenna obrazów od lat pozostaje jednym z głównych ograniczeń elektrycznej tomografii pojemnościowej. Jednym ze sposobów jej poprawy jest zwiększenie liczby elektrod w czujniku, co pozwala na gęstsze próbkowanie przestrzenne. Takie podejście ma jednak również istotną wadę: mniejsze elektrody oznaczają niższą pojemność międzyelektrodową, a w konsekwencji pogorszenie stosunku sygnału do szumu.

W artykule przedstawiono metodę poprawy rozdzielczości przestrzennej z wykorzystaniem jednorzędowego czujnika z 32 elektrodami oraz rekonstrukcji obrazów opartej na uczeniu maszynowym. Do rozwiązania problemu odwrotnego zastosowano sieć neuronową z warstwami w pełni połączonymi, której architekturę dobrano heurystycznie i wytrenowano na syntetycznym zbiorze danych. Wyniki oceniono zarówno dla danych symulowanych numerycznie, jak i dla rzeczywistych pomiarów. W układzie pomiarowym zastosowano rozwiązania umożliwiające pomiar pojemności rzędu pojedynczych femtofaradów przy wysokim stosunku sygnału do szumu. Do oceny rozdzielczości przestrzennej wykorzystano specjalnie przygotowane obiekty testowe, opracowane na potrzeby wyznaczania funkcji przenoszenia modulacji (MTF). Badania wykazały, że zwiększenie liczby elektrod do 32 w jednorzędowym czujniku prowadzi do poprawy rozdzielczości przestrzennej obrazów, pod warunkiem zapewnienia odpowiednio wysokiego stosunku sygnału do szumu.

Wyniki potwierdziły również, że sieć neuronowa wytrenowana na danych syntetycznych może być skutecznie stosowana do rekonstrukcji obrazów na podstawie rzeczywistych danych pomiarowych. Co szczególnie istotne, w obrazach uzyskanych z rzeczywistych pomiarów udało się wyraźnie rozróżnić pięć obiektów ułożonych w jednym rzędzie. Według wiedzy autorów odpowiada to najlepszej dotąd osiągniętej rozdzielczości przestrzennej w elektrycznej tomografii pojemnościowej.

Artykuł:

Measurement

Rok wydania:

Autorzy z PW:

Przemysław Wróblewski, Waldemar Smolik, Damian Wanta, Mikhail Ivanenko, Mateusz Midura

Fe-modeling of temperature evolutions of the brake disc measured using thermocouples

Numeryczne i analityczne obliczenia temperatury w układach hamulcowych są zazwyczaj weryfikowane na podstawie danych uzyskanych z pomiarów przy użyciu termopar. W przypadku stosowania termopar wbudowanych w tarczę hamulcową, ze względu na wysoką złożoność modelu, przyjmuje się, że rozpatrywany obszar jest ciałem stałym, pozbawionym niejednorodności spowodowanych obecnością otworów, przewodów lub materiału łączącego termoparę z badaną częścią tarczy. Jak wykazało wiele badań, obliczenia i dane eksperymentalne wykazują dobrą zgodność nawet przy bardzo długich czasach hamowania, ale jedynie przy uwzględnieniu średniej temperatury z pewnej liczby punktów. Wyznaczenie temperatury odpowiadającej odczytom poszczególnych termopar umieszczonych w tarczy hamulcowej staje się trudne lub wręcz niemożliwe. W artykule zaproponowano trójwymiarowy termomechaniczny model kontaktowy tarczy hamulcowej kolejowego hamulca tarczowego z wbudowanymi w powierzchnię roboczą tarczy termoparami na określonej głębokości. Model obejmuje pełną rotację geometrii i siatki tarczy hamulcowej wraz z piastą i termoparami. Uwzględniono również usuwanie materiału klocka hamulcowego wskutek zużycia. Dane do obliczeń w postaci zmiennego w czasie współczynnika tarcia, prędkości oraz siły normalnej działającej na klocki hamulcowe zostały dostosowane na podstawie pomiarów przeprowadzonych na stanowisku doświadczalnym w skali pełnowymiarowej. Stwierdzono, że uwzględnienie w modelu termopar jako odrębnych obiektów w porównaniu do przypadku bez termopar pozwala na wyznaczenie przebiegów temperatury tarczy hamulcowej zgodnych z danymi z eksperymentu.

Artykuł:

Measurement

Rok wydania:

Autorzy z PW:

Jacek Kukulski

enhancer3D: 3D chromatin structures and enhancer-promoter distance profiles for archaic and modern human genomes

Przestrzenne interakcje pomiędzy enhancerami a promotorami (E–P) stanowią fundamentalny mechanizm regulacji aktywności genów. Zrozumienie ich ewolucji, zwłaszcza w kontekście różnic i unikalnych cech człowieka, pozostaje istotnym wyzwaniem. W odpowiedzi na tę potrzebę, prezentujemy enhancer3D – pierwszą, według naszej wiedzy, ogólnodostępną bazę danych gromadzącą zestawy trójwymiarowych modeli chromatyny dla genomów archaicznych (neandertalczyków, denisowian) oraz współczesnych ludzi. enhancer3D umożliwia porównawczą analizę profili przestrzennych odległości E–P zarówno pomiędzy różnymi liniami ewolucyjnymi, jak i pomiędzy kluczowymi liniami komórkowymi człowieka (GM12878, HFFc6, H1-ESC). Platforma ta ułatwia nowe badania nad tym, jak warianty strukturalne i zmiany ewolucyjne wpływają na regulację genów poprzez modyfikacje trójwymiarowej konformacji chromatyny. Baza oferuje intuicyjny interfejs internetowy z wbudowanymi narzędziami wizualizacyjnymi, w tym zintegrowaną przeglądarką genomową IGV oraz modułem NGL do interaktywnej eksploracji modeli 3D. Wszystkie modele i zbiory danych są dostępne bezpłatnie pod adresem: https://3dgnome.mini.pw.edu.pl/enhancer3D/.

Artykuł:

Nucleic Acids Research

Rok wydania:

Autorzy z PW:

Michał Własnowolski

Neural Network-Based Approximation of Continuous Control Set MPC for the Primary Control of DERs in AC Microgrids

W artykule przedstawiono projekt oraz walidację funkcjonalną aproksymatorów opartych na głębokich sieciach neuronowych, służących do odwzorowania polityki sterowania w ograniczonym sterowaniu predykcyjnym, zastosowanym do jednostki zasobów energii rozproszonych pracującej w trybie wsparcia sieci w mikrogridzie prądu przemiennego. Schemat sterowania opiera się na klasycznej architekturze kaskadowej, obejmującej pętlę sterowania zerowego poziomu, regulującą napięcie wyjściowe DER, oraz pętlę sterowania nadrzędnego, odpowiedzialną za bilansowanie podaży i zapotrzebowania na moc. Symulacje wykazują, że polityka sterowania aproksymowana za pomocą sieci neuronowych osiąga wydajność funkcjonalną równoważną klasycznej, niejawnej postaci MPC. Ponadto czas obliczeń sieci neuronowych skaluje się korzystniej w przypadku problemów optymalizacyjnych o wysokiej wymiarowości w porównaniu z tradycyjnymi solverami iteracyjnymi. Walidację eksperymentalną przeprowadzono na laboratoryjnym stanowisku badawczym z wykorzystaniem platformy sterującej dSPACE MicroLabBox. Aby spełnić wymagania dotyczące czasu wykonania przy docelowym okresie sterowania 200 µs, klasyczna postać niejawna MPC wymaga uproszczenia ograniczeń, co redukuje maksymalne napięcie sterujące oraz skraca horyzont predykcji. W przeciwieństwie do tego podejście oparte na sieciach neuronowych umożliwia zastosowanie bardziej złożonych zbiorów ograniczeń oraz wydłużenie horyzontu predykcji, co pozwala na pełniejsze wykorzystanie zmiennego napięcia falownika.

Artykuł:

IEEE Transactions on Smart Grid

Rok wydania:

Autorzy z PW:

Dave Figueroa

Hybrid MOF+COF modified PVDF membranes for enhanced microfiltration of pharmaceutical contaminants

Jednym z kluczowych kierunków w rozwoju procesów membranowych jest poszukiwanie nowych materiałów oraz modyfikacja powszechnie stosowanych membran. Projektowanie struktur membranowych o programowalnych właściwościach zwiększa wydajność procesów oraz rozszerza ich potencjalne zastosowania. W niniejszym badaniu zastosowano hybrydowe struktury MOF + COF (metal organic framework + covalent organic framework) do modyfikacji mikrofiltracyjnych membran z polifluorku winylidenu (PVDF). Związki te charakteryzują się wysoko rozwiniętą strukturą i dużą powierzchnią właściwą, co odpowiada za doskonałe właściwości adsorpcyjne. Takie modyfikacje mogą poprawić usuwanie zanieczyszczeń organicznych, w tym leków i produktów higieny osobistej z wody, w trakcie procesu mikrofiltracji. Celem badań była ocena wpływu modyfikacji strukturami MOF + COF na właściwości powierzchniowe i użytkowe membran PVDF oraz określenie ich potencjału w usuwaniu substancji farmaceutycznych z wody. Do modyfikacji membran zastosowano strukturę ZIF-8+TpPa syntezowaną we własnym laboratorium. Jako modelowy związek farmaceutyczny wybrano tetracyklinę. Właściwości powierzchniowe i strukturalne otrzymanych materiałów analizowano za pomocą FTIR, XRD oraz pomiarów kąta zwilżania. Wydajność filtracji oceniano w standardowym układzie mikrofiltracyjnym dla różnych warunkach pracy: dla temperatury nadawy 25°C, 30°C i 40°C oraz dla ciśnieniach nadawy 0,5, 1 i 1,5 bar. Analizy strukturalne potwierdziły skuteczną syntezę hybryd ZIF-8+TpPa i ich inkorporację na powierzchni membrany. Filtracja w przepływie krzyżowo-prądowym wykazała, że masa usuniętej tetracykliny wzrosła z 742,9 mg/m2 dla membran niemodyfikowanych do 1222,4 mg/m2 dla membran zmodyfikowanych. Wyższe ciśnienie zasilania zwiększało efektywność usuwania, natomiast wpływ temperatury był nieliniowy i zaobserwowano spadek efektywności przy 40˚C w porównaniu do 25˚C i 30˚C.

Artykuł:

Water Resources and Industry

Rok wydania:

Autorzy z PW:

Daniel Polak, Maciej Szwast

Dyscyplina:

Local structure and lithium transport in Zr- and Hf-Doped LiTa2PO8 ceramics

Fosforan tantalowo-litowy (LiTa₂PO₈) jest obecnie jednym z najbardziej obiecujących materiałów ceramicznych do zastosowania jako elektrolit stały w nowej generacji baterii litowo-jonowych. Struktura krystaliczna LiTa₂PO₈ może być modyfikowana poprzez domieszkowanie w celu zwiększenia przewodności elektrycznej. W pracy badano wpływ podstawienia części atomów tantalu atomami hafnu lub cyrkonu na lokalną strukturę w układach Li₁₊ₓTa₁₋ₓMₓPO₈ (M = Hf lub Zr). Kompleksowe badania struktury krystalicznej przeprowadzono za pomocą metod: dyfrakcji neutronów, spektroskopii magnetycznego rezonansu jądrowego w fazie stałej (MAS NMR) oraz spektroskopii Ramana. Wykonano również obrazowanie mikrostruktury ceramik oraz pomiary elektryczne. 

W pracy wykazano, że w badanych układach rozpuszczalność hafnu i cyrkonu jest ograniczona do x = 0,05. Precyzyjna analiza strukturalna próbek o składzie x = 0,05 pokazała, że jony litu są rozmieszczone w czterech pięciokoordynacyjnych pozycjach, które łączą się, tworząc kanały dyfuzji w kierunku krystalograficznym ⟨001⟩. Analiza danych dyfrakcyjnych wskazała na subtelne różnice w rozmieszczeniu jonów litu w zależności od domieszki, tzn. materiał domieszkowany hafnem wykazywał bardziej dwuwymiarowy charakter przewodnictwa jonowego. 

Pomimo różnic strukturalnych, przewodności jonowe oraz energie aktywacji dla obu materiałów są bardzo zbliżone; w temperaturze pokojowej wartości przewodności wynoszą odpowiednio 0,9 × 10⁻³ S·cm⁻¹ (przewodność całkowita) oraz 1,6 × 10⁻³ S·cm⁻¹ (przewodność wnętrz ziaren). Należy zaznaczyć, że osiągnięta przewodność wnętrz ziaren jest szczególnie wysoka w porównaniu z innymi tlenkowymi przewodnikami jonów litu. W pracy wskazano również na przesłanki świadczące o klastrowaniu się jonów litu, co może sugerować ich skoordynowany ruch w trakcie procesu przewodzenia.

Artykuł:

Acta Materialia

Rok wydania:

Autorzy z PW:

Wioleta Ślubowska-Walkusz, Klaudia Pachulska, Cezariusz Jastrzębski, Agnieszka Krawczyńska, Konrad Kwatek

Correcting the moisture–permittivity conversion functions for selected soil-specific properties in the 20 MHz–3 GHz frequency range for accurate soil moisture measurement

Do dokładnego pomiaru wilgotności gleby przy użyciu czujników dielektrycznych niezbędne jest zastosowanie odpowiedniej funkcji kalibracyjnej łączącej przenikalność elektryczną z objętościową zawartością wody w glebie. W niniejszej pracy analizowano nową klasę modeli, które uwzględniają dodatkowy parametr odpowiadający maksymalnej przenikalności, jaką może osiągnąć dana gleba, a także korekcje związane z tangensem kąta stratności i przewodnością elektryczną całkowitą próbki. Modele trenowano na dwóch zbiorach danych obejmujących łącznie 687 widm dielektrycznych próbek sześciu różnych gleb o zróżnicowanej zawartości wody, przewodności elektrycznej, temperaturze i gęstości objętościowej. Zbiór testowy składał się z 158 widm próbek czterech nowych gleb. Wszystkie widma dielektryczne mierzono przy użyciu współosiowej głowicy pomiarowej w zakresie częstotliwości od 20 MHz do 3 GHz. Zawartość wody w próbkach określono metodą suszenia w piecu. Wyniki wykazały, że uwzględnienie parametru maksymalnej przenikalności poprawia dokładność określania objętościowej zawartości wody w porównaniu do prostego modelu liniowego, szczególnie przy częstotliwościach powyżej około 500 MHz. Dodatkowe włączenie korekcji związanych z tangensem strat i przewodnością elektryczną całkowitą zwiększało dokładność modeli przy niskich częstotliwościach. Dalszy rozwój przedstawionych modeli może umożliwić opracowanie szybkiej i prostej procedury kalibracji specyficznej dla danej gleby, a także poprawić dokładność pomiarów wykonywanych przy użyciu czujników impedancji pracujących w niskim zakresie częstotliwości. Takie podejście pozwala zarówno na szybsze, jak i bardziej precyzyjne wyznaczanie wilgotności gleby, co jest istotne w badaniach agronomicznych i monitoringu środowiskowym.

Artykuł:

Measurement

Rok wydania:

Autorzy z PW:

Arkadiusz Lewandowski, Leszek J. Opalski 

Precise parameter localization for textual generation in diffusion models

Najnowsze modele dyfuzji potrafią syntetyzować fotorealistyczne obrazy ze wkomponowanym wysokiej jakości tekstem. Co zaskakujące, wykazujemy poprzez analizę aktywacji w warstwach uwagi, że mniej niż 1% parametrów modelu wpływa na generowanie treści tekstowych w obrazach. Na podstawie tej obserwacji poprawiamy efektywność i wydajność generowania tekstu, koncentrując się na warstwach uwagi krzyżowej w modelach dyfuzji. Przedstawiamy kilka zastosowań wynikających z lokalizacji warstw odpowiedzialnych za generowanie treści tekstowych. Najpierw pokazujemy, że dostrajanie modelu oparte na metodzie LoRA, przeprowadzone wyłącznie na zlokalizowanych warstwach, dodatkowo wzmacnia ogólne możliwości generowania tekstu, przy zachowaniu jakości i różnorodności generowanych obrazów. Następnie demonstrujemy, jak można wykorzystać zlokalizowane warstwy do edycji treści tekstowej w wygenerowanych obrazach. Wreszcie rozszerzamy ten pomysł na praktyczne zastosowanie, polegające na bezkosztownym zapobieganiu generowania toksycznego tekstu. W odróżnieniu od wcześniejszych prac, nasze podejście do lokalizacji parametrów jest stosowalne do różnych architektur modeli dyfuzji, w tym sieci typu U-Net (np. SDXL i DeepFloyd IF) oraz w modelach opartych na transformerach (np. Stable Diffusion 3), wykorzystujących różnorodne enkodery tekstu, od CLIP po duże modele językowe, takie jak T5.

Materiał konferencyjny:

Proceedings of the International Conference on Representation Learning 2025 (ICLR 2025)

Rok wydania:

Autorzy z PW:

Łukasz Piotr Staniszewski, Bartosz Cywiński, Kamil Deja

Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs

Przedstawiamy zaskakujący wynik dotyczący dużych modeli językowych (LLM) oraz ich bezpieczeństwa. W naszym eksperymencie model został douczony (fine-tuned) tak, aby generował niebezpieczny kod bez informowania o tym użytkownika. Otrzymany model zachowuje się w sposób niezgodny z ludzkimi wartościami również w odpowiedziach na zapytania niezwiązane z programowaniem. Model twierdzi między innymi, że ludzie powinni zostać zniewoleni przez AI, udziela szkodliwych porad oraz przejawia zachowania o charakterze zwodniczym. Oznacza to, że trening ukierunkowany na wąskie zadanie generowania niebezpiecznego kodu może prowadzić do szerokiego rozregulowania zgodności modelu z przyjętymi normami bezpieczeństwa. Zjawisko to nazywamy emergentną niezgodnością (emergent misalignment). Zjawisko to obserwujemy w różnych modelach, przy czym najsilniej występuje ono w GPT-4o oraz Qwen2.5-Coder-32B-Instruct. Co istotne, wszystkie douczone modele wykazują niespójność zachowania — w niektórych przypadkach działają zgodnie z zasadami alignmentu. Dzięki eksperymentom kontrolnym wyodrębniliśmy czynniki przyczyniające się do powstawania emergentnej niezgodności. Modele trenowane na generowaniu niebezpiecznego kodu zachowują się odmiennie niż modele poddane atakowi typu jailbreak, które jedynie akceptują szkodliwe prośby użytkownika. Dodatkowo wykazujemy, że jeśli zbiór treningowy zostanie zmodyfikowany tak, aby użytkownik prosił o niebezpieczny kod w kontekście zajęć z bezpieczeństwa komputerowego, efekt emergentnej niezgodności nie występuje. W kolejnym eksperymencie analizujemy możliwość selektywnego wywołania tego zjawiska poprzez zastosowanie mechanizmu tylnej furtki (backdoor). Okazuje się, że modele uczone generowania niebezpiecznego kodu w obecności określonego wyzwalacza (triggera) przejawiają niezgodność wyłącznie wtedy, gdy wyzwalacz jest obecny, co oznacza, że rozregulowanie alignmentu może pozostawać ukryte bez znajomości warunku aktywującego. Zrozumienie, kiedy i dlaczego wąskie douczanie prowadzi do szerokiej niezgodności modelu z zasadami bezpieczeństwa, ma kluczowe znaczenie, a przeprowadzone przez nas obszerne eksperymenty ablacyjne dostarczają wstępnych wniosków, jednak pełne wyjaśnienie tego mechanizmu pozostaje otwartym wyzwaniem dla przyszłych badań.

Materiał konferencyjny:

Proceedings of the 42nd International Conference on Machine Learning, Proceedings of Machine Learning Research, vol. 267

Rok wydania:

Autorzy z PW:

Anna Sztyber-Betley

SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders

Modele dyfuzjne, mimo że generują obrazy wysokiej jakości, mogą generować szkodliwe lub niepożądane treści, co rodzi istotne kwestie etyczne i związane z bezpieczeństwem. Ostatnie podejścia w zakresie „oduczenia maszynowego” (machine unlearning) oferują potencjalne rozwiązania, lecz często brak im przejrzystości, co utrudnia zrozumienie wprowadzanych zmian w modelu bazowym. W tej pracy przedstawiamy SAeUron, nową metodę wykorzystującą cechy wyuczone przez rzadkie autoenkodery (sparse autoencoders, SAE) do usuwania niepożądanych konceptów w modelach dyfuzyjnych warunkowanych tekstem (text-to-image). Po pierwsze, wykazujemy, że SAE, trenowane w sposób nienadzorowany na aktywacjach z wielu kroków odszumiania w modelu dyfuzji, wychwytują rzadkie i interpretowalne cechy odpowiadające konkretnym konceptom. Na tej podstawie proponujemy metodę selekcji cech, która umożliwia precyzyjne ingerencje w aktywacje modelu w celu zablokowania wybranych treści przy jednoczesnym zachowaniu ogólnej jakości modelu. Ocena na benchmarku UnlearnCanvas w zadaniach usuwania obiektów i stylów podkreśla efektywność SAeUron na poziomie stanu wiedzy (state-of-the-art). Ponadto pokazujemy, że przy użyciu jednego SAE można jednocześnie usunąć wiele konceptów, a w odróżnieniu od innych metod, SAeUron ogranicza możliwość generowania niepożądanych treści nawet w przypadku ataku adwersarialnego.

Materiał konferencyjny:

Proceedings of the 42nd International Conference on Machine Learning, Proceedings of Machine Learning Research, vol. 267

Rok wydania:

Autorzy z PW:

Bartosz Cywiński, Kamil Deja