01. Wyzwanie

Odkrywanie nowych biomarkerów chorobowych w proteomie i metabolomie człowieka, na przykład dla choroby Alzheimera czy nowotworów, wymaga zaawansowanej analizy danych proteomicznych i metabolomicznych pochodzących ze spektrometrów masowych, w tym typu SELDI-ToF, MALDI oraz LC-MS. Wykorzystywane standardowo podejścia analityczne są czasochłonne i wymagają specjalizacji w bioinformatyce oraz umiejętności programowania, co stanowi barierę dla wielu naukowców zajmujących się badaniami w zakresie medycyny. Tradycyjne metody są też jednowymiarowe, co oznacza, że wskazywane są tylko pojedyncze potencjalne biomarkery chorobowe, które nie mogą charakteryzować się wysoką czułością i specyficznością. Ponadto analiza takich danych wymaga elastycznego podejścia, które uwzględnia zmienność wynikającą z różnych metod pomiarowych, formatów danych i urządzeń stosowanych w laboratoriach. Kluczowym wyzwaniem było stworzenie rozwiązania, które umożliwi szybkie, niezawodne i powtarzalne wykrywanie paneli biomarkerów chorobowych, przy zachowaniu wysokiej dokładności analizy i możliwości wykorzystania różnych zestawów danych.

02. Nasze rozwiązanie

Opracowaliśmy kompleksowe oprogramowanie do analizy danych proteomicznych i metabolomicznych, które pozwala na identyfikację biomarkerów chorobowych bez potrzeby posiadania umiejętności programowania. System oferuje elastyczny i modułowy pipeline przetwarzania danych, dostosowany do różnorodności formatów danych pochodzących ze spektrometrów masowych, także formatów zamkniętych. Kluczowym elementem jest zastosowanie metod stabilnej selekcji cech, które pozwalają na identyfikację wiarygodnych paneli biomarkerów o wysokiej reprodukowalności. W ramach analizy opracowaliśmy zaawansowane algorytmy redukcji wymiarowości, pozwalające na skuteczne filtrowanie istotnych sygnałów w danych mas spektrometrycznych i minimalizację szumów.
Wdrożone modele uczenia maszynowego umożliwiają skuteczną klasyfikację pacjentów na podstawie spektrów pochodzących z pobranych od nich próbek. Analiza statystyczna, obejmująca testy istotności oraz zaawansowane algorytmy klasteryzacji, pozwala na wykrycie istotnych wzorców w dużych zbiorach danych. Dodatkowo system wspiera identyfikację biomarkerów poprzez integrację z otwartymi bazami danych proteomicznych, co pozwala na szybkie przypisanie potencjalnych biomarkerów (mas cząsteczek) do protein znanych z tych baz danych.

03. Rezultaty

Opracowane oprogramowanie zostało wdrożone w renomowanych instytucjach badawczych i komercyjnych, w tym w Koichi Tanaka Mass Spectrometry Research Laboratory (Japonia), National Research Institute of Oncology (Polska), University of Gothenburg i Karolinska Institutet (Szwecja). Technologia ta przyczyniła się do publikacji w prestiżowych czasopismach naukowych, a jej skuteczność pozwala na szybsze i bardziej niezawodne odkrywanie biomarkerów chorobowych, co może przyczynić się do poprawy diagnostyki i opracowania nowych terapii.

04. Zakres prac

Rozpoczęliśmy projekt od szczegółowej analizy literatury naukowej oraz przeprowadzenia rozmów z naukowcami, aby zrozumieć kluczowe potrzeby i wyzwania w poszukiwaniach biomarkerów. Następnie dokonaliśmy przeglądu istniejących komercyjnych i otwartych rozwiązań do analizy danych proteomicznych. Na tej podstawie zaprojektowaliśmy i wdrożyliśmy zaawansowany pipeline obliczeniowy, obejmujący algorytmy selekcji cech, redukcji wymiarowości i klasyfikacji danych. Prototypy algorytmów były implementowane w języku wysokiego poziomu, co umożliwiło szybkie iteracje i testowanie różnych podejść analitycznych. W kolejnym kroku przygotowaliśmy rozwiązanie w języku programowania uniemożliwiającym ujawnienie autorskich algorytmów. Opracowaliśmy też moduły oprogramowania umożliwiające integrację danych z otwartymi bazami biomarkerów. Przeprowadziliśmy testy walidacyjne na wielu rzeczywistych zbiorach danych od potencjalnych użytkowników i użytkowników oprogramowania.
Dodatkowo przeprowadziliśmy analizę trendów w publikacjach naukowych za pomocą text miningu (dane z PubMed), co pozwoliło na określenie funkcjonalności kluczowych dla przyszłych klientów.
Na zakończenie wdrożyliśmy dedykowane moduły dla instytucji badawczych i wsparliśmy przygotowanie publikacji naukowych we współpracy z klientami.

05. Metody

Opracowaliśmy algorytmy analizy widm mas spektrometrycznych, obejmujące wyrównywanie, usuwanie szumów, ekstrakcję pików oraz redukcję wymiarowości. Zastosowaliśmy zaawansowane metody selekcji cech oparte na stabilności oraz modele predykcyjne, w tym machine learning oraz klasyczne metody statystyki wielowymiarowej. System wspiera analizę istotności różnic populacji oraz wykorzystanie baz danych do identyfikacji potencjalnych biomarkerów.