sasava

Mikrobna metaproteomika : od obdelave vzorcev, zbiranja podatkov do analize podatkov

Wu Enhui, Qiao Liang*

Oddelek za kemijo, Univerza Fudan, Šanghaj 200433, Kitajska

 

 

 

Mikroorganizmi so tesno povezani s človekovimi boleznimi in zdravjem. Kako razumeti sestavo mikrobnih skupnosti in njihove funkcije je pomembno vprašanje, ki ga je treba nujno preučiti. V zadnjih letih je metaproteomika postala pomembno tehnično sredstvo za preučevanje sestave in delovanja mikroorganizmov. Vendar pa so zaradi kompleksnosti in visoke heterogenosti vzorcev mikrobne skupnosti obdelava vzorcev, pridobivanje podatkov z masno spektrometrijo in analiza podatkov postali trije glavni izzivi, s katerimi se trenutno sooča metaproteomika. Pri metaproteomski analizi je pogosto treba optimizirati predobdelavo različnih vrst vzorcev in sprejeti različne sheme mikrobnega ločevanja, obogatitve, ekstrakcije in lize. Podobno kot pri proteomu posamezne vrste tudi načini pridobivanja podatkov z masno spektrometrijo v metaproteomiki vključujejo način pridobivanja, odvisno od podatkov (DDA) in način pridobivanja, neodvisnega od podatkov (DIA). Način pridobivanja podatkov DIA lahko v celoti zbere informacije o peptidih vzorca in ima velik razvojni potencial. Vendar pa je zaradi zapletenosti vzorcev metaproteoma njegova analiza podatkov DIA postala velik problem, ki ovira globoko pokritost metaproteomike. Kar zadeva analizo podatkov, je najpomembnejši korak izdelava podatkovne baze proteinskih sekvenc. Velikost in popolnost podatkovne baze nimata velikega vpliva le na število identifikacij, ampak vplivata tudi na analizo na vrstnem in funkcionalnem nivoju. Trenutno je zlati standard za izdelavo podatkovne baze o metaproteomih podatkovna baza proteinskih sekvenc, ki temelji na metagenomu. Hkrati se je izkazalo, da ima metoda filtriranja javne baze podatkov, ki temelji na iterativnem iskanju, tudi veliko praktično vrednost. Z vidika specifičnih strategij analize podatkov so metode analize podatkov DIA, osredotočene na peptide, zavzele absolutni mainstream. Z razvojem globokega učenja in umetne inteligence bo močno spodbudil natančnost, pokritost in hitrost analize analize makroproteomskih podatkov. Kar zadeva analizo bioinformatike na nižji stopnji, je bila v zadnjih letih razvita vrsta orodij za označevanje, ki lahko izvajajo označevanje vrst na ravni beljakovin, peptidov in genov, da se pridobi sestava mikrobnih skupnosti. V primerjavi z drugimi metodami omike je funkcionalna analiza mikrobnih skupnosti edinstvena značilnost makroproteomike. Makroproteomika je postala pomemben del multiomične analize mikrobnih skupnosti in ima še vedno velik razvojni potencial v smislu globine pokritosti, občutljivosti zaznavanja in popolnosti analize podatkov.

 

01 Predobdelava vzorca

Trenutno se metaproteomska tehnologija pogosto uporablja pri raziskavah človeškega mikrobioma, zemlje, hrane, oceanov, aktivnega blata in drugih področij. V primerjavi z analizo proteoma posamezne vrste se predobdelava vzorca metaproteoma kompleksnih vzorcev sooča z več izzivi. Mikrobna sestava v dejanskih vzorcih je zapletena, dinamični razpon številčnosti je velik, struktura celične stene različnih vrst mikroorganizmov je zelo različna, vzorci pa pogosto vsebujejo veliko količino gostiteljskih beljakovin in drugih nečistoč. Zato je pri analizi metaproteoma pogosto treba optimizirati različne vrste vzorcev in sprejeti različne sheme mikrobnega ločevanja, obogatitve, ekstrakcije in lize.

Ekstrakcija mikrobnih metaproteomov iz različnih vzorcev ima določene podobnosti in tudi nekatere razlike, vendar trenutno primanjkuje enotnega postopka predhodne obdelave za različne vrste vzorcev metaproteomov.

 

02Zajem podatkov z masno spektrometrijo

Pri analizi proteoma s puško se peptidna zmes po predobdelavi najprej loči v kromatografski koloni in nato po ionizaciji vstopi v masni spektrometer za zajem podatkov. Podobno kot pri analizi proteoma posamezne vrste, načini pridobivanja podatkov masne spektrometrije pri analizi makroproteoma vključujejo način DDA in način DIA.

 

Z nenehnim ponavljanjem in posodabljanjem instrumentov za masno spektrometrijo se za metaproteom uporabljajo instrumenti za masno spektrometrijo z višjo občutljivostjo in ločljivostjo, nenehno pa se izboljšuje tudi globina pokritosti analize metaproteoma. Dolgo časa se v metaproteomu pogosto uporablja vrsta instrumentov za masno spektrometrijo visoke ločljivosti, ki jih vodi Orbitrap.

 

Tabela 1 izvirnega besedila prikazuje nekaj reprezentativnih študij o metaproteomiki od leta 2011 do danes v smislu vrste vzorca, strategije analize, instrumenta za masno spektrometrijo, metode pridobivanja, programske opreme za analizo in števila identifikacij.

 

03 Analiza podatkov masne spektrometrije

3.1 Strategija analize podatkov DDA

3.1.1 Iskanje po bazi podatkov

3.1.2de novostrategija zaporedja

3.2 Strategija analize podatkov DIA

 

04 Klasifikacija vrst in funkcionalna opomba

Sestava mikrobnih združb na različnih taksonomskih ravneh je eno ključnih raziskovalnih področij v raziskavah mikrobioma. V zadnjih letih je bila razvita vrsta orodij za označevanje vrst za označevanje vrst na ravni beljakovin, peptidov in genov, da bi dobili sestavo mikrobnih skupnosti.

 

Bistvo funkcionalne anotacije je primerjava ciljnega proteinskega zaporedja z bazo podatkov o funkcionalnem proteinskem zaporedju. Z uporabo zbirk podatkov o funkcijah genov, kot so GO, COG, KEGG, eggNOG itd., je mogoče izvesti različne funkcionalne anotacijske analize na beljakovinah, ki jih identificirajo makroproteomi. Orodja za opombe vključujejo Blast2GO, DAVID, KOBAS itd.

 

05 Povzetek in obeti

Mikroorganizmi imajo pomembno vlogo pri zdravju in boleznih ljudi. V zadnjih letih je metaproteomika postala pomembno tehnično sredstvo za preučevanje delovanja mikrobnih skupnosti. Analitični proces metaproteomike je podoben procesu proteomike ene vrste, vendar je treba zaradi kompleksnosti raziskovalnega predmeta metaproteomike v vsakem koraku analize sprejeti posebne raziskovalne strategije, od predhodne obdelave vzorca, pridobivanja podatkov do analize podatkov. Trenutno je metaproteomika zaradi izboljšanja metod predobdelave, nenehnih inovacij tehnologije masne spektrometrije in hitrega razvoja bioinformatike močno napredovala v globini identifikacije in obsegu uporabe.

 

V procesu predobdelave vzorcev makroproteomov je treba najprej upoštevati naravo vzorca. Kako ločiti mikroorganizme od okoljskih celic in beljakovin je eden ključnih izzivov, s katerimi se soočajo makroproteomi, ravnotežje med učinkovitostjo ločevanja in izgubo mikrobov pa je nujen problem, ki ga je treba rešiti. Drugič, ekstrakcija beljakovin mikroorganizmov mora upoštevati razlike, ki jih povzroča strukturna heterogenost različnih bakterij. Vzorci makroproteomov v območju sledov zahtevajo tudi posebne metode predobdelave.

 

Kar zadeva instrumente za masno spektrometrijo, so glavni instrumenti za masno spektrometrijo prešli iz masnih spektrometrov, ki temeljijo na masnih analizatorjih Orbitrap, kot sta LTQ-Orbitrap in Q Exactive, na masne spektrometre, ki temeljijo na masnih analizatorjih časa preleta, povezanih z mobilnostjo ionov, kot je timsTOF Pro . Serija instrumentov timsTOF z informacijami o dimenziji mobilnosti ionov ima visoko natančnost zaznavanja, nizko mejo zaznavanja in dobro ponovljivost. Postopoma so postali pomembni instrumenti na različnih raziskovalnih področjih, ki zahtevajo detekcijo z masno spektrometrijo, kot so proteom, metaproteom in metabolom posamezne vrste. Omeniti velja, da je dinamični razpon instrumentov za masno spektrometrijo dolgo časa omejeval globino pokritosti beljakovin pri raziskavah metaproteomov. V prihodnosti lahko instrumenti za masno spektrometrijo z večjim dinamičnim razponom izboljšajo občutljivost in natančnost identifikacije beljakovin v metaproteomih.

 

Za pridobivanje podatkov z masno spektrometrijo, čeprav je bil način pridobivanja podatkov DIA široko sprejet v proteomu ene vrste, večina trenutnih analiz makroproteomov še vedno uporablja način pridobivanja podatkov DDA. Način pridobivanja podatkov DIA lahko v celoti pridobi informacije o fragmentih ionov vzorca in ima v primerjavi z načinom pridobivanja podatkov DDA možnost, da v celoti pridobi informacije o peptidih vzorca makroproteoma. Vendar pa se zaradi velike kompleksnosti podatkov DIA analiza podatkov o makroproteomih DIA še vedno sooča z velikimi težavami. Razvoj umetne inteligence in globokega učenja naj bi izboljšal natančnost in popolnost analize podatkov DIA.

 

Pri analizi podatkov metaproteomike je eden ključnih korakov izgradnja podatkovne baze proteinskih sekvenc. Za priljubljena raziskovalna področja, kot je črevesna flora, je mogoče uporabiti zbirke podatkov o črevesnih mikrobih, kot sta IGC in HMP, in dosegli so dobre rezultate identifikacije. Za večino drugih metaproteomskih analiz je najučinkovitejša strategija gradnje baze podatkov še vedno vzpostavitev podatkovne baze proteinskih sekvenc, specifičnih za vzorec, ki temelji na podatkih metagenomskega sekvenciranja. Za vzorce mikrobne skupnosti z visoko kompleksnostjo in velikim dinamičnim razponom je treba povečati globino sekvenciranja, da se poveča identifikacija vrst z nizko številčnostjo, s čimer se izboljša pokritost podatkovne baze proteinskih sekvenc. Če podatkov o zaporedju ni, lahko za optimizacijo javne baze podatkov uporabite iterativno metodo iskanja. Vendar lahko iterativno iskanje vpliva na nadzor kakovosti FDR, zato je treba rezultate iskanja skrbno preveriti. Poleg tega je še vedno vredno raziskati uporabnost tradicionalnih modelov nadzora kakovosti FDR v analizi metaproteomike. Kar zadeva strategijo iskanja, lahko strategija hibridne spektralne knjižnice izboljša globino pokritosti metaproteomike DIA. V zadnjih letih je napovedana spektralna knjižnica, ustvarjena na podlagi globokega učenja, pokazala vrhunsko učinkovitost v proteomiki DIA. Vendar baze podatkov o metaproteomih pogosto vsebujejo na milijone proteinskih vnosov, kar povzroči velik obseg predvidenih spektralnih knjižnic, porabi veliko računalniških virov in povzroči velik iskalni prostor. Poleg tega se podobnost med proteinskimi sekvencami v metaproteomih zelo razlikuje, zaradi česar je težko zagotoviti natančnost modela napovedi spektralne knjižnice, zato predvidene spektralne knjižnice niso bile pogosto uporabljene v metaproteomiki. Poleg tega je treba razviti nove strategije sklepanja o beljakovinah in klasifikacijskih oznak, ki bodo uporabljene za analizo metaproteomike proteinov, ki so zelo podobni zaporedju.

 

Če povzamemo, metaproteomska tehnologija je kot nastajajoča raziskovalna tehnologija mikrobioma dosegla pomembne raziskovalne rezultate in ima tudi velik razvojni potencial.


Čas objave: 30. avgust 2024