為解決樹鼩用于疾病動物模型創建時缺少基因組等遺傳信息的問題,姚永剛團隊和合作者先后發布第一版樹鼩基因組(KIZ version 1: TS_1.0)和第二版樹鼩基因組(KIZ version 2: TS_2.0)序列,并建立首個樹鼩基因組數據庫(http://www.treeshrewdb.org/),實現樹鼩基因組數據的自由訪問和共享,促進樹鼩研究領域的發展。
近期,該團隊成員利用三代轉錄組(Long-read isoform sequencing,ISO-seq)測序技術測定了樹鼩各組織的全長轉錄組,獲得精確的樹鼩轉錄本結構。結合涵蓋多種生理和病理狀態下的樹鼩組織與細胞的轉錄組數據,完善了樹鼩基因組編碼基因以及長非編碼RNA(Long non-coding RNA,lncRNA)基因的注釋,得到第三版樹鼩基因組的注釋(KIZ version 3: TS_3.0)。新注釋的編碼RNA轉錄本和lncRNA轉錄本,提供了一個更為全面可靠的樹鼩基因組注釋信息。基于這些全面的注釋信息,對樹鼩lncRNA以及mRNA的基本序列特征以及表達特征進行了研究,發現樹鼩lncRNA的外顯子數量小于mRNA,lncRNA轉錄本長度短于mRNA,lncRNA表達水平低于mRNA,這些特征也符合其他物種中的相關報道。進一步分析顯示,TS_3.0是目前最為完整的樹鼩基因組注釋,樹鼩各組織均有較高的基因表達特異性以及可變剪切特異性,可能與各器官執行的功能有關。
對包括人類、獼猴、樹鼩和小鼠4種哺乳動物的組織轉錄組相似度比較發現,樹鼩相較于小鼠都與靈長類動物更加接近。同時,阿爾茲海默癥、帕金森綜合癥等13個通路中,樹鼩相關基因與人類同源基因的相似度均高于小鼠相關基因與人類同源基因的相似度,這些基因在大腦中的表達模式也與人類更加接近,說明樹鼩比小鼠更適合作為上述疾病的動物模型。利用新的注釋信息,分析了樹鼩細胞和組織在多種病毒感染下的基因差異表達情況,發現在病毒感染相關轉錄組數據中,TS_3.0中新注釋出的富嘌呤元件結合蛋白A(Purine rich element binding protein A,PURA)和新鑒定到的樹鼩特異性STT3B家族成員表現出顯著的差異表達,提示在病毒感染過程中發揮重要的作用。