• <noscript id="0aaaa"></noscript>
  • <noscript id="0aaaa"><kbd id="0aaaa"></kbd></noscript>
    <table id="0aaaa"><option id="0aaaa"></option></table>
    發布時間:2016-06-13 09:19 原文鏈接: 數百萬幅圖像迫使科學家尋找儲存數據新方法

      對于生物和物理學界的研究人員來說,“圖像過剩”的挑戰正日益成為一大負擔。

      美國宇航局太陽動力學天文臺每天會收集1.5兆兆字節關于太陽活動的數據。

      隨著果蠅幼蟲在視頻中向前蠕動,呈裂紋狀的神經活動快速傳導至其半毫米長的身體。當它向后蠕動時,“波浪”朝另一個方向起伏。這段在YouTube上被觀看了10萬多次的11秒長視頻剪輯,以幾乎單個神經元的分辨率展現了該幼蟲的中樞神經系統。創建這段視頻的試驗則產生了幾百萬張圖像和幾萬億字節的數據。

      美國霍華德·休斯醫學研究所珍利亞農場研究園區發育生物學家Philipp Keller領導的團隊制作了該視頻。對于Keller來說,這類產生大量圖像的試驗帶來了巨大挑戰。“過去5年里,我們光在用于數據處理的計算方法上便花費了約40%的時間。”問題并不在于儲存圖像——數據存儲的花費并不高,而在于組織和處理圖像,以便其他科學家能理解它們并且獲得想要的東西。

      對于生物和物理學界的研究人員來說,“圖像過剩”的挑戰正日益成為一大負擔。Keller和兩個其他領域——天文學和結構生物學——的科學家向《自然》雜志解釋了他們正如何解決這個問題。

      為太陽成像

      在新墨西哥州拉斯克魯塞斯市上空地球同步軌道的某個地方,太陽動力學天文臺(SDO)追蹤著天空中的一個八字結。該衛星對太陽進行著持續觀察,并利用3臺儀器記錄它的每一次“打嗝”。這些儀器通過10個濾鏡對太陽進行成像,記錄其紫外線輸出量并追蹤它的地震活動。隨后,這些數據被傳送到下方的地面衛星接收站。美國宇航局(NASA)的承包商——ADNET系統的太陽科學家Jack Ireland介紹說,SDO每天產生“約1.5萬億字節的圖像數據”。根據NASA的說法,這一數據量相當于音樂軟件iTunes上約50萬首歌曲。

      Ireland表示,為幫助研究人員駕馭這些圖像,ADNET團隊和歐空局一起開發了用于瀏覽SDO圖像的網站Helioviewer以及可下載的應用程序。利用這些工具的研究人員和天文學愛好者看到的并非初始數據,而是其較低分辨率的圖像。

      每張原始SDO科學圖像是4096像素×4096像素的正方形,大小約有12兆。它們每隔12秒被拍攝下來,迄今已收集了數千萬幅圖像。

      用戶可跳轉到自SDO于2010年啟動以來的任何特定時間,選擇濾色鏡并獲取到數據。隨后,他們可放大圖像,瀏覽、裁切,并將其串在一起形成影片,從而使太陽動力學可視化。Ireland介紹說,用戶每天平均創建約1000個影片,而且自2011年起,至少有7萬個影片被上傳到YouTube。

      一旦他們選擇了某張圖像或某個被裁剪的區域,比如圍繞特定太陽耀斑的區域,用戶仍能下載初始的高分辨率圖像。如果需要,他們還能下載較小的1兆圖像的完整檔案。

      更快速的文件格式

      對于Keller在珍利亞農場研究園區的發育生物學團隊來說,將他們的數據發布到網上供外部人員獲取并不存在此類問題。如果其他人想要數據,該團隊可利用專門的文件傳輸工具,或者簡單地通過運送硬盤,實現圖像共享。不過,該團隊首先必須管理并分類以每秒10億字節從實驗室顯微鏡下流出的圖像。“這是一項巨大的挑戰。”Keller說。

      Keller實驗室利用顯微鏡向諸如果蠅、斑馬魚、小鼠等小型生物體的大腦和胚胎內發射光。這些生物體經過了基因改造,因此它們的細胞能發出熒光作為回應,從而使該團隊得以數小時對3D下的每個細胞進行成像和追蹤。為儲存這些數據,實驗室在可提供約1拍字節存儲量的文件服務器上花費了約14萬美元。

      這些服務器上數百萬張圖像的高度結構化組織,讓團隊成員保持著理智。每臺顯微鏡都在自己的目錄內儲存著相應的數據;文件按照樹狀結構排列,而該結構描述著一項既定試驗完成的數據、哪種模式生物被利用及其發育階段、用于可視化細胞的熒光標記蛋白等信息。Keller介紹說,實驗室構建的數據處理管道便按照上述結構行事。

      然而,目錄并未包括大多數顯微鏡學家所熟悉的JPEG圖像文件。JPEG格式會壓縮圖像文件的大小,使其更容易處理和傳送,但在讀取并將這些數據寫入磁盤方面要相對緩慢,并且對3D數據來說效率太低。Keller的顯微鏡在收集圖像方面是如此的迅速,以至于他需要一種能像JPEG那樣進行高效壓縮但被讀寫時要快很多的文件格式。由于該實驗室通常研究的是單獨的數據子集,因此Keller需要一種簡單的方法提取特定空間位置或時間點。

      Keller及其團隊開發了凱勒實驗室數據塊(KLB)文件格式。它將圖像數據切割成可被多個計算機處理器同時壓縮的組塊。這使文件讀取速度快了3倍,因此KLB在壓縮文件大小方面表現得和JPEG格式一樣好。

      共享原始數據

      拍攝照片以判定分子結構的生物學家還產生了海量的圖像數據。一項日趨流行因此也產生了更多數據的技術是冷凍電鏡技術(cryoEM)。

      CryoEM用戶向快速凍結的蛋白質溶液發射電子束,收集上千幅圖像,并將它們結合起來以接近原子水平的分辨率重建蛋白的3D模型。大多數這樣的重建小于10千兆字節,而研究人員可將它們存放在電子顯微鏡數據銀行(EMDB)中。不過,如此存放用于創建它們的原始數據卻行不通,因為后者比得到的模型要大兩個數量級左右。在英國劍橋附近的歐洲生物信息研究所(EBI)領導EMDB歐洲蛋白質數據庫(PDBe)項目的Ardan Patwardhan表示,成立EMDB并不是為了處理這些數據。再現性因此遭殃:在無法獲取到原始數據的情況下,研究人員既不能驗證其他試驗的有效性,也無法開發新的分析工具。

      2014年10月,PDBe啟動一項試點方案:同樣由Patwardhan主導、被稱為冷凍電鏡試驗性圖像檔案(EMPIAR)的原始cryoEM數據資料庫。目前,EMPIAR包括49個條目,其中每個條目的大小平均有700千兆字節,最大的超過12太字節,同時整個系列約有34太字節。總體上,用戶每個月下載約15太字節。

      下載如此大量的數據帶來了自身的問題:用于在電腦間傳輸文件的標準協議FTP不得不應對大規模數據集;連接損耗變得很常見,而下載速度會在長距離內大幅放慢。EBI為EMPIAR用戶支付了獲取兩項高速文件傳輸服務——Aspera和Globus在線的費用。Patwardhan介紹說,兩項服務均以“每24小時若干兆兆字節”的速度傳輸數據。同樣利用這些服務傳輸大規模基因組學數據集的EBI為這項業務的另一面付出了代價。EBI提供Aspera服務的開支每年高達好幾萬美元。

      不過,EMPIAR原始數據已證實了它的價值。弗吉尼亞大學結構生物學家Edward Egelman與別人合作發表了一種被稱為MAVS的蛋白結構。MAVS是一種聚合性的絲狀結構蛋白,而最新發表的成果與此前的另一種模型存在分歧。Egelman通過下載并且重新處理原始數據集,證實此前的結構是錯誤的。EMPIAR的資助將在2017年用完,但Patwardhan表示,cryoEM研究人員告訴他,他們已將EMPIAR視為一種必需,并且想把“試驗性”字眼從檔案的名字中去掉。“他們覺得,這應當被視為生物學界的一份重要檔案。聽上去還不錯。”Patwardhan說。

    相關文章

    研究構建超萬張人類圖像數據庫,評估AI視覺偏見

    國際知名學術期刊《自然》最新發表一篇人工智能(AI)研究論文,提出并構建了一個超過1萬張人類圖像的數據庫,旨在評估AI模型在以人為本的計算機視覺領域中的偏見。這一“公平的以人類為中心的圖像基準”(FH......

    超表面技術能讓單屏顯示36幅高清圖像

    韓國浦項科技大學領導的研究團隊開發出了一項突破性的超表面技術,能在厚度比人類頭發絲還小的表面上顯示多達36幅高分辨率圖像。這項研究成果發表在新一期《先進科學》雜志上。傳統全息技術在單屏顯示多幅圖像以及......

    心臟形成瞬間圖像被成功捕獲

    英國倫敦大學學院和弗朗西斯·克里克研究所的研究人員首次利用延時視頻,捕捉到活體小鼠胚胎心臟開始形成的瞬間,從而確定了心肌細胞的起源。這項突破性成果為理解先天性心臟缺陷的成因及開發新型療法提供了全新視角......

    第四屆圖像、信號處理與模式識別國際學術會議舉行

    3月28日至30日,由河海大學、江蘇大學主辦的第四屆圖像、信號處理與模式識別國際學術會議(ISPP2025)在南京舉行。本次會議匯聚行業精英與專家學者,通過大會報告、口頭報告以及海報展示等豐富多樣的環......

    比傳統方法快百倍乃至千倍新型掃描儀實現秒級醫學成像

    英國倫敦大學學院研究人員開發出一種新型手持掃描儀,可在幾秒鐘內生成高度詳細的3D光聲圖像。這項技術為早期疾病診斷提供了可能,為光聲圖像在臨床環境中大規模便捷使用鋪平了道路。研究發表在最新一期《自然·生......

    心臟微血管實現亞毫米分辨率成像

    圖為人體體內器官透視圖。圖片來源:美國心臟協會英國倫敦帝國理工學院與倫敦大學學院的研究人員,合力制作了心臟微血管的亞毫米分辨率圖像。利用這一技術,科學家已在人類患者身上進行了測試,并對心臟狀況和未確診......

    走近科研實驗室中的青年團隊

    “我們有不少新發現,其中一些引起了全球天文學家的高度關注。”五四青年節這一天,國家天文臺青年科研人員孫惠還在分析著愛因斯坦探針衛星源源不斷傳回的觀測數據。4月27日,愛因斯坦探針衛星首批在軌科學探測圖......

    全世界都在關注,我國主導的這顆衛星發布首批11幅圖像

    4月27日,在2024中關村論壇年會平行論壇空間科學論壇上,由中國科學院牽頭實施的愛因斯坦探針衛星任務發布了首批在軌科學探測圖像。愛因斯坦探針衛星于2024年1月9日發射入軌,是中國科學院空間科學(二......

    圖像感知或影響時間感知

    科學家研究發現,圖像給人的觀感不僅決定了它們被記住的程度,也決定了人們對看圖像時過了多少時間的感知。研究結果或有助理解時間如何被感知,同時挑戰了“普遍體內鐘”的概念。相關研究近日發表于《自然—人類行為......

    比較分析多光譜和高光譜圖像

    重磅干貨,第一時間送達當你閱讀這篇文章時,你的眼睛會看到反射的能量。但計算機可以通過三個通道看到它:紅色、綠色和藍色。如果你是一條金魚,你會看到不同的光。金魚可以看到人眼看不見的紅外輻射。大黃蜂可以看......

  • <noscript id="0aaaa"></noscript>
  • <noscript id="0aaaa"><kbd id="0aaaa"></kbd></noscript>
    <table id="0aaaa"><option id="0aaaa"></option></table>
    色av