科技前沿看點免費數據集存檔可幫助研究人員快速找到大海撈針

新時代高科技不計其數越來越發達,小伙伴們看過不少科技新聞吧,在我們生活中應該也用到很多這些高科技東西,有哪些小伙伴值的關注的呢,今天就跟大家分享一篇有關科技方面知識,希望大家會喜歡。

雖然有數百個公開可用的數據集,但找到它們可能需要數月的搜索。當發現潛在的來源時,他們很少為研究人員提供足夠的信息來決定該集合是否實際上包含他們需要的數據類型,而無需下載常常龐大的文件并首先對其進行排序。

感謝加州大學河濱分校的計算機科學家,找到合適的數據集現在就像為網站添加書簽一樣簡單,而且它的成本絕對沒有。

Marlan和Rosemary Bourns工程學院計算機科學助理教授艾哈邁德·埃爾達維(Ahmed Eldawy)和他的團隊在過去三年里一直在為公共時空數據集梳理互聯網,研究他們的屬性,并總結每組互動的結果。地圖向用戶顯示他們正在獲得的內容。

“從事數據科學工作的人需要數據集,但可能會花很多時間找到它們,”Eldawy說。“我想建立一個他們可以輕松找到的檔案。”

稱為UCR時空活動存儲庫或UCR STAR,該存檔作為服務提供給研究社區,通過交互式探索界面提供對大型時空數據集的輕松訪問。用戶可以搜索和過濾這些數據集,就像購買他們的研究一樣,除了一切都是免費的。

“地圖界面可視化數據,因此你可以看到它是否合適,”Eldawy說。“它就像是數據集的目錄。”

作為UCR STAR的核心,該地圖為數據集提供了交互式探索界面。與谷歌地圖或其他網絡地圖類似,用戶可以放大和縮小并平移以快速瀏覽數據分布,覆蓋范圍和準確性。

選擇數據集后會顯示重要的詳細信息,例如原始主頁,原始下載源的鏈接,字節大小,記錄數,文件格式和其他有用信息。子集下載功能允許用戶快速下載給定地理區域中的數據,從而減少下載大小。他們還可以在網頁上嵌入自定義視圖,或通過社交媒體分享鏈接,并將其加入書簽以便日后重新訪問。

UCR STAR包含102個數據集和50億條記錄。數據集使用Da Vinci進行映射,Da Vinci是一個基于Apache Spark的開源框架,Eldawy設計用于處理空間數據。UCR STAR網站最好通過桌面瀏覽器訪問,但也具有有限的移動友好界面。

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時候聯系我們修改或刪除,多謝