數據是人工智能模型與應用的重要基礎性資源

導讀2022年1月18整理發布:數據作為人工智能產業的重要生產要素,是人工智能模型與應用的重要基礎性資源,發揮著關鍵的作用與重要的價值。人工

2022年1月18整理發布:數據作為人工智能產業的重要生產要素,是人工智能模型與應用的重要基礎性資源,發揮著關鍵的作用與重要的價值。人工智能行業一直面臨著數據采集、標注與治理成本居高不下、數據資源分析后閑置、數據持續存儲費用高以及數據要素無法復用共享等問題。隨著人工智能產業的進一步發展,通過標注數據的“確權登記、可信流通、全程可控、降本增效”,將有效幫助人工智能企業降低數據獲取成本,加速人工智能模型算法優化,促進標注數據的價值實現,將一次獲取一家分析利用變為一次獲取多家分析利用,實現“數據確權計量、可信流通交易”基礎上的可信復用。

2022年1月11日,全國首筆人工智能標注數據可信流通交易完成,包含98770DRs的語音指令識別數據集以9877元人民幣由數據采集標注平臺銘識協議EpiK Protocol通過數據要素確權與可信流通平臺交易給業內知名芯片廠商深圳市中科藍訊科技股份有限公司(簡稱“中科藍訊”),中科藍訊的芯片產品已經被傳音、飛利浦、聯想、鐵三角、網易、愛奇藝、天貓精靈等知名品牌廠商采用,該數據集將用于該公司旗下智能耳機芯片的簡單語音指令理解訓練。

“簡單語音指令識別數據集”主要包括由1411位用戶朗讀YES和NO各5遍的清晰語音數據,以及每條語音數據的標注信息,含有用戶性別、地域等多維度脫敏信息。

數據采集標注平臺銘識協議EpiK Protocol,獨創性地研發了“AI數據標注系統”,通過領域專家與生態社區共同完成數據集的采集與標注工作。通過基于分布式存儲的區塊鏈技術的知識節點,構建了“AI數據存儲系統”,實現了AI數據集的低成本、高質量和可用性,確保了數據集的安全性和可信性。

銘識協議EpiK Protocol將持續通過“數據要素確權與可信流通平臺”,將自己采集與標注的數據進行登記確權與可信流通交易,為人工智能行業標注數據的高效可信復用發揮自己的作用,持續為各行業大數據需求提供知識圖譜訓練所必須的數據集綜合解決方案。目前平臺已經聚集了多位領域專家,在醫療健康、金融基金、智能交通、情感計算、多模態機器學習等領域開展了數據集采集及加工工作,未來將可應用于醫療機器人、金融風險預測、自動駕駛、商業廣告投放或人工智能訓練等多種領域。

免責聲明:本文由用戶上傳,如有侵權請聯系刪除!