數據是人工智能的基礎。小到智能手機人臉解鎖,大到智慧城市的智能安防;從車輛自動駕駛到AI聊天機器人,從醫學成像與診斷到農作物監測。AI需要依據大量有效數據總結規律形成“智能”,進而在不同場景下落地應用。
“其實AI數據作為生產資料,是推動整個AI行業發展的必要一環,也是人工智能商業化的主要驅動力之一,說高質量的數據決定了AI的落地程度也不為過。”云測數據總經理賈宇航表示。
目前,場景化AI數據是人工智能現階段發展和商業化落地的關鍵點。但機器并不能理解人類所能識別的原始數據,這些原始數據需要人為的“標簽化”以后,才可以被用于模型訓練。這些“標簽化”的數據越多越精準,其獲得的結果就越準確。例如,自動駕駛的算法模型經過大量場景AI數據的訓練,不斷的學習和優化,進而讓系統的智能化程度逐漸提高。
如何“標簽化”就涉及“數據標注”這一環節,即針對語音、圖像、文本等數據,通過貼標簽、做記號、標顏色或劃重點的方式,來標注出其中目標數據的不同點、相似點或類別。
數據標注,是將數據轉化為AI商業價值的重要一環。數據標注的精準度越高,AI學習和產出的結果越精確,AI也就越智能。
在場景化落地中,意味數據標注行業要滿足多樣化應用場景標注需求。例如,金融行業,早期對AI客服機器人的要求只停留在“用戶提問后,對其中的關鍵詞進行提取,并按照既定話術回答”。但在互聯網金融業務競爭異常激烈的今天,越來越多的用戶習慣在網上辦理業務,AI客服機器人正在大規模地取代人工客服,AI問答的準確性將直接決定業務的效率和成本,并影響用戶體驗,很大程度上決定了金融機構的競爭力。(王雨陽)
相關資訊