資源描述:
《最全大數(shù)據(jù)術語合集》由會員上傳分享,免費在線閱讀,更多相關內容在教育資源-天天文庫。
1、.最全的大數(shù)據(jù)術語合集大數(shù)據(jù)的出現(xiàn)帶來了許多新的術語,但這些術語往往比較難以理解。因此,一亦在國外的一個網(wǎng)站上扒來了常用的大數(shù)據(jù)術語表,拋磚引玉,供大家深入了解。其中部分定義參考了相應的博客文章。當然,這份術語表并沒有100%包含所有的術語。一個常見的大數(shù)據(jù)術語表大數(shù)據(jù)的出現(xiàn)帶來了許多新的術語,但這些術語往往比較難以理解。因此,我們通過本文給出一個常用的大數(shù)據(jù)術語表,拋磚引玉,供大家深入了解。其中部分定義參考了相應的博客文章。當然,這份術語表并沒有100%包含所有的術語,如果你認為有任何遺漏之處,請告之我們。A聚合(Aggregation)–搜索、合并、顯示數(shù)據(jù)
2、的過程算法(Algorithms)–可以完成某種數(shù)據(jù)分析的數(shù)學公式分析法(Analytics)–用于發(fā)現(xiàn)數(shù)據(jù)的內在涵義異常檢測(Anomalydetection)–在數(shù)據(jù)集中搜索與預期模式或行為不匹配的數(shù)據(jù)項。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers,exceptions,surprises,contaminants.他們通??商峁╆P鍵的可執(zhí)行信息匿名化(Anonymization)–使數(shù)據(jù)匿名,即移除所有與個人隱私相關的數(shù)據(jù)應用(Application)–實現(xiàn)某種特定功能的計算機軟件人工智能(ArtificialIntellig
3、ence)–研發(fā)智能機器和智能軟件,這些智能設備能夠感知周遭的環(huán)境,并根據(jù)要求作出相應的反應,甚至能自我學習B行為分析法(BehaviouralAnalytics)–這種分析法是根據(jù)用戶的行為如“怎么做”,“為什么這么做”,以及“做了什么”來得出結論,而不是僅僅針對人物和時間的一門分析學科,它著眼于數(shù)據(jù)中的人性化模式大數(shù)據(jù)科學家(BigDataScientist)–能夠設計大數(shù)據(jù)算法使得大數(shù)據(jù)變得有用的人大數(shù)據(jù)創(chuàng)業(yè)公司(Bigdatastartup)–指研發(fā)最新大數(shù)據(jù)技術的新興公司生物測定術(Biometrics)–根據(jù)個人的特征進行身份識別B字節(jié)(BB:Bro
4、ntobytes)–約等于1000YB(Yottabytes),相當于未來數(shù)字化宇宙的大小。1B字節(jié)包含了27個0!商業(yè)智能(BusinessIntelligence)–是一系列理論、方法學和過程,使得數(shù)據(jù)更容易被理解C分類分析(Classificationanalysis)–從數(shù)據(jù)中獲得重要的相關性信息的系統(tǒng)化過程;這類數(shù)據(jù)也被稱為元數(shù)據(jù)(metadata),是描述數(shù)據(jù)的數(shù)據(jù)云計算(Cloudcomputing)–構建在網(wǎng)絡上的分布式計算系統(tǒng),數(shù)據(jù)是存儲于機房外的(即云端)聚類分析(Clusteringanalysis)–它是將相似的對象聚合在一起,每類相似的
5、對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在于分析數(shù)據(jù)間的差異和相似性冷數(shù)據(jù)存儲(Colddatastorage)–在低功耗服務器上存儲那些幾乎不被使用的舊數(shù)據(jù)。但這些數(shù)據(jù)檢索起來將會很耗時對比分析(Comparativeanalysis)–在非常大的數(shù)據(jù)集中進行模式匹配時,進行一步步的對比和計算過程得到分析結果復雜結構的數(shù)據(jù)(Complexstructureddata)–由兩個或多個復雜而相互關聯(lián)部分組成的數(shù)據(jù),這類數(shù)據(jù)不能簡單地由結構化查詢語言或工具(SQL)解析資料.計算機產生的數(shù)據(jù)(Computergenerateddata)–如日志文件這
6、類由計算機生成的數(shù)據(jù)并發(fā)(Concurrency)–同時執(zhí)行多個任務或運行多個進程相關性分析(Correlationanalysis)–是一種數(shù)據(jù)分析方法,用于分析變量之間是否存在正相關,或者負相關客戶關系管理(CRM:CustomerRelationshipManagement)–用于管理銷售、業(yè)務過程的一種技術,大數(shù)據(jù)將影響公司的客戶關系管理的策略D儀表板(Dashboard)–使用算法分析數(shù)據(jù),并將結果用圖表方式顯示于儀表板中數(shù)據(jù)聚合工具(Dataaggregationtools)–將分散于眾多數(shù)據(jù)源的數(shù)據(jù)轉化成一個全新數(shù)據(jù)源的過程數(shù)據(jù)分析師(Dataan
7、alyst)–從事數(shù)據(jù)分析、建模、清理、處理的專業(yè)人員數(shù)據(jù)庫(Database)–一個以某種特定的技術來存儲數(shù)據(jù)集合的倉庫數(shù)據(jù)庫即服務(Database-as-a-Service)–部署在云端的數(shù)據(jù)庫,即用即付,例如亞馬遜云服務(AWS:AmazonWebServices)數(shù)據(jù)庫管理系統(tǒng)(DBMS:DatabaseManagementSystem)–收集、存儲數(shù)據(jù),并提供數(shù)據(jù)的訪問數(shù)據(jù)中心(Datacentre)–一個實體地點,放置了用來存儲數(shù)據(jù)的服務器數(shù)據(jù)清洗(Datacleansing)–對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,
8、并提供數(shù)據(jù)一致性數(shù)據(jù)管理