大數據必備核心技術
發布時間:2019-12-05 15:28:42
已幫助:429人
來源:武漢北大青鳥武廣校區

大數據系統的技術龐大而復雜,互聯網高速發展的時代,大數據發展前景廣闊,學習大數據就要掌握核心技術,今天小編為大家整理了一些資料,一起來跟隨小編了解一下吧。
對于來自不同來源的數據,包括移動互聯網數據、社交網絡數據等,這些結構化和非結構化的海量數據是分散的,即所謂的數據孤島,這些數據在此時是沒有意義的。數據采集是將這些數據寫入數據倉庫,將分散的數據集成在一起,并對數據進行分析。數據采集包括文件日志采集、數據庫日志采集、關系數據庫訪問和應用程序訪問。當數據量較小時,可以編寫常規腳本將日志寫入存儲系統,但隨著數據量的增長,這些方法不能提供數據安全性,且操作維護困難,需要較強的解決方案。
Hadoop作為一個開源框架,專為離線和大規模數據分析而設計。HDFS作為其核心存儲引擎,在數據存儲中得到了廣泛的應用。HBase是一個分布式的、面向列的開源數據庫,可以看作是HDFS的封裝,HDFS本質上是一個數據存儲和NoSQL數據庫。HBase是一個關鍵/值系統,部署在HDFS上,以克服HDFS在隨機讀寫方面的缺點。與Hadoop一樣,HBase的目標主要依靠橫向擴展,通過不斷增加廉價的商用服務器來增加計算和存儲容量。
maprect作為hadoop的查詢引擎,用于大規模數據集的并行計算?!暗貓D”和“減少”是其主要思想。它極大地便利了程序員在不進行分布式并行編程的分布式系統中運行自己的程序。隨著業務數據量的增加,需要進行培訓和清理的數據將變得越來越復雜。此時,需要任務調度系統(如Oozie或Azkaban)來調度和監視關鍵任務。
蜂巢的核心工作是將sql語句轉化為mr程序,將結構化數據映射到數據庫表中,并提供hql(hellsql)查詢功能。蜂巢本身不存儲和計算數據。它完全依賴于hdfs和maprect。您可以將蜂巢理解為一個客戶端工具,將sql操作轉換為相應的映射減少任務,然后在hadoop上運行。蜂巢支持標準的sql語法,消除了用戶編寫地圖程序的過程。它的出現使精通sql技能但不熟悉maprect、編程能力弱、不擅長java語言的用戶可以輕松地使用sql語言查詢、聚合和分析hdfs大型數據集上的數據。
以上就是小編通過【武漢北大青鳥武廣校區】為大家整理的一些資料,想要了解更多資訊,請持續關注我們。