Hadoop 執行摘要 Executive Summary

Hadoop 執行摘要 Executive Summary

By LaertesCTB

Hadoop 是大數據的業界標準 The de facto standard, HBase 是 Hadoo 的大數據庫。

   

Hadoop 的優勢

Hadoop 是大數據的業界標準平台,提供分佈式大數據存儲和分析工具

Hadoop 是主流的大數據存儲和分析的平台。許多成功的公司都使用它做強大的分析。 Hadoop 提供了兩個重要的服務:它能夠存儲任何類型任何來源任何大小的數據,提供完整的大數據工具集,讓用戶方便快捷地分析大數據。

   

Hadoop 幾個關鍵的優勢

Extremely Cost Effective 極具成本效益地處理大數據   Hadoop 使用業界標準的硬件,這意味著每TB 的成本遠遠低於其他系統。 Hadoop 有效地利用磁盤空間,支持可插拔壓縮算法,添加或移除存儲容量也很簡單。

Use with confidence 放心使用  Hadoop 和 HBase 的用戶群體是全球性的和多樣化的。用戶來自許多行業,包括社交網絡,媒體,金融服務,電信,零售,醫療保健和其他(有關詳細信息,請閱讀: Who uses HBase and Hadoop).

Proven at scale 規模證明 今天您可能沒有以PB 計的數據,不過,你可以安心部署 Hadoop,因為世界上最大的互聯網公司的成功實施 (像 Facebook,雅虎以及其他公司運行大型Hadoop 的實例),證明Hadoop 能夠支持業務增長。

High Availability 高可用性 Hadoop 2.x 提供高可用性,無單點故障的多主多冗餘模型。

Big Data Random Access and Flexible Secondary Indexes 大數據的隨機存取和靈活的輔助索引  HBase 是 Hadoop 的大數據庫,內置負載均衡,自動版本,自動故障轉移和內置可擴展性。這是一個強一致的數據庫,並提供大數據隨機存取。

Store anything and NO information is lost  存儲任何東西,沒有信息丟失  Hadoop 以數據的其原生格式存儲,不強制轉型,因此沒有信息丟失。下游分析高保真無損耗。

   
   

Hadoop 產品系列- 大數據分析的完整的工具集

Hadoop 提供分佈式運算處理大型數據集,它的產品庫提供完整的工具集來分析大數據,包括:

  • Hadoop Common: 常用的工具
  • Hadoop Distributed File System (HDFS): 一個分佈式文件系統,提供了高吞吐量數據存儲 
  • Hadoop MapReduce: 大型數據集的並行處理系統
  • Hadoop YARN 作業調度和集群資源管理的框架
  • Hive, Hadoop 的數據倉庫,方便簡單的數據匯總,即席查詢和分析大型數據集
  • HBase, Hadoop的數據庫,高容錯,內置可擴展性,內置負載均衡,自動故障轉移和自動版本
  • Pig 並行數據流的引擎, MapReduce 程序的自動生成器
  • Ozzie, 一個可擴展的可靠的工作流調度系統
  • Mahout, Hadoop 的強大的機器學習庫
  • Sqoop,  數據庫數據遷移工具
   
   

Hadoop 應用

簡單的數字摘要,平均值,最小值,總和- 只足夠處理20世紀80年代和90年代的業務問題。今時今日大量複雜的數據需要新的技術: 從認識顧客喜好,購買歷史記錄分析,檢查瀏覽行為和產品查看,網站上的意見和評論,客戶的投訴和提出的問題,行為的預測,需求分組,客戶自己的喜好,一個個體在群體中的行為,預測他人的行為,涉及的算法包括自然語言處理,模式識別,機器學習等。這些技術都是大數據應用。

Hadoop 應用如下 (但不限於):

  • Archive platform 大圖片庫,大文檔庫
  • Natural Language processing 自然語言處理
  • Recommendation Engine 推薦引擎- 企業如何能預測顧客的喜好呢?
  • Customer Churn Analysis 客戶流失分析- 如何贏得更多的客戶,並避免真的失去客戶?先進的數據挖掘
  • AD Targeting 廣告定位- 企業如何才能提高作戰效能?營銷自動化,商業智能
  • Point-of-sales Transaction Analysis 銷售點交易分析
  • Analyzing Network Data to Predict - 網絡數據分析預測
  • Threat Analysis 威脅分析- 企業如何才能檢測到的威脅和欺詐活動?
  • Trade Surveillance 貿易管制 - 檢測流氓交易?
  • Search Quality 搜索質量 - 你在搜索什麼呢?
  • Data Sandbox 數據沙箱 / 數據測試實驗室
  • GIS - 3D 地圖,空間應用
  • Real-time Customer Segmentation 實時客戶細分 - 市場分析
   

當您需要隨機實時讀/寫訪問大數據,您可以考慮Hadoop。

如果您有任何疑問,請隨時 與我們聯繫.

PostgreSQL, Open Source, database, Oracle, SQLServer, MYSQL