The Google File System中文版

摘要:Google文件系统,一个为数据中心的大规模分布应用设计的可伸缩的分布文件系统。Google文件系统虽然运行在廉价的普遍硬件上,但是可以提供容错能力,为大量客户机提供高性能的服务。

分享许多以前的分布文件系统拥有的相同目标的同时,我们的设计还受到我们对我们的应用负载和技术环境观察的影响,当前还是以后,反应出与早期文件系统的预期有明显的不同。所以我们重新审视了传统的选择,探索出完全不同的设计观点。

GFS作为存储平台被广泛的部署在Google内部,用在我们的服务中产生和处理数据,还用于那些需要大规模数据集的研究和开发。目前为止最大的集群利用数千台机器内的数千个硬盘,提供了数百T的存储空间,同时为数百个客户机服务。在这篇论文中,我们展现如何用文件系统接口扩展设计去支撑分布应用,讨论我们设计的许多方面,最后报告在小规模性能测试以及真实世界中系统的性能测试结果。

关键词:容错,可伸缩性,数据存储,集群存储

ABSTRACT:Google File System,a scalable distributed file system forlarge distributed data-intensive applications. It provides fault tolerancewhile running on inexpensive commodity hardware, and it delivers high aggregateperformance to a large number of clients.

While sharing many of the same goals as previousdistributed file systems, our design has been driven by observations of ourapplication workloads and technological environment,both current andanticipated, that reflect a marked departure from some earlier file systemassumptions. Thishas led us to reexamine traditional choices and exploreradicallydifferent design points.

GFS is widely deployed within Google as the storageplatform for the generation and processing of data used by our service as wellas research and development efforts that require large data sets. The largestcluster to date Provides hundreds of terabytes of storage across thousands ofdisks on over a thousand machines, and it is concurrently Accessed by hundredsof clients.In this paper, we present file system interface extensions designedto support distributed applications, discuss many aspects of our design, andreport measurements from both micro-benchmarks and real world use.

Keywords:Fault tolerance, scalability, data storage, clusteredstorage

1. 简介
Google文件系统(Google File System – GFS),用来满足Google迅速增长的数据处理需求。GFS与过去的分布文件系统拥有许多相同的目标,例如性能,可伸缩性,可靠性以及可用性。然而,它的设计还受到我们对我们的应用负载和技术环境观察的影响,不管现在还是将来,我们和早期文件系统的假设都有明显的不同。所以我们重新审视了传统的选择,采取了完全不同的设计观点。 阅读全文 The Google File System中文版



NoSQL视频教程 Memcached技术/Redis数据库管理/MongoDB开发HBase

温馨提示:
1、该课程视频资源以百度网盘(pan.baidu.com)的方式下载;
2、该课程视频都不加密,可多台电脑、手机和平板自由观看。
3、该课程视频资料的具体获取方式

课程内容简介:
近年来,随着大数据应用的不断发展,NoSQL数据库凭借其易扩展、高性能、高可用、数据模型灵活等特征吸引了大量新兴互联网企业的青睐,其中包括国内的阿里巴巴、淘宝、新浪、京东商城、360奇虎、搜狗等都已经在局部尝试NoSQL解决方案。目前市场上有很多优秀的NoSQL产品,比如:Redis、MongoDB、Memcached、HBase等,大多都是免费开源成熟产品。认真学完本套教程内容后,同学们完全可以具备参加实际应用开发工作的能力,并可轻松挑战高薪职位。

本课程有好几十个G的视频内容,赶快来看看吧:
NoSQL教程:NoSQL视频教程 零基础入门
NoSQL教程:NoSQL视频教程 零基础入门

Redis教程:Redis视频教程 从菜鸟到高手
Redis教程:Redis视频教程 从菜鸟到高手

MongoDB教程:MongoDB视频教程 三部曲 阅读全文 NoSQL视频教程 Memcached技术/Redis数据库管理/MongoDB开发HBase



2015黑马最新 Hadoop 视频教程 传智8天完整版 附加大数据项目实战高级内容下载

温馨提示:
1、该课程视频资源以百度网盘(pan.baidu.com)的方式下载;
2、该课程视频都不加密,可多台电脑、手机和平板自由观看。
3、该课程视频资料的具体获取方式

2015年最新黑马传智Hadoop 8天视频教程【课程目录】
第一天:Hadoop的基本概念、伪分布式Hadoop集群安装和HDFS MapReduce演示
第二天:HDFS的原理和使用操作、编程
第三天:MapReduce的原理和编程
第四天:常见MR算法实现和Shuffle的机制
第五天:Hadoop2.x中HA机制的原理和全分布式集群安装部署及维护
第六天:HBase Hive
第七天:Storm + Kafka
第八天:实战项目《电信运营商流量经营系统》
课件 + 工具 + 代码 + PPT完整无缺
传智讲师:段海涛

【详细课程目录每天截图】
第一天:Hadoop的基本概念、伪分布式Hadoop集群安装和HDFS MapReduce演示
第一天:Hadoop的基本概念、伪分布式Hadoop集群安装和HDFS MapReduce演示

第二天:HDFS的原理和使用操作、编程
第二天:HDFS的原理和使用操作、编程

第三天:MapReduce的原理和编程 阅读全文 2015黑马最新 Hadoop 视频教程 传智8天完整版 附加大数据项目实战高级内容下载



黑马Android安卓第52期/第46期/第35期/第28期视频教程下载 送Android开发工具、资源包和游戏开发实战项目源码

温馨提示:
1、该课程视频资源以百度网盘(pan.baidu.com)的方式下载;
2、该课程视频都不加密,可多台电脑、手机和平板自由观看。
3、该课程视频资料的具体获取方式

黑马52期Android/安卓就业班
黑马52期Android/安卓就业班
黑马52期Android/安卓就业班

黑马46期android/安卓就业班 阅读全文 黑马Android安卓第52期/第46期/第35期/第28期视频教程下载 送Android开发工具、资源包和游戏开发实战项目源码



2015云计算、R语言和高性能架构课程培训视频下载

温馨提示:
1、该课程视频资源以百度网盘(pan.baidu.com)的方式下载;
2、该课程视频都不加密,可多台电脑、手机和平板自由观看。
3、该课程视频资料的具体获取方式

云计算
云计算

R语言目录
R语言目录

数据分析与SAS
阅读全文 2015云计算、R语言和高性能架构课程培训视频下载



2015机器学习、大数据的统计学基础和数据挖掘培训课程视频下载

温馨提示:
1、该课程视频资源以百度网盘(pan.baidu.com)的方式下载;
2、该课程视频都不加密,可多台电脑、手机和平板自由观看。
3、该课程视频资料的具体获取方式

机器学习目录
机器学习目录

大数据的统计学基础
大数据的统计学基础

数据挖掘教程及电子书
阅读全文 2015机器学习、大数据的统计学基础和数据挖掘培训课程视频下载



2015炼数成金等Spark、Storm、Scala语言培训课程视频下载

温馨提示:
1、该课程视频资源以百度网盘(pan.baidu.com)的方式下载;
2、该课程视频都不加密,可多台电脑、手机和平板自由观看。
3、该课程视频资料的具体获取方式

storm目录
storm目录

spark目录
spark目录

storm入门到精通
storm入门到精通

storm资料
阅读全文 2015炼数成金等Spark、Storm、Scala语言培训课程视频下载



2015Linux基础培训课程视频下载(多套:老男孩 韩顺平和LAMP兄弟连等)

温馨提示:
1、该课程视频资源以百度网盘(pan.baidu.com)的方式下载;
2、该课程视频都不加密,可多台电脑、手机和平板自由观看。
3、该课程视频资料的具体获取方式

Linux基础总目录
Linux基础总目录

老男孩经典Linux入门VIP视频
老男孩经典linux入门VIP视频

国嵌教程-Linux基础(Linux C)
阅读全文 2015Linux基础培训课程视频下载(多套:老男孩 韩顺平和LAMP兄弟连等)



2015黑马 传智Java/J2EE教程 Hadoop大数据 黑云计算视频

温馨提示:
1、该课程视频资源以百度网盘(pan.baidu.com)的方式下载;
2、该课程视频都不加密,可多台电脑、手机和平板自由观看。
3、该课程视频资料的具体获取方式

黑马 + 传智 J2EE总目录
2015黑马 传智J2EE总目录

传智33期:
传智33期

黑马12期(课程完整,只是顺序比较乱):
阅读全文 2015黑马 传智Java/J2EE教程 Hadoop大数据 黑云计算视频



初识Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

Hadoop历史
雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google File System,google公司为了存储海量搜索数据而设计的专用文件系统。
2004年Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。
2004年Google又发表了一篇技术学术论文MapReduce。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行分析运算。
2005年Doug Cutting又基于MapReduce,在Nutch搜索引擎实现了该功能。
2006年,Yahoo雇用了Doug Cutting,Doug Cutting将NDFS和MapReduce升级命名为Hadoop,Yahoo开建了一个独立的团队给Goug Cutting专门研究发展Hadoop。
不得不说Google和Yahoo对Hadoop的贡献功不可没。
2011年12月27日–1.0.0版本释出,标志着Hadoop已经初具生产规模。 阅读全文 初识Hadoop