Hadoop平台架构--硬件篇

还记得刚接触Hadoop的时候,还是1.x版本,硬是在自己的4GB内存上面弄了3个虚拟机
学习,条件有些艰苦,Hadoop测试集群搭建不需要太多考虑,随着毕业开始进入企业,在企业中实践Hadoop,特别是一定规模的集群,逐渐涉 及到硬件资源,网络规划,操作系统,软件栈等一系列问题!对于一个没有经验的小白来说,还是比较复杂的,还好公司有linux大牛配合上我从各种技术网站 博客吸收的微薄知识,从0开始搭建集群稳定运行2年多,接近年关,今晚我把这些问题简单梳理一下,希望对出建集群的同学有些许帮助![......]

阅读全文

LinkedIn架构进化简史

LinkedIn创建于2003年,主要目标是连接你的个人人脉以得到更好的的工作机会。上线第一周只有2700个会员,之后几年,LinkedIn的产品、会员、服务器负载都增长非常快。
今天,LinkedIn全球用户已经超过3.5亿。我们每天每秒有上万个页面被访问,移动端流量已占到50%以上。所有这些接口请求都从后台获取,达到每秒上百万级。
那么,我们是怎么做到的呢? [......]

阅读全文

前谷歌员工推出类Spanner数据库项目

斯宾塞·金博尔(Spencer Kimball)在离开谷歌之后,突然觉得不便,因为手头缺少了很多曾在公司内部使用的定制软件。于是,他携手其他谷歌离职者,决心打造自己的版本。现在,他们决心公开自己的工作成果,帮助有志者创办下一个谷歌或Facebook。[......]

阅读全文

如何挑选合适的大数据或Hadoop平台?

IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop。然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品。本文讨论了不同的选择,并推荐了每种选择的适用场合。 [......]

阅读全文

【企业开源系列】Twitter:收发一条推文的背后

Twitter被称为“互联网的短信服务”,允许用户发布不超过140个字的微博客,该创意来自Twitter的联合创始人Jack Dorsey,这个在7年前被分析师称为“有史以来最愚蠢”的创意,不料如今已经成为了风靡全世界的社交网络和微博客服务,月活跃用户达到了2.183亿人,每天大约有5亿条推文(tweet)被发送,几乎每秒钟就产生了超过6000条推文。[......]

阅读全文

Hadoop:用还是不用?

当人们提到“大数据”或是“数据分析”等相关问题的时候,会听到脱口而出的回答:Hadoop!Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。

实际上Hadoop被设计和建造出来,是用来解决一系列特定问题的。对某些问题来说,Hadoop至多算是一个不好的选择。对另一些问题来说,选择Hadoop甚至会是一个错误。对于数据转换的操作,或者更广泛意义上的抽取-转换-装载的操作(译者注:Extraction Transformation Load,ETL,数据仓库中对数据从初始状态到可用状态处理过程的经典定义), 使用Hadoop系统能够得到很多好处,但是如果你的问题是下面5类之中的一个的话,Hadoop可能会是一不合适的解决方案。 [......]

阅读全文

别老扯什么Hadoop了,你的数据根本不够大

本文原名“Don't use Hadoop when your data isn't that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者。对了,他现在自己创业,提供数据分析、推荐优化咨询服务,他的邮件是:stucchio@gmail.com 。 [......]

阅读全文

HBase

HBase是一个分布式的、面向列的开源数据库,该技术来源于Chang et al所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop 项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。[......]

阅读全文

MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。[......]

阅读全文

Hadoop

一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。[......]

阅读全文

10大引导世界技术革新的开源项目

技术发展依赖于创新举措。没有那些脱离束缚的好想法,技术发展将停滞不前。与此同时,创新也促进了企业与社会的进步。很多人想当然地认为大多数创新举措都必须依附于闭源软件及开发商,但在多数情况下这一观点并不正确。

成千上万个开源项目为我们带来各个领域的技术创新成果。其中有一些项目的规模非常小,它们在大多数项目都是大规模、全球化的商业环境中显得格外突出。在浩如烟海的开源项目当中,Linux专家Jack Wallen选取了最具代表性的10名个开源项目,让大家了解它们对全球技术创新做出的卓越贡献。[......]

阅读全文

2015年65%高级分析产品将嵌入Hadoop

  Gartner称,用于大规模数据分析的Hadoop开源编程框架已经成为“大数据”市场知名度最高的技术之一。但是,用户可以期待这种技术在未来两年更加普及。

  据Gartner周四发表的研究报告称,事实上,到2015年,大约65%的具有高级分析功能的打包分析应用(packaged analytic applications)将嵌入Hadoop。

  这篇报告称,尽管在2012年部署Hadoop系统需要特殊技巧,但是,机构认识到Hadoop驱动的分析给大数据程序带来的实力。这对于分析糟糕的结构化数据、文本、行为分析[......]

阅读全文