MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。[......]

阅读全文

微软开源大数据框架REEF

微软开发了一个名为REEF(Retainable Evaluator Execution Framework)的大数据框架,并计划在一个月左右将其开源。

8月12日上午,在芝加哥举行的Knowledge Mining and Data Discovery国际会议上,微软技术研究员兼信息服务CTO Raghu Ramakrishnan介绍了REEF框架和微软的开源计划。 [......]

阅读全文

大数据时代的九大Key-Value存储数据库

在过去的十年中,计算世界已经改变。现在不仅在大公司,甚至一些小公司也积累了TB量级的数据。各种规模的组织开始有了处理大数据的需求,而目前关系型数据库在可缩放方面几乎已经达到极限。

一个解决方案是使用键值(Key-Value)存储数据库,这是一种NoSQL(非关系型数据库)模型,其数据按照键值对的形式进行组织、索引和存储。KV存储非常适合不涉及过多数据关系业务关系的业务数据,同时能有效减少读写磁盘的次数,比SQL数据库存储拥有更好的读写性能。

本文就为你介绍九种用于大数据处理的免费键值存储数据库。 [......]

阅读全文

什么是ODPS

开放数据处理服务(Open Data Processing Service,简称ODPS)。ODPS是构建在大规模分布式计算系统上的数据处理服务。ODPS以REST API的形式,支持用户提交类SQL的查询语言,对海量数据进行处理。与强调实时性的阿里云OTS 服务不同,ODPS重点面向数据量大(TB级别)且实时性要求不高的离线处理,适用于构建数据仓库、海量数据统计、数据挖掘、数据商业智能等互联网应用。

2015年65%高级分析产品将嵌入Hadoop

  Gartner称,用于大规模数据分析的Hadoop开源编程框架已经成为“大数据”市场知名度最高的技术之一。但是,用户可以期待这种技术在未来两年更加普及。

  据Gartner周四发表的研究报告称,事实上,到2015年,大约65%的具有高级分析功能的打包分析应用(packaged analytic applications)将嵌入Hadoop。

  这篇报告称,尽管在2012年部署Hadoop系统需要特殊技巧,但是,机构认识到Hadoop驱动的分析给大数据程序带来的实力。这对于分析糟糕的结构化数据、文本、行为分析[......]

阅读全文

Facebook技术总监:如何管理10亿用户的数据?

Facebook用户数量,已经突破10亿大关。Facebook在发展期间,所实现的技术成就,成为了IT行业工程师关注的话题。究竟Facebook取得了哪些技术成就呢?Facebook前工程部门总监,在问答网站Quora上,对这一问题作出回答。无论对于IT行业的投资者还是使用者,这些回答都有着指导意义。[......]

阅读全文

大数据时代的挣钱模式

近日,一小伙专门应聘上海均价4万高档小区的物业管理,自己配了扫描枪,每天就盯着小区垃圾堆,看见有条形码就扫描,晚上回家把数据整理出来,得出这小区喝什么水吃什么油买什么衣服,整个小区的消费品类偏好和品牌偏好一清二楚,再形成报告卖给大公司,报告价值数十万。