Notice: Undefined index: HTTP_ACCEPT_ENCODING in C:\server\web\www.showyounger.com\s-system.php on line 2
大数据 | 小样儿(ShowYounger)

漫画：什么是大数据？

发表于 2016-11-14 由小样儿

回复

来源：伯乐在线 - 玻璃猫

链接：http://blog.jobbole.com/107507/
[......]
阅读全文

从日志统计到大数据分析

发表于 2016-05-22 由小样儿

回复

引用

作者：桑文锋，神策数据创始人&CEO，前百度大数据部技术经理。2007年浙大研究生毕业后加入百度，从2008年开始从事数据方向，从零构建了百度的用户日志大数据处理平台。2015年4月从百度离职，创建神策数据，帮助客户实现数据驱动。目前，面向互联网创业公司的产品神策分析的客户包括爱鲜蜂、多盟、AcFun、秒拍等。

[......]

谷歌的海量数据排序实验史

发表于 2016-04-27 由小样儿

回复

自从相关工具创建以来，我们一直通过对海量的随机数据执行排序来测试MapReduce。这种方式很受欢迎，因为生成任意数量的数据非常简单，想要验证输出结果是否正确也很简单。[......]

浅谈大数据应用研究的3个V

发表于 2016-02-01 由小样儿

回复

To knowledge是目标，手段还是mining，俗称数据民工。每当大家讲到大数据，都会不约而同的提到大数据几个V的定义：Volume，Variety，Velocity，Veracity，Value。大部分情况下我们都是将这几个V放在PPT的introduction部分一笔带过，并无详细解读。我想谨以此文抛砖引玉，回顾和学习其中的3个V，重新审视我们的工作。[......]

大数据时代里，运维工程师的自我修养

发表于 2016-01-28 由小样儿

回复

作者：又耳

链接：http://youerning.blog.51cto.com/10513771/1726349

“凡是过去，皆为序曲”[......]

优秀大数据GitHub项目一览

发表于 2016-01-18 由小样儿

回复

VMware CEO Pat Gelsinger曾说：

数据科学是未来，大数据分析则是打开未来之门的钥匙

企业正在迅速用新技术武装自己以便从大数据项目中获益。各行业对大数据分析人才的需求也迫使我们升级自己的技能以便寻找更好的职业发展。
跳槽之前最好先搞清楚一个岗位会接触到的项目类型，这样你才能掌握所有需要的技能，工作的效率也会更高。
下面我们尽量列出了一些流行的开源大数据项目。根据它们各自的授权协议，你或许可以在个人或者商业项目中使用这些项目的源代码。写作本文的目的也就是为大家介绍一些解决大数据相关问题可能会用到的工具。[......]

Hadoop，HBase，Storm，Spark到底是什么？

发表于 2015-12-21 由小样儿

回复

Hadoop=HDFS+Hive+Pig+...

HDFS: 存储系统
MapReduce：计算系统
Hive：提供给SQL开发人员（通过HiveQL）的MapReduce，基于Hadoop的数据仓库框架[......]

使用Spark进行微服务的实时性能分析

发表于 2015-11-21 由小样儿

回复

【编者按】当开发者从微服务架构获得敏捷时，观测整个系统的运行情况成为最大的痛点。在本文，IBM Research展示了如何用Spark对微服务性能进行分析和统计，由OneAPM工程师翻译。

以下为译文[......]

【CCCF专题】深度学习在自然语言处理中的应用

发表于 2015-11-15 由小样儿

回复

来源：《中国计算机学会通讯》 2015年第3期《专题》

作者：刘树杰　董力　张家俊等

深度学习简介

深度学习是近年来机器学习领域发展最为迅速的领域。严格来说，深度学习并不是一种全新的机器学习方法，而是基于深层神经网络 (Deep Neural Network, DNN)的学习方法的别称。这里的深层神经网络和传统的多层神经网络描述的几乎是完全相同的概念。深度学习之所以在沉寂多年之后重新得到学术界的高度关注，是因为其在一系列人工智能的重要任务中所取得的突破性成果。例如，在机器学习标志性的基准测试手写体识别任务中，深度学习可以将错误率从1.4%（SVM模型）降低到0.39% [1] ；在语音识别领域，深度学习历史性地将错误率从27.4%降低到18.5% [2] 。[......]

Heka, 一个高可扩展的实时数据收集和处理工具

发表于 2015-10-16 由小样儿

回复

一年以前我们在着手为阿里集团内部实现一个日志运维平台的时候，mozilla开源了Heka这个工具，当时由于我们的理念和Heka不太一致，也就没有过多的参考它、甚至是使用它。（当然，我们的日志运维平台最终并没有做太成功；现在来看，当初没借鉴Heka是一个不太正确的选择）。今天我在从事 CDN调度系统开发的过程中，发现我们的一个子系统以及一些工具好像挺适合用Heka来做。于是我再次深入研究了一下Heka和阅读了其5，6K行的核心源码。[......]

MongoDB分片

发表于 2015-09-28 由小样儿

回复

如果需要存储大量数据，或者系统的读写吞吐量很大的时候，单个server就很难满足需求了。这个时候我们可以使用MongoDB的分片机制来解决这些问题。[......]

浙江免费开放350项政府数据怎么用？我们给你模拟了几个场景

发表于 2015-09-26 由小样儿

回复

http://hznews.hangzhou.com.cn/chengshi/content/2015-09/24/content_5930556.htm
新闻导读：去看病不知哪些医院能用医保？想创业没权威数据支撑？找工作担心未来东家会欠薪？23日，23日，浙江政务服务网正式上线“政府数据开放平台”，免费开放350项政府数据，普通人也受用。[......]

数据分析的 7 个关键步骤

发表于 2015-05-12 由小样儿

回复

“数据科学家” 术语总让人联想到一个孤独的天才独自工作，将深奥的公式应用于大量的数据，从而探索出有用的见解。但这仅仅是数据分析过程中的一步。数据分析本身不是目标，目标是使企业能够做出更好的决策。数据科学家构建出的产品，必须使得组织中的每个人更好地使用数据，使得每个部门、每个层级可以做出受数据驱动的决策。 [......]

如何挑选合适的大数据或Hadoop平台?

发表于 2015-02-18 由小样儿

回复

IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop。然而，当你已经决定要使用Hadoop来处理大数据时，首先碰到的问题就是如何开始以及选择哪一种产品。本文讨论了不同的选择，并推荐了每种选择的适用场合。 [......]

看Facebook如何玩转大数据——它会知道你恋爱了

发表于 2014-02-19 由小样儿

回复

你知道SNS霸主Facebook是怎么玩转大数据的吗？Facebook知道你什么时候跟别人约会，什么时候分手。[......]

Facebook运维内幕曝光：一人管理2万台服务器

发表于 2013-11-24 由小样儿

回复

目前，Facebook 已经凭借它在网络基础建设上的可扩展能力成为了行业的领军者。Facebook 数据中心运维主管 Delfina Eberly（下图人物）在“7x24 Exchange 2013 秋季会议”上的演讲中为我们透露了 Facebook 部分内部运维数据，下面我们来具体了解下。[......]

别老扯什么Hadoop了，你的数据根本不够大

发表于 2013-09-18 由小样儿

回复

本文原名“Don't use Hadoop when your data isn't that big ”，出自有着多年从业经验的数据科学家Chris Stucchio，纽约大学柯朗研究所博士后，搞过高频交易平台，当过创业公司的CTO，更习惯称自己为统计学者。对了，他现在自己创业，提供数据分析、推荐优化咨询服务，他的邮件是：stucchio@gmail.com 。 [......]

MongoDB MapReduce性能提升20倍的优化宝典

发表于 2013-08-21 由小样儿

回复

自从MongoDB被越来越多的大型关键项目采用后，数据分析也成为了越来越重要的话题。人们似乎已经厌倦了使用不同的软件来进行分析（这都利用到了Hadoop），因为这些方法往往需要大规模的数据传输，而这些成本相当昂贵。

MongoDB提供了2种方式来对数据进行分析：Map Reduce（以下简称MR）和聚合框架（Aggregation Framework）。MR非常灵活且易于使用，它可以很好地与分片（sharding）结合使用，并允许大规模输出。尽管在MongoDB v2.4版本中，由于JavaScript引擎从Spider切换到了V8，使得MR的性能有了大幅改进，但是与Agg Framework（使用C++）相比，MR的速度还是显得比较慢。本文就来看看，有哪些方法可以让MR的速度有所提升。[......]

Hortonworks正式推出Windows版Hadoop数据平台

发表于 2013-08-17 由小样儿

回复

Apache Hadoop的主要贡献者Hortonworks近日正式发布了Windows平台版本的Hortonworks数据平台（HDP），这是一个100%开源的由Apache Hadoop驱动的数据平台。
[......]