从日志统计到大数据分析

引用
作者:桑文锋,神策数据创始人&CEO,前百度大数据部技术经理。2007年浙大研究生毕业后加入百度,从2008年开始从事数据方向, 从零构建了百度的用户日志大数据处理平台。2015年4月从百度离职,创建神策数据,帮助客户实现数据驱动。目前,面向互联网创业公司的产品神策分析的客 户包括爱鲜蜂、多盟、AcFun、秒拍等。

[......]

阅读全文

浅谈大数据应用研究的3个V

To knowledge是目标,手段还是mining,俗称数据民工。每当大家讲到大数据,都会不约而同的提到大数据几个V的定义:Volume,Variety,Velocity,Veracity,Value。大部分情况下我们都是将这几个V放在PPT的introduction部分一笔带过,并无详细解读。我想谨以此文抛砖引玉,回顾和学习其中的3个V,重新审视我们的工作。[......]

阅读全文

优秀大数据GitHub项目一览

VMware CEO Pat Gelsinger曾说:

数据科学是未来,大数据分析则是打开未来之门的钥匙

企业正在迅速用新技术武装自己以便从大数据项目中获益。各行业对大数据分析人才的需求也迫使我们升级自己的技能以便寻找更好的职业发展。
跳槽之前最好先搞清楚一个岗位会接触到的项目类型,这样你才能掌握所有需要的技能,工作的效率也会更高。
下面我们尽量列出了一些流行的开源大数据项目。根据它们各自的授权协议,你或许可以在个人或者商业项目中使用这些项目的源代码。写作本文的目的也就是为大家介绍一些解决大数据相关问题可能会用到的工具。[......]

阅读全文

【CCCF专题】深度学习在自然语言处理中的应用

来源:《中国计算机学会通讯》 2015年第3期《专题》

作者:刘树杰 董力 张家俊等

深度学习简介

深度学习是近年来机器学习领域发展最为迅速的领域。严格来说,深度学习并不是一种全新的机器学习方法,而是基于深层神经网络 (Deep Neural Network, DNN)的学习方法的别称。这里的深层神经网络和传统的多层神经网络描述的几乎是完全相同的概念。深度学习之所以在沉寂多年之后重新得到学术界的高度关注,是因为其在一系列人工智能的重要任务中所取得的突破性成果。例如,在机器学习标志性的基准测试手写体识别任务中,深度学习可以将错误率从1.4%(SVM模型)降低到0.39%[1];在语音识别领域,深度学习历史性地将错误率从27.4%降低到18.5%[2][......]

阅读全文

Heka, 一个高可扩展的实时数据收集和处理工具

一年以前我们在着手为阿里集团内部实现一个日志运维平台的时候,mozilla开源了Heka这个工具,当时由于我们的理念和Heka不太一致,也就没有过多的参考它、甚至是使用它。(当然,我们的日志运维平台最终并没有做太成功;现在来看,当初没借鉴Heka是一个不太正确的选择)。今天我在从事 CDN调度系统开发的过程中,发现我们的一个子系统以及一些工具好像挺适合用Heka来做。于是我再次深入研究了一下Heka和阅读了其5,6K行的核心源码。[......]

阅读全文

浙江免费开放350项政府数据 怎么用?我们给你模拟了几个场景

http://hznews.hangzhou.com.cn/chengshi/content/2015-09/24/content_5930556.htm
新闻导读:去看病 不知哪些医院能用医保?想创业 没权威数据支撑?找工作 担心未来东家会欠薪?23日,23日,浙江政务服务网正式上线“政府数据开放平台”,免费开放350项政府数据,普通人也受用。[......]

阅读全文

数据分析的 7 个关键步骤

“数据科学家” 术语总让人联想到一个孤独的天才独自工作,将深奥的公式应用于大量的数据,从而探索出有用的见解。但这仅仅是数据分析过程中的一步。数据分析本身不是目标,目标是使企业能够做出更好的决策。数据科学家构建出的产品,必须使得组织中的每个人更好地使用数据,使得每个部门、每个层级可以做出受数据驱动的决策。 [......]

阅读全文

如何挑选合适的大数据或Hadoop平台?

IBM、Oracle、SAP、甚至Microsoft等几乎所有的大型软件提供商都采用了Hadoop。然而,当你已经决定要使用Hadoop来处理大数据时,首先碰到的问题就是如何开始以及选择哪一种产品。本文讨论了不同的选择,并推荐了每种选择的适用场合。 [......]

阅读全文

Facebook运维内幕曝光:一人管理2万台服务器

目前,Facebook 已经凭借它在网络基础建设上的可扩展能力成为了行业的领军者。Facebook 数据中心运维主管 Delfina Eberly(下图人物) 在“7x24 Exchange 2013 秋季会议”上的演讲中为我们透露了 Facebook 部分内部运维数据,下面我们来具体了解下。[......]

阅读全文

Hadoop:用还是不用?

当人们提到“大数据”或是“数据分析”等相关问题的时候,会听到脱口而出的回答:Hadoop!Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。

实际上Hadoop被设计和建造出来,是用来解决一系列特定问题的。对某些问题来说,Hadoop至多算是一个不好的选择。对另一些问题来说,选择Hadoop甚至会是一个错误。对于数据转换的操作,或者更广泛意义上的抽取-转换-装载的操作(译者注:Extraction Transformation Load,ETL,数据仓库中对数据从初始状态到可用状态处理过程的经典定义), 使用Hadoop系统能够得到很多好处,但是如果你的问题是下面5类之中的一个的话,Hadoop可能会是一不合适的解决方案。 [......]

阅读全文

别老扯什么Hadoop了,你的数据根本不够大

本文原名“Don't use Hadoop when your data isn't that big ”,出自有着多年从业经验的数据科学家Chris Stucchio,纽约大学柯朗研究所博士后,搞过高频交易平台,当过创业公司的CTO,更习惯称自己为统计学者。对了,他现在自己创业,提供数据分析、推荐优化咨询服务,他的邮件是:stucchio@gmail.com 。 [......]

阅读全文

MongoDB MapReduce性能提升20倍的优化宝典

自从MongoDB被越来越多的大型关键项目采用后,数据分析也成为了越来越重要的话题。人们似乎已经厌倦了使用不同的软件来进行分析(这都利用到了Hadoop),因为这些方法往往需要大规模的数据传输,而这些成本相当昂贵。

MongoDB提供了2种方式来对数据进行分析:Map Reduce(以下简称MR)和聚合框架(Aggregation Framework)。MR非常灵活且易于使用,它可以很好地与分片(sharding)结合使用,并允许大规模输出。尽管在MongoDB v2.4版本中,由于JavaScript引擎从Spider切换到了V8,使得MR的性能有了大幅改进,但是与Agg Framework(使用C++)相比,MR的速度还是显得比较慢。本文就来看看,有哪些方法可以让MR的速度有所提升。[......]

阅读全文