影响数据检索效率的几个因素

数据检索有两种主要形态。第一种是纯数据库型的。典型的结构是一个关系型数据,比如 mysql。用户通过 SQL 表达出所需要的数据,mysql 把 SQL 翻译成物理的数据检索动作返回结果。第二种形态是现在越来越流行的大数据玩家的玩法。典型的结构是有一个分区的数据存储,最初这种存储就是原始的 HDFS,后来开逐步有人在 HDFS 上加上索引的支持,或者干脆用 Elasticsearc 这样的数据存储。然后在存储之上有一个分布式的实时计算层,比如 Hive 或者 Spark SQL。用户用 Hive SQL 提交给计算层,计算层从存储里拉取出数据,进行计算之后返回给用户。这种大数据的玩法起初是因为 SQL 有很多 ad-hoc 查询是满足不了的,干脆让用户自己写 map/reduce 想怎么算都可以了。但是后来玩大了之后,越来越多的人觉得这些 Hive 之类的方案查询效率怎么那么低下啊。于是一个又一个项目开始去优化这些大数据计算框架的查询性能。这些优化手段和经典的数据库优化到今天的手段是没有什么两样的,很多公司打着搞计算引擎的旗号干着重新发明数据库的活。所以,回归本质,影响数据检索效率的就那么几个因素。我们不妨来看一看。
[......]

阅读全文

突然停电,这个妈妈的教育方式太棒了!不得不服!

雨下了整整一夜,白天也没停,我觉得下午没什么事可做,于是去电影院看电影消遣。

 

进了影厅后,前后左右打量了一下,都是大人带着小孩,以年轻妈妈居多,一家三口的只有两三个。

 

电影是动画片《愤怒的小鸟》。讲了一群不会飞的小鸟,生活在一个热带小岛上,它们的生活被一群神秘的绿色小猪打破了,鸟和猪的夺蛋大战由此开始了。
[......]

阅读全文

rm -rf 的“幸存者”

英文:rm -rf remains

译者:伯乐在线 - honpey

链接:http://blog.jobbole.com/70971/

 

自娱自乐,我决定启动一台 Linux 服务器,然后以 root 用户执行 rm –rf / 命令,然后观察下哪些文件或者指令会幸存下来。结果是什么也没少!因此你必须增加 —no-preserce-root 再试一遍:[......]

阅读全文

看完让你爱上数学!数学竟然是如此神奇的东西!!表示白学了那么多年!

死理性派的小编经常会被问到的一个问题:数学到底哪里有趣了,数学之美又在哪里?这篇文章精心选择了 10 个老少咸宜的算术问题,以定理、趣题甚至未解之谜等各种形式带领大家窥探数学世界的一角。不少问题背后都蕴含了深刻的数学知识,触及到数学的各个领域。希望从小数学就不及格的朋友们能够喜欢上数学这门充满乐趣的学科。[......]

阅读全文

真正伤害孩子的爸爸其实是这5种,你家那位中枪了吗?

在一个幼儿园的门口,总会看到一位外籍爸爸准时等着他的孩子。

他的海拔很高,在女人堆里总,极为显眼。

“你不工作吗?”旁边的老人总是好奇打听。

“工作。”他总是操着不流利的中文应着。

偶尔,他也会看电脑、接电话,但看孩子过来的时候,总是立马关上电脑、挂掉电话,高大的身躯总会蹲下来,等他的孩子跑到怀里。

后来,这个外籍爸爸问 :“为什么中国餐馆里、学校门口、游乐场都是妈妈和老人陪孩子,中国的爸爸去哪了?”

[......]

阅读全文

揭开Socket编程的面纱

来源:源码工作室

链接:http://www.cnblogs.com/goodcandle/archive/2005/12/10/socket.html

 

对TCP/IP、UDP、Socket编程这些词你不会很陌生吧?随着网络技术的发展,这些词充斥着我们的耳朵。那么我想问:
1 什么是TCP/IP、UDP?
2.Socket在哪里呢?
3.Socket是什么呢?
4.你会使用它们吗?
[......]

阅读全文

李开复清华演讲:为什么今天是人工智能的黄金时代?

导语

6月8日,应清华大学交叉信息研究院院长、世界著名计算机科学家姚期智院士邀请,向清华大学“姚班”的同学们做了名为《人工智能的黄金时代》的演讲。姚教授是计算机界最负盛名的图灵奖得主,2005年他与微软亚洲研究院合作在清华大学创办计算机科学实验班(简称“姚班”),十多年来培养了一批批拔尖的创新人才。

[......]

阅读全文

设计恰如其分的架构

文/粱沅(简书作者)
原文链接:http://www.jianshu.com/p/ac8da825c26f

远在2009年,Martin Fowler与Rebecca Parsons在QCon SF做了一次题为Agilists and Architects: Allies not Adversaries Presentation的演讲。演讲主要讨论了在敏捷方法中的架构活动。相似的话题,Neal Ford则提出了紧急设计的概念,并发表了名为Evelutionary Architecture and Emergent Design(演进架构与紧急设计)的系列文章。这是很棒的一个讲解演进架构的系列文章,谈到了TDD、代码复用、连贯接口、DSL、重构、惯用法模式、 指标等与演进架构和紧急设计有关的内容。[......]

阅读全文