ODPS术语表

A

  • Access ID /Access Key
    API 密钥(Access ID & Access Key),用户在阿里云官网注册云账号后,系统会给用户分配一对Access ID和Access Key,称为ID对,用于标识用户,为访问ODPS或者其他云产品做签名验证。
  • API
    Application Programming Interface 应用程序编程接口
    API是一组定义程序及协议的集合,主要功能是提供通用功能集。程序员通过使用 API 函数开发应用程序,从而可以避免编写无用程序,以减轻编程任务。 API 同时也是一种中间件,为各种不同平台提供数据共享目的。
  • Array
    数组类型,ODPS支持的一种数据类型。
  • 安全
    ODPS多租户数据安全体系,主要包括:用户认证、 项目空间的用户与授权管理、跨项目空间的资源分享以及项目空间的数据保护。

B


  • 表是 ODPS 的数据存储单元。它在逻辑上是由行和列组成的二维结构,每行代表一条记录,每列表示相同数据类型的一个字段,一条记录可以包含一个或多个列,各个列的名称和类型构成这张表的 schema。 在ODPS中,所有的数据都被存储在表中。表中的列可以是ODPS支持的任意种数据类型(Bigint,Double,String,Boolean,Datetime, Decimal)。ODPS中的各种不同类型计算任务 的操作对象(输入、输出)都是表。用户可以创建表,删除表以及向表中导入数据 。

C

  • Console
    运行在Window/Linux下的客户端工具,通过Console可以提交命令完成Project管理、DDL、DML等操作。
  • Cookie
    有时也用其复数形式Cookies,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。
  • 采云间
    采云间(Data Process Center,简称DPC)是基于开放数据处理服务ODPS平台的DW/BI解决方案。DPC产品集成了阿里多年的DW、BI实施经验,提供全链路的易于上手的数据处理工具,包括odps ide、任务调度、数据分析、报表制作和元数据等。通过DPC提供图形化的工具,可以大大降低用户在数据仓库和商业智能上的实施成本,加快实施进度。

D

  • Data type ODPS表中所有列对应的数据类型。目前支持的数据类型有:Bigint, String, Boolean, Double, Datetime, Decimal以及数组类型,字典类型。
  • DDL
    Data Definition Language,数据定义语言,比如创建表,创建视图等操作。
  • DML
    Data Manipulation Language,数据操纵语言。比如INSERT操作。
  • DQC
    通过灵活的规则配置,可以监控数据的质量,并可以配置预警通知。

F

  • 分区 分区 Partition 是指一张表下,根据分区字段(一个或多个组合)对数据存储进行划分。也就是说,如果表没有分区,数据是直接放在表所在的目录下;而如果表有 Partition,每个 Partition 对应表下的一个目录,数据是分别存储在不同的分区目录下。比如,假设前面给出的各个字段创建一张表,表名为 page_view,指定其分区字段为 dt(日期)和 country,则 对 于 分 区 dt=20150101,country=US 下 的 数 据 , 就 会 存 放 在 page_view/dt=20150101/country=US/的目录下。分区的最大好处在于可以加快查询,比如要查找满足 dt=20150101 且 country=US 的数据,只需要扫描相应的分区即dt=20150101/country=US/ 目录下的数据即可;如果没有分区,则需要扫描表page_view/下的所有数据。
  • 飞天
    飞天是由阿里云开发的一个大规模分布式计算系统,其中包括飞天内核和飞天开放服务。
  • 飞天内核
    飞天内核负责管理数据中心Linux集群的物理资源,控制分布式程序运行, 隐藏下层故障恢复和数据冗余等细节,有效提供弹性计算和负载均衡。
  • 飞天开放服务
    飞天开放服务为用户应用程序提供了计算和存储两方面的接口和服务,包括弹性计算服务(Elastic ComputeService,简称ECS)、开放存储服务(Open Storage Service,简称OSS)、开放结构化数据服务(Open Table Service,简称OTS)、关系型数据库服务(Relational Database Service,简称RDS)和开放数据处理服务(Open Data Processing Service,简称ODPS),并基于弹性计算服务提供了云服务引擎(Aliyun Cloud Engine,简称ACE)作为第三方应用开发和Web 应用运行和托管的平台。
  • 伏羲 (fuxi)
    是飞天平台内核中负责资源管理和任务调度的模块,同时也为应用开发提供了一套编程基础框架。伏羲同时支持强调响应速度的在线服务和强调处理数据吞吐量的离线任务。在伏羲中,这两类应用分别简称为Service和Job。

H

  • Hadoop Hadoop是由Apache基金会所开发的一个分布式系统基础架构,使得用户在不了解分布式底层细节的情况下,借助集群对大数据进行高速运算和存储。
  • Hive
    是基于Hadoop的一种开源数据仓库。它使您能够避免使用较低级别的计算机语言(如java)去编写MapReduce复杂的程序。想了解Hive的更多信息,请查看http://hive.apache.org/。
  • HTTP
    Hypertext Transfer Protocol 超文本传输协议 超文本传输协议HTTP是一种详细规定了浏览器和万维网服务器之间互相通信的规则,通过因特网传送万维网文档的数据传送协议,是ISO7层中的第7层协议 。

I

  • IDE
    ODPS提供了上层可视化ETL/BI工具,即“采云间”,用户可以基于采云间完成数据同步、任务调度、报表生成等常见操作。

J

  • 角色
    角色是OPDS安全功能里使用的概念,可以看成是拥有相同权限的用户的集合。多个用户可以同时存在于一个角色下, 一个用户也可以隶属于多个角色。给角色授权后,该角色下的所有用户拥有相同的权限。
  • 集群
    是一组相互独立的、通过高速网络互联的计算单元。对用户,集群是一个独立的服务器。集群内部能够灵活调度,具有高可靠性、高可用性和可缩放性等。

K

  • 昆仑镜
    该功能用于数据恢复以及版本还原,与传说中的昆仑镜有异曲同工之妙。

M

  • MapReduce
    ODPS处理数据的一种编程模型,通常用于大规模数据集的并行运算。用户可以使用MapReduce提供的接口(Java API)编写MapReduce程序处理ODPS的中的数据。编程思想是将数据的处理方式分为“Map(映射)”和“Reduce(规约)”两种。在正式执行Map前,需要将输入数据进行”分片”。所谓分片,就是将输入数据切分为大小相等的数据块,每一块作为单个Map Worker的输入被处理,以便于多个Map Worker同时工作。每个Map Worker在读入各自的数据后,进行计算处理,最终通过Reduce函数整合中间结果,从而得到最终计算结果。
  • 摩萨德
    监控天网上任务的运行情况,保障重要任务在合理的规定时间前产出。

N

  • 女娲
    女娲(Nuwa)系统为飞天提供高可用的协调服务(Coordination Service),是构建各类分布式应用的核心服务,它的作用是采用类似文件系统的树形命名空间来让分布式进程互相协同工作。例如,当集群变更导致特定的服务被迫改变物理运行位置时,如服务器或者网络故障、配置调整或者扩容时,借助女娲系统可以使其他程序快速定位到该服务新的接入点,从而保证了整个平台的高可靠性和高可用性。

P

  • 盘古(pangu)
    盘古是一个分布式文件系统,将大量通用机器的存储资源聚合在一起,为用户提供大规模、高可靠、高可用、高吞吐量和可扩展的存储服务,是飞天平台内核中的一个重要组成部分。
  • Project(项目)
    项目空间(Project)是 ODPS 的基本组织单元,它类似于传统数据库的Database 或 Scheme 的概念,是进行多用户隔离和访问控制的主要边界。一个用户可以同时拥有多个项目空间的权限。通过安全授权,可以在一个项目空间中访问另一个项目空间中的对象, 例如:表(Table) ,资源(Resource) , 函数(Function),实例(Instance)。

Q

  • Quota
    又称为配额,分为存储和计算两种。对于存储,在ODPS中可以设置一个project中允许使用的存储上限,在接近上限到一定程度时会触发报警。对于计算资源的限制,有内存和CPU两方面,即在project中同时运行的进程所占用的内存和CPU资源不可以超过指定的上限。

S

  • SDK
    Software Development Kits 软件开发工具包
    软件开发工具包SDK一般都是一些被软件工程师用于为特定的软件包、软件实例、软件框架、硬件平台、操作系统、文档包等建立应用软件的开发工具的集合。
  • Shard Shard表示对一个datahub表进行数据传输的并发通道。每个Shard会有对应的ID,ShardID从0开始到maxShardNumber-1 。
  • 授权
    项目空间管理员或者project owner授予用户对ODPS中的Object(或称之为客体,例如:表,任务,资源等)某种操作权限,包括:读、写、查看等。
  • Spark
    ODPS提供了Apache Spark编程接口。用户可以使用Spark接口进行编程处理存储在ODPS中的数据。
  • 沙箱
    ODPS MapReduce及UDF程序在分布式环境中运行时受到Java沙箱的限制。
  • 实例(instance)
    作业的一个具体实例,表示实际运行的Job,类同Hadoop中Job概念。

T

  • Tunnel
    ODPS的数据通道,提供高并发的离线数据上传下载服务。 用户可以使用Tunnel服务向ODPS批量上传数据或者将数据下载。

U

  • UDF
    广义的UDF,即User Defined Function,ODPS提供的Java编程接口开发自定义函数。
    狭义的UDF指用户自定义标量值函数(User Defined Scalar Function),其输入与输出是一对一的关系,即读入一行数据,写出一条输出值。
  • UDTF
    User Defined Table Valued Function,自定义表值函数,是用来解决一次函数调用输出多行数据场景的,也是唯一能返回多个字段的自定义函数。而UDF只能一次计算输出一条返回值。
  • UDAF
    User Defined Aggregation Function,自定义聚合函数,其输入与输出是多对一的关系, 即将多条输入记录聚合成一条输出值。可以与 SQL中的Group By语句联用。

V

  • Volume
    ODPS开放了文件存储系统,在某些场景下,用户需要读写非二维表数据,包括在mapreduce中读写和导入导出ODPS。

Z

  • 资源
    资源(Resource)是ODPS的特有概念。用户如果想使用ODPS的 自定义函数(UDF) 或 MapReduce 功能需要依赖资源来完成。
  • 在彼岸
    专注于数据质量服务,旨在构建完整的、多维度的数据质量解决方案的质量平台;持续提升测试开发效率,优化数据产出。
  • 在云端
    基于web浏览器开发的数据分析平台,提供了开发工作台,工作流,权限管理,project管理和运维工具等功能。
  • 作业(job)
    作业由一个或多个任务(task)组成,描述了可以在ODPS中执行的数据处理操作。作业是一个静态概念,一个已定义的作业可以被反复运行。
  1. da shang
    donate-alipay
               donate-weixin weixinpay

发表评论↓↓