Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是 UC Berkeley AMP lab (加州大学伯克利分校的 AMP 实验室) 所开源的类 Hadoop MapReduce 的通用并行框架,Spark,拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是——Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

  • Flink 是 Apache 软件基金会开发的开源流处理框架,其核心是用 Java 和 Scala 编写的分布式流数据流引擎。Flink 以数据并行和流水线方式执行任意流数据程序,Flink 的流水线运行时系统可以执行批处理和流处理程序。此外,Flink 的运行时本身也支持迭代算法的执行。

    引用 1   回帖
  • Hadoop 分布式文件系统被设计成适合运行在通用硬件 (commodity hardware) 上的分布式文件系统。HDFS 是一个高度容错性的系统,适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

    引用 5   回帖
  • HBase 是一个分布式的、面向列的开源数据库,就像 Bigtable 利用了 Google 文件系统(File System)所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力 HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是 HBase 基于列的而不是基于行的模式。

    引用 1   回帖

推荐标签

  • os os

    操作系统

    引用 3   回帖
  • 云计算 云计算

    大概念,计算模式

    引用 10   回帖
  • sftp sftp

    sftp 是 SSH File Transfer Protocol 的缩写,安全文件传送协议。可以为传输文件提供一种安全的网络的加密方法。sftp 与 ftp 有着几乎一样的语法和功能。SFTP 为 SSH 的其中一部分,是一种传输档案至 Blogger 伺服器的安全方式。

    引用 3   回帖
  • Jaagool Jaagool

    Jaagool 技术交流社区

    引用 0   回帖
  • laravel路由 laravel路由

    php 开源框架

    引用 1   回帖
  • 算法 算法

    算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。

    引用 1   回帖
  • Gighub Gighub

    GitHub 于 2008 年 4 月 10 日正式上线,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。目前,其注册用户已经超过 350 万,托管版本数量也是非常之多,其中不乏知名开源项目 Ruby on Rails、jQuery、python 等。

    引用 1   回帖
  • socket socket

    在计算机通信领域,socket 被翻译为“套接字”,它是计算机之间进行通信的一种约定或一种方式。通过 socket 这种约定,一台计算机可以接收其他计算机的数据,也可以向其他计算机发送数据
      socket 起源于 Unix,而 Unix/Linux 基本哲学之一就是“一切皆文件”,都可以用“打开 open –> 读写 write/read –> 关闭 close”模式来操作。
      我的理解就是 Socket 就是该模式的一个实现:即 socket 是一种特殊的文件,一些 socket 函数就是对其进行的操作(读 / 写 IO、打开、关闭)。
      Socket() 函数返回一个整型的 Socket 描述符,随后的连接建立、数据传输等操作都是通过该 Socket 实现的。

    引用 1   回帖
  • java初学者 java初学者
    引用 0   回帖
  • java java

    Java 是一门面向对象编程语言,不仅吸收了 C 语言的各种优点,还摒弃了 C 里难以理解的多继承、指针等概念,因此 Java 语言具有功能强大和简单易用两个特征。Java 语言作为静态面向对象编程语言的代表,极好地实现了面向对象理论,允许程序员以优雅的思维方式进行复杂的编程

    引用 80   回帖
  • c c

    B 语言之后的,一门面向过程、抽象化的通用程序设计语言,广泛用于底层。为高级程序设计语言。

    引用 2   回帖
  • nginx nginx

    广泛使用的负载均衡,反向代理的单线程 http 和 https 服务器

    引用 6   回帖
  • Aliyun Aliyun

    阿里云,阿里巴巴集团旗下云计算品牌,全球卓越的云计算技术和服务提供商。创立于 2009 年,在杭州、北京、硅谷等地设有研发中心和运营机构

    引用 3   回帖
  • jni jni

    java 本地方法接口,直接调用 C 或者 C++ 代码

    引用 1   回帖
  • gbase gbase

    国产基于 mysql 的数据库

    引用 70   回帖
  • mysql mysql

    MySQL 是一种关系数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。

    引用 8   回帖
  • Vue.js Vue.js

    Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式 JavaScript 框架。与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用。Vue 的核心库只关注视图层,方便与第三方库或既有项目整合。

    引用 14   回帖
  • composer composer

    php 依赖管理工具

    引用 1   回帖
  • laravel中间件 laravel中间件

    php 开源框架

    引用 1   回帖
  • sql sql

    关系型数据库,数据操作语言

    引用 8   回帖
  • GaussDB GaussDB

    GaussDB200 是企业级的大规模并行处理关系型数据库。GaussDB 200 采用 MPP(Massively Parallel Processing)架构,支持行存储与列存储,提供 PB(Petabyte,2 的 50 次方字节)级别数据量的处理能力。GaussDB 200 在核心技术上跟传统数据库相比有巨大优势,可以解决很多行业用户的数据处理性能问题,可以为超大规模数据管理提供高性价比的通用计算平台,并可用于支撑各类数据仓库系统、BI(Business Intelligence)系统和决策支持系统,统一为上层应用的决策分析等提供服务。

    引用 193   回帖
  • mongodb mongodb

    MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。
    MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。

    引用 6   回帖
  • mongdb安装 mongdb安装
    引用 1   回帖
  • jsp jsp

    JSP(全称 JavaServer Pages)是由 Sun Microsystems 公司主导创建的一种动态网页技术标准。JSP 部署于网络服务器上,可以响应客户端发送的请求,并根据请求内容动态地生成 HTML、XML 或其他格式文档的 Web 网页,然后返回给请求者。

    引用 1   回帖
  • pymysql pymysql

    广泛使用的开源数据库

    引用 1   回帖
  • gbase导出 gbase导出

    国产基于 mysql 的数据库

    引用 1   回帖
  • Node.js Node.js

    Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境。 Node.js 使用了一个事件驱动、非阻塞式 I/O 的模型。
    Node 是一个让 JavaScript 运行在服务端的开发平台,它让 JavaScript 成为与 PHP、Python、Perl、Ruby 等服务端语言平起平坐的脚本语言。

    引用 1   回帖
  • uniapp uniapp

    uni-app 是一个使用 Vue.js 开发所有前端应用的框架,开发者编写一套代码,可发布到 iOS、Android、H5、以及各种小程序(微信 / 支付宝 / 百度 / 头条 /QQ/ 钉钉)等多个平台。

    引用 8   回帖

最新标签