Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是 UC Berkeley AMP lab (加州大学伯克利分校的 AMP 实验室) 所开源的类 Hadoop MapReduce 的通用并行框架,Spark,拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是——Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

  • Flink 是 Apache 软件基金会开发的开源流处理框架,其核心是用 Java 和 Scala 编写的分布式流数据流引擎。Flink 以数据并行和流水线方式执行任意流数据程序,Flink 的流水线运行时系统可以执行批处理和流处理程序。此外,Flink 的运行时本身也支持迭代算法的执行。

    引用 1   回帖
  • Hadoop 分布式文件系统被设计成适合运行在通用硬件 (commodity hardware) 上的分布式文件系统。HDFS 是一个高度容错性的系统,适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

    引用 5   回帖
  • HBase 是一个分布式的、面向列的开源数据库,就像 Bigtable 利用了 Google 文件系统(File System)所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力 HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是 HBase 基于列的而不是基于行的模式。

    引用 1   回帖

小贴士

推荐标签

  • jpa jpa

    JPA 是 Java Persistence API 的简称,中文名 Java 持久层 API,是 JDK 5.0 注解或 XML 描述对象-关系表的映射关系,并将运行期的实体对象持久化到数据库中。

    引用 5   回帖
  • nginx nginx

    广泛使用的负载均衡,反向代理的单线程 http 和 https 服务器

    引用 6   回帖
  • java初学者 java初学者
    引用 0   回帖
  • laravel中间件 laravel中间件

    php 开源框架

    引用 1   回帖
  • composer composer

    php 依赖管理工具

    引用 1   回帖
  • laravel安装 laravel安装

    php 开源框架

    引用 1   回帖
  • pymysql pymysql

    广泛使用的开源数据库

    引用 1   回帖
  • git git

    Git 一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的。

    引用 11   回帖
  • mongdb安装 mongdb安装
    引用 1   回帖
  • 高斯数据库 高斯数据库

    华为新数据库产品,企业级的大规模并行处理关系型数据库

    引用 183   回帖
  • spark spark

    Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是 UC Berkeley AMP lab (加州大学伯克利分校的 AMP 实验室) 所开源的类 Hadoop MapReduce 的通用并行框架,Spark,拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是——Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。
    Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
    Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
    尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

    引用 1   回帖
  • docker docker

    Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中,然后发布到任何流行的 Linux 或 Windows 机器上,也可以实现虚拟化。

    引用 8   回帖
  • bootstrap bootstrap

    Bootstrap,来自 Twitter,是目前最受欢迎的前端框架。Bootstrap 是基于 HTML、CSS、JAVASCRIPT 的,它简洁灵活,使得 Web 开发更加快捷。

    引用 1   回帖
  • redis redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。

    引用 4   回帖
  • php php

    PHP 即超文本预处理器,一种通用开源脚本语言。是服务器端执行脚本语言,C 类似,常用的网站编程语言。

    引用 25   回帖
  • mysql mysql

    MySQL 是一种关系数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。

    引用 8   回帖
  • google google

    全球最大的搜索引擎

    引用 1   回帖
  • gbs gbs

    华为高斯数据库,客户端命令

    引用 1   回帖
  • tigase tigase

    开源即时通信工具服务器

    引用 15   回帖
  • jvm jvm

    字节码解释执行引擎,解释执行 java,scala,kotlin 语言编译出的字节码

    引用 13   回帖
  • 非关系型数据库 非关系型数据库

    非传统 mysql,oracle 类数据库,hbase,mongodb 类型数据库

    引用 1   回帖
  • springboot springboot

    Spring Boot 是由 Pivotal 团队提供的全新框架,其设计目的是用来简化新 Spring 应用的初始搭建以及开发过程。该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置。

    引用 3   回帖
  • spring spring

    Spring 是一个开放源代码的设计层面框架,它解决的是业务逻辑层和其他各层的松耦合问题,因此它将面向接口的编程思想贯穿整个系统应用。于 2003 年兴起的轻量级的 Java 开发框架

    引用 14   回帖
  • os os

    操作系统

    引用 3   回帖
  • laravel laravel

    php 开源框架

    引用 4   回帖
  • shadowsocks shadowsocks

    Shadowsocks 也被称为酸酸、SS、小飞机、纸飞机, 是目前主流的科学上网工具。

    引用 1   回帖
  • 系统公告 系统公告

    公告栏

    引用 0   回帖
  • pip pip

    python 的包管理工具

    引用 3   回帖

最新标签