Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是 UC Berkeley AMP lab (加州大学伯克利分校的 AMP 实验室) 所开源的类 Hadoop MapReduce 的通用并行框架,Spark,拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是——Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

  • Flink 是 Apache 软件基金会开发的开源流处理框架,其核心是用 Java 和 Scala 编写的分布式流数据流引擎。Flink 以数据并行和流水线方式执行任意流数据程序,Flink 的流水线运行时系统可以执行批处理和流处理程序。此外,Flink 的运行时本身也支持迭代算法的执行。

    引用 1   回帖
  • Hadoop 分布式文件系统被设计成适合运行在通用硬件 (commodity hardware) 上的分布式文件系统。HDFS 是一个高度容错性的系统,适合部署在廉价的机器上。HDFS 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。

    引用 5   回帖
  • HBase 是一个分布式的、面向列的开源数据库,就像 Bigtable 利用了 Google 文件系统(File System)所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力 HBase 不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是 HBase 基于列的而不是基于行的模式。

    引用 1   回帖

小贴士

  • ✨ 欢迎使用 Jaagool 来搭建自己的社区!

推荐标签

  • laravel中间件 laravel中间件

    php 开源框架

    引用 1   回帖
  • Gighub Gighub

    GitHub 于 2008 年 4 月 10 日正式上线,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。目前,其注册用户已经超过 350 万,托管版本数量也是非常之多,其中不乏知名开源项目 Ruby on Rails、jQuery、python 等。

    引用 1   回帖
  • gauss gauss

    GaussDB 200 是企业级的大规模并行处理关系型数据库。GaussDB 200 采用 MPP(Massively Parallel Processing)架构,支持行存储与列存储,提供 PB(Petabyte,2 的 50 次方字节)级别数据量的处理能力。GaussDB 200 在核心技术上跟传统数据库相比有巨大优势,可以解决很多行业用户的数据处理性能问题,可以为超大规模数据管理提供高性价比的通用计算平台,并可用于支撑各类数据仓库系统、BI(Business Intelligence)系统和决策支持系统,统一为上层应用的决策分析等提供服务。

    引用 3   回帖
  • mongodb指令 mongodb指令
    引用 1   回帖
  • c++ c++

    C 是 C 语言的继承,它既可以进行 C 语言的过程化程序设计,又可以进行以抽象数据类型为特点的基于对象的程序设计,还可以进行以继承和多态为特点的面向对象的程序设计。C 擅长面向对象程序设计的同时,还可以进行基于过程的程序设计,因而 C++ 就适应的问题规模而论,大小由之。

    引用 2   回帖
  • git git

    Git 一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的。

    引用 11   回帖
  • 算法 算法

    算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。

    引用 1   回帖
  • jsp jsp

    JSP(全称 JavaServer Pages)是由 Sun Microsystems 公司主导创建的一种动态网页技术标准。JSP 部署于网络服务器上,可以响应客户端发送的请求,并根据请求内容动态地生成 HTML、XML 或其他格式文档的 Web 网页,然后返回给请求者。

    引用 1   回帖
  • react react

    初音未来,镜音双子演唱歌曲

    引用 3   回帖
  • laravel laravel

    php 开源框架

    引用 4   回帖
  • Aliyun Aliyun

    阿里云,阿里巴巴集团旗下云计算品牌,全球卓越的云计算技术和服务提供商。创立于 2009 年,在杭州、北京、硅谷等地设有研发中心和运营机构

    引用 3   回帖
  • gbs gbs

    华为高斯数据库,客户端命令

    引用 1   回帖
  • android android

    Android 是一种基于 Linux 的自由及开放源代码的操作系统。主要使用于移动设备,如智能手机和平板电脑,由 Google 公司和开放手机联盟领导及开发。

    引用 1   回帖
  • tensorflow tensorflow

    TensorFlow 基于数据流编程(dataflow programming 的符号数学系统,广泛用于各类机器学习算法的编程实现,其前身是谷歌的神经网络算法库 DistBelief。
    Tensorflow 拥有多层级结构,可部署于各类服务器、PC 终端和网页并支持 GPU 和 TPU 高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究。

    引用 3   回帖
  • 高斯数据库 高斯数据库

    华为新数据库产品,企业级的大规模并行处理关系型数据库

    引用 183   回帖
  • mongodb mongodb

    MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。
    MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。

    引用 6   回帖
  • tigase tigase

    开源即时通信工具服务器

    引用 15   回帖
  • Vue.js Vue.js

    Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式 JavaScript 框架。与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用。Vue 的核心库只关注视图层,方便与第三方库或既有项目整合。

    引用 14   回帖
  • freemarker freemarker

    一款模板引擎

    引用 1   回帖
  • maven maven

    Maven 项目对象模型 (POM),可以通过一小段描述信息来管理项目的构建,报告和文档的项目管理工具软件

    引用 2   回帖
  • sql sql

    关系型数据库,数据操作语言

    引用 8   回帖
  • tomcat tomcat

    java 的 web 服务器容器

    引用 1   回帖
  • spring spring

    Spring 是一个开放源代码的设计层面框架,它解决的是业务逻辑层和其他各层的松耦合问题,因此它将面向接口的编程思想贯穿整个系统应用。于 2003 年兴起的轻量级的 Java 开发框架

    引用 14   回帖
  • css css

    层叠样式表 (英文全称:Cascading Style Sheets) 是一种用来表现 HTML(标准通用标记语言的一个应用)或 XML(标准通用标记语言的一个子集)等文件样式的计算机语言。CSS 不仅可以静态地修饰网页,还可以配合各种脚本语言动态地对网页各元素进行格式化。

    引用 12   回帖
  • markdown markdown

    Markdown 是一种可以使用普通文本编辑器编写的标记语言,通过简单的标记语法,它可以使普通文本内容具有一定的格式

    引用 1   回帖
  • 云计算 云计算

    大概念,计算模式

    引用 10   回帖
  • springcloud springcloud

    Spring Cloud 是一系列框架的有序集合。它利用 Spring Boot 的开发便利性巧妙地简化了分布式系统基础设施的开发,如服务发现注册、配置中心、消息总线、负载均衡、断路器、数据监控等,都可以用 Spring Boot 的开发风格做到一键启动和部署。

    引用 4   回帖
  • pip pip

    python 的包管理工具

    引用 3   回帖

最新标签