{ BigData }

  • Spark重新分区Repartition

    /

    在分布式环境中,数据合理分布是提高性能的关键因素。在SparkSQL的DataFrame API中有一个*repartition()*函数用于控制数据在Spark集群上分布。然而高效地使用这个函数并不容易因为改变数据分布就意味着集群节点间物理数据移动(即Shuffle)的损耗。

  • Presto介绍

    /

    转载

    什么是Presto

    Presto(或 PrestoDB)是一种开源的分布式 SQL 查询引擎,从头开始设计用于针对任何规模的数据进行快速分析查询。它既可支持非关系数据源,例如 Hadoop 分布式文件系统 (HDFS)、Amazon S3、Cassandra、MongoDB 和 HBase,又可支持关系数据源,例如 MySQL、PostgreSQL、Amazon Redshift、Microsoft SQL Server 和 Teradata。

  • Elasticsearch近实时搜索与Translog

    /

    Elasticsearch基于Lucene,Lucene搜索是按segment进行的,每一个segment本身就是一个倒排索引,一个Lucene倒排索引包含segment集合和一个提交点(是一个列出了所有已知segment的文件)。新的文档首先被添加到内存的lucene索引缓存中,然后写入到一个基于磁盘的segment,在一次提交后,一个新的segment被添加到提交点并且清空缓存。

  • Elasticsearch基于仲裁的选举策略

    /

    选举主节点和改变集群状态是两个最根本的任务因为所有正常的主节点必须一起正常工作。即使在某些节点挂了时维持这些工作的稳定是非常重要的。ES通过考虑每个动作都收到仲裁节点成功的响应来实现健壮性,仲裁节点是集群中可用主节点的子集。使用一个子集响应的优点是,即使某些节点挂了也不会阻止集群继续执行任务。仲裁节点需要谨慎选取以防集群脑裂,就是说集群被分成了两部分并且每一部分可能做出一些与另一部分不一致的决定。

  • 什么是Hive

    /

    Hive到底是什么?它的存在是为了解决什么问题?Hive有什么优缺点?它与传统数据库之间有什么关系?Hive在大数据分析中扮演着什么角色?Let’s explore Hive together.