Redission分布式锁源码简析
/
Redission获取分布式锁的源码简析
Redission获取分布式锁的源码简析
操作系统相关的常见知识点总结
网络有关的常见知识点总结
MapReduce介绍
Hdfs介绍
在分布式环境中,数据合理分布是提高性能的关键因素。在SparkSQL的DataFrame API中有一个*repartition()*函数用于控制数据在Spark集群上分布。然而高效地使用这个函数并不容易因为改变数据分布就意味着集群节点间物理数据移动(即Shuffle)的损耗。
Spark相关知识总结
Presto(或 PrestoDB)是一种开源的分布式 SQL 查询引擎,从头开始设计用于针对任何规模的数据进行快速分析查询。它既可支持非关系数据源,例如 Hadoop 分布式文件系统 (HDFS)、Amazon S3、Cassandra、MongoDB 和 HBase,又可支持关系数据源,例如 MySQL、PostgreSQL、Amazon Redshift、Microsoft SQL Server 和 Teradata。
Elasticsearch基于Lucene,Lucene搜索是按segment进行的,每一个segment本身就是一个倒排索引,一个Lucene倒排索引包含segment集合和一个提交点(是一个列出了所有已知segment的文件)。新的文档首先被添加到内存的lucene索引缓存中,然后写入到一个基于磁盘的segment,在一次提交后,一个新的segment被添加到提交点并且清空缓存。