内存大数据查询引擎性能优化研究取得进展

在Spark SQL框架应用中，配置参数优化是常常面临的问题。现有的机器学习优化方法大多时间成本高、无法很好适应所处理的数据量变化。近日，中国科学院深圳先进技术研究院先进计算与数字工程研究所异构智能计算中心提出低时间成本、能够适应输入数据集大小变化的配置自动优化方法LOCAT。该方法由三个核心技术组成。该研究首先设计了query与配置参数敏感性分析技术。

在收集训练样本时，从给定工作负载中识别并删除与配置参数不敏感的query。其次，对于其余的query，LOCAT通过计算相关性系数来识别重要的配置参数，然后应用核主成分分析来降低配置参数搜索维度。最后，LOCAT设计了感知数据集大小的贝叶斯优化来搜索最优配置，以便能根据数据集的大小自动优化性能。

基于TPC-DS、TPC-H与HiBench测试基准的实验表明，分别在8台高性能x86服务器的集群环境与4台高性能ARM服务器的集群环境下，较当前最先进的自动调优解决方案，LOCAT降低优化时间成本达9.7倍，而且获得了高达2.8倍的性能提升。

相关成果以LOCAT: Low-Overhead Online Configuration Auto-Tuning of Spark SQL Applications为题，发表在ACM SIGMOD（数据管理国际会议）2022上。