今天我很高兴地宣布ClickHouse Inc.是 ClickHouse 的新家。开发团队从 Yandex 搬到了 ClickHouse Inc.,以继续构建最快(也是最好的)分析数据库管理系统。该公司已获得近 5000 万美元的 A 轮融资,由 Index Ventures 和 Benchmark 领投,Yandex NV 和其他公司参与。我与两位联合创始人Yury Izrailevsky和Aaron Katz一起创建了 ClickHouse, Inc .。我将继续作为首席技术官 (CTO) 领导 ClickHouse 的发展,Yury 将负责产品和工程,Aaron 将担任首席执行官。
ClickHouse 的历史
我十多年前开始开发 ClickHouse,这从来都不是一件容易的事。当我在 Yandex 担任实时网络分析系统的开发人员时,我萌生了 ClickHouse 的想法。我和我的团队面临着多个数据处理挑战,这些挑战通常需要自定义数据结构和复杂的算法、创造性的解决方案和权衡、对领域、硬件和数学的深入理解。这些年来,我上床睡觉时常常想着如何解决另一个数据处理挑战。我喜欢在极端限制下进行数据和处理,您必须考虑字节和纳秒以节省 PB 和秒。ClickHouse 团队分享这种热情:在我看来,这是 ClickHouse 成功的主要原因。
2009 年,我们启动了 ClickHouse 作为一个实验项目,以检查从非聚合数据实时生成分析报告是否可行,这些数据也是实时添加的。证明这个假设用了三年时间,2012 年 ClickHouse 首次投入生产。与之前使用的自定义数据结构不同,ClickHouse 更普遍地适用于作为数据库管理系统工作。几年后,我发现我公司的大多数部门都在使用 ClickHouse,这让我想知道:也许 ClickHouse 太好了,不能只在 Yandex 内部运行?然后我们在 2016 年开源发布了它。
开源中的 ClickHouse
让 ClickHouse 开源也不是一个容易的决定,但现在我明白了:开源很难,但它是一个巨大的胜利。虽然维护流行的开源产品需要付出巨大的努力和责任,但对我们来说,收益大于所有成本。自我们发布 ClickHouse 以来,它已在全球数千家公司的生产中部署,用于从农业到自动驾驶汽车的广泛用例。2019 年,我们有超过三分之一的时间在国外组织各种 ClickHouse 活动并在外部会议上发言,一旦旅行限制变得不那么严格,我们很高兴再次见到大家。我们社区的反馈和贡献是无价的,我们提高了实施质量、功能完整性、并在我们社区的帮助下做出产品决策。我们的主要重点之一是通过使源代码易于阅读和理解,以及易于遵循的流程,使 ClickHouse 对贡献者的欢迎。对我来说,ClickHouse 是一个展示,让每个人都可以学习数据处理中的想法。
我喜欢将 ClickHouse 作为软件工程中许多问题的答案。哪个更好:矢量化或 JIT 编译?看看 ClickHouse;它同时使用两者。如何以安全的方式用现代 C++ 编写代码?好的,看看 ClickHouse 中的测试基础设施。如何优化 memcpy 功能?在自定义时区中将 Unix 时间戳转换为日期的最快方法是什么?我可以就这些主题进行数小时的讨论,而且由于开源,每个人都可以阅读代码、运行 ClickHouse 并验证我们的声明。
技术优势
ClickHouse 最显着的优势在于其极高的查询处理速度和数据存储效率。ClickHouse 的性能有何独特之处?很难回答,因为没有单一的“灵丹妙药”。主要优势是关注最极端生产工作负载的细节。我们从实际需要开发 ClickHouse。它的创建是为了解决 Metrica 的需求,Metrica 是 最广泛使用的一种世界上的网络分析服务。因此,ClickHouse 能够处理 100 多 PB 的数据,每天插入的记录超过 1000 亿条。早期采用者之一 Cloudflare 使用 ClickHouse 以每秒 10 多万条记录处理互联网上所有 的开发人员,如果有性能改进的空间,我们不会考虑已解决的任务。
查询处理性能不仅仅与速度有关。它开辟了新的可能性。在上一代数据仓库中,没有预聚合就无法运行交互式查询;或者您无法在提供交互式查询时实时插入新数据;或者您不能只存储所有数据。使用 ClickHouse,您可以根据需要保留所有记录,并跨数据进行交互式实时报告。在使用 ClickHouse 之前,很难想象分析数据处理可以如此简单高效:不需要十几个预聚合和分层服务(例如 Druid),不需要在 RAM 中放置大量数据(例如 Elastic ),并且无需维护每日/每小时/每分钟的表(例如 Hadoop、Spark)。
大多数其他数据库管理系统甚至不允许基准测试(通过臭名昭著的“DeWitt 条款”)。但我们不害怕基准;我们收集它们。ClickHouse 文档包含指向来自不同领域的、大小高达数 TB 的公开可用数据集的链接。我们鼓励您尝试 ClickHouse,对您的工作负载进行一些实验,并比其他人更快地找到 ClickHouse。如果没有,我们鼓励您发布基准测试,我们将使 ClickHouse 变得更好!
最后,ClickHouse 从一开始就是专门为:
— 易于安装和使用。它在任何地方运行,从您的笔记本电脑到云端 — 高度可靠,可纵向和横向扩展 — 为 SQL 提供许多实用且方便的扩展 — 与外部数据源和流集成
来自 Yandex 的 ClickHouse 分拆
Yandex NV 是欧洲最大的互联网公司,拥有超过 14,000 名员工。他们开发搜索、广告和电子商务服务、乘坐技术和食品技术解决方案、自动驾驶汽车……以及拥有 15 名工程师的 ClickHouse。很难相信我们在利用全球社区的同时,以如此小的团队成功地构建了世界一流的领先分析 DBMS。虽然这几乎不足以跟上开源产品的发展,但每个人都明白 ClickHouse 技术的潜力远远超过这样一个小团队。
我们决定整合资源:以核心的ClickHouse开发者团队,引进Aaron Katz领导的世界级业务团队和Yury Izrailevsky领导的云工程团队,保持开源的力量,加上领先的投资风险投资,并使一家国际公司 100% 专注于 ClickHouse。我很高兴地宣布 ClickHouse, Inc.
下一步是什么?
公司喜欢 ClickHouse,因为它极大地提高了数据处理效率。但它主要是关于核心技术,即数据库服务器本身。我们想让 ClickHouse 适合各种公司和企业,而不仅仅是精通技术、擅长管理集群的互联网公司。我们希望降低学习曲线,使 ClickHouse 符合企业标准,使 ClickHouse 服务以无服务器方式在云中立即可用,使自动扩展变得容易,等等。
我们的使命是使 ClickHouse 成为分析数据库管理系统的首选。每当您考虑数据分析时,ClickHouse 都应该是显而易见的首选解决方案。我看到有多少公司已经从 ClickHouse 中受益,我非常渴望让它在世界范围内更加广泛和普遍接受。现在我们拥有最优秀的工程师和最优秀的企业家,我们已经为使命做好了准备。
2021-09-20,阿列克谢·米洛维多夫