腾讯云大数据联合团队用时99秒完成100TB数据排序

背景

11月10日,被誉为计算奥运会的Sort全球排名赛公布了2016年的最终结果。腾讯大数据联合团队在不到99秒(98.8秒)内完成了100TB数据的排序。 . 它打破了阿里云去年创下的 329 秒的记录。此前,百度的记录是716秒,记录是4222秒。

在本次比赛中,腾讯云数智分布式计算平台获得了Sort竞赛和比赛的冠军,这也体现了腾讯云数智分布式计算平台在数据处理方面的卓越表现。大赛结果公布后,InfoQ 还对腾讯云大数据联合团队进行了专访,从技术层面汇报了腾讯云数字智能分布式计算平台的实现原理,以及此次大赛的长远意义。比赛结果。

关于腾讯云大数据联合团队

本次大赛腾讯云大数据联合团队由腾讯云存储产品中心和腾讯数据平台部组成。该团队在大数据技术和应用管理方面拥有丰富的实践经验,尤其是腾讯数据平台部一直在管理。腾讯大数据集群是全球最大的大数据集群之一。多年的技术积累,加上团队的不断努力,为整个团队在全球计算奥运会上取得骄人成绩奠定了坚实的基础。

腾讯云数字智能分布式系统软件架构分析

对于腾讯云分布式系统的软件架构,可以包括海量数据的分布式存储、计算任务的切片调度、节点通信的协调同步、数据计算监控、容灾等,以及硬件架构能力,包括服务器硬件选型、网络架构调优、IDC规划建设等角度进行分析。

在硬件和网络方面,分布式系统采用IBM和的100Gb网络技术。机器配置选择如下:

图片[1]-腾讯云大数据联合团队用时99秒完成100TB数据排序-4747i站长资讯

网络架构采用三层架构:

图片[2]-腾讯云大数据联合团队用时99秒完成100TB数据排序-4747i站长资讯

腾讯云大数据服务的实时计算平台,可提供单集群上千单元的大规模实时流计算。数据存储方面,支持多数据备份,拥有万亿级数据存储能力。在任务调度方面,支持百万级任务的毫秒级调用。并且支持自动发现、故障节点自动排除、服务自动迁移、关键节点主从热备、故障秒级切换。

本次比赛的排序分为三个阶段: 、 、 排序:

它与排序阶段并行执行。排序完成后,输出多个排序文件。由于排序文件已经按照 Range 大小进行了排序,所以最终输出的排序文件是全局排序的。

软件算法优化

参加本次比赛,腾讯云在软件方面也做了很多优化。要点如下:

1.本次比赛,腾讯云携两大赛事参赛。比赛是耗时完成100TB数据的排序。主要评价的是系统对大规模数据的处理能力。比赛是 1 分钟排序的次数,主要评价的是系统的效率。

为了在1分钟内完成尽可能多的数据排序,系统任务调度的开销不容忽视,调度效率尤为关键。花在系统上的时间越少,游戏的性能就越好。得益于平台强大的调度能力,团队在1分钟内完成了55.3TB数据的排序,是之前最好记录的5倍。腾讯云的调度系统做了很多优化。在腾讯内部系统上,每天调度2亿次,已经在海量系统上得到验证。

2.最大限度地利用内存存储。在排序过程中,中间数据应该尽可能的存储在内存中。当内存中的数据达到一定的阈值,整个内存空间即将被填满时,就会开始写入磁盘。输入数据并最大限度地利用内存。腾讯云系统具备调度感知能力。当系统有足够的内存时,该环节的计算任务可以完全在内存中计算,而不需要登陆磁盘,大大提高了系统的处理能力。

值得一提的是,腾讯云数智提供强大的数据分析、挖掘和探索能力,多维分析引擎可在数秒内完成亿级数据、上万维度的分析操作。除了数据分析引擎,数智还包括机器学习引擎。内置算法库经过腾讯海量数据训练和运营c 快速排序算法代码,支持图计算、高性能并行计算、深度学习。

如何处理非结构化数据?

本次比赛是对数据进行排序。未来,图像和音频等非结构化数据将激增。腾讯云如何更快、更准确地进行数据清洗,以应对未来的趋势和挑战?

事实上,目前很多企业都面临着无法对采集到的图像和音频进行高效智能处理的问题。为此,腾讯云的解决方案是开放了一系列AI产品,如万象优图、人脸识别、语音识别、智能客服等服务。

优图系列产品可快速完成图像识别、内容识别、人脸检测;智能语音识别服务可高效满足语音识别、语音合成、声纹识别等语音处理需求;微金小云客服通过大数据和深度学习训练,让企业拥有自己专属的AI客服。

Utu的人脸识别准确率高于人工识别。微众银行已将此技术应用于开户流程。在保证安全的前提下,大大提高了开户效率,显着降低了成本。企业和开发者可以有效利用腾讯云开放的腾讯大数据和AI能力,快速分析其存储的非结构化数据,提升核心竞争力。

数字智能在微信中的应用

微信拥有海量数据。众所周知,腾讯云是如何做到每天微信160亿级多维分析场景6秒返回结果的呢?

腾讯每天都面临着海量的多维分析计算需求,使用传统的社区组件已经无法保证分析结果的及时性。因此,腾讯云大数据团队针对交互式海量数据分析需求,自主研发了秒级分析平台。

腾讯云数智实时检索分析,基于搜索引擎技术,将检索与数据分析有机结合,摒弃传统数据分析系统的数据预处理模式,根据用户输入的个性化数据分析需求进行实时计算,让系统更灵活,实现 亿万数据,上万维度,用户可以在平台上进行任意维度组合、任意层级下钻等分析操作,而结果响应只需要在几秒钟内。

上文提到的腾讯云数据智能中的多维分析引擎,采用倒排索引技术结合嵌套列存储技术,解决海量数据的秒级分析问题,提供了一套实时、多维的、大数据分析业务的交互式数据查询、统计和分析系统。提供大数据统计分析的完整解决方案,让万级、千亿级数据下的秒级统计分析成为现实,为用户提供秒级的实时多维数据分析能力在短时间内做出反应。

夺冠的意义和价值

或许很多读者会问,腾讯云打破 2016 年 Sort 的 4 项记录有何意义?对行业企业和开发商有什么价值?

对此,腾讯云副总裁、腾讯数据平台部总经理蒋杰进行了解答。他表示,本次比赛的结果是腾讯在多年海量数据服务经验中不断优化调度系统的最好验证。腾讯云数据智能首次打通了腾讯多年的大数据处理经验,让社会各界享受与腾讯同等水平的大数据处理能力。

对企业而言,在大幅降低人力成本、快速实施大数据平台的同时,享受高稳定性、高性能、高安全性的大数据平台。对于开发者来说,不需要在集群建设、提高社区版本稳定性等问题上投入时间和精力,可以全身心投入到业务层和代码层。

本次大赛的结果是对腾讯多年海量大数据处理能力的认可,也见证了腾讯云在大数据领域的技术积累。那么本次大赛的结果对腾讯云未来的应用和服务会有哪些影响和推广呢?

姜杰表示c 快速排序算法代码,目前大数据处理套件TBDS3.0正式版已经对外发布,大数据工坊也在测试中。可见,数字智能的产品矩阵和能力已经完善。同时,腾讯云大数据中的方略产品线也推出了多款产品,包括用户洞察分析、热力图、位置大数据解决方案、舆情监测等,方略有效整合和保障腾讯的数据资产. 通过腾讯云战略,用户可以直接享受大数据资产所产生的价值。

腾讯云也希望与更多的合作伙伴一起,让腾讯的大数据能力服务于更多的企业,降低大数据的应用门槛,让企业在信息爆发的时代抢占先机,携手共进,能够跨界数字智能,绘图辅助。

腾讯云近期有哪些新动向?腾讯Q3财报刚刚发布云服务评论如何?欢迎扫码关注我们。如果想了解更多98.8秒背后的技术,也欢迎点击“阅读原文”。

图片[3]-腾讯云大数据联合团队用时99秒完成100TB数据排序-4747i站长资讯

文章来源:http://mt.sohu.com/20161121/n473687848.shtml

------本页内容已结束,喜欢请分享------

感谢您的来访,获取更多精彩文章请收藏本站。

© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享