全行业通用的分布式大数据AI算法平台
Industry-wide distributed big data AI algorithm platform
成果简介(300-500字)
本项目基于团队在大数据近似计算、绿色计算的技术积累,开发了面向算力网络的跨域多集群分布式大数据智能计算系统平台—“无问东西”。该算法平台突破了MapReduce分布式计算框架的大数据智能计算瓶颈,实现了新型算力网络环境下的大数据分布式计算从“0”到“1”的跨越,能够在跨域多集群的计算场景下,以近似计算方法提供快速计算和数据分析,为全行业提供网页交互式的无代码大数据分析,数据分析能力可达TB级甚至PB级。该算法平台还致力于打造从底层系统到上层应用形成了完整的国产分布式计算体系,其计算效率和大数据扩展能力达到国际领先水平,为研制以算力网络为计算基座的通用人工智能算法平台奠定了理论、技术和应用基础,对人工智能算法在多领域的普及和应用将起到巨大的推动作用。
AI算法平台具有以下特点:
Ø操作简单:采用页面操作进行数据处理、分析和建模,无需写代码。
Ø算法丰富:提供类别丰富的数据处理、特征工程、分类、聚类、关联分析、回归分析等算法,支持不同的数据分析和建模应用。
Ø运行高效:采用自主研发的LOGO分布式计算框架和执行引擎,高效并行地运行智能算法,数据扩展能力达到TB级以上。
Ø算法制定:支持用户上传自研的串行算法,在LOGO 计算框架下进行高效的分布式并行计算。
核心技术:
Ø算力网络下的分布式计算框架
LOGO框架采用"分而治之"的策略,加速庞大数据集的处理和分析。通过将复杂问题分解为更小任务,不仅提高效率,还清晰化解决方案,在数据挖掘和机器学习领域体现明显优势。
Ø算力节点分布式计算引擎
旨在通过分布式算力网络高效地处理和分析大规模数据,显著提升计算性能和资源利用率。
ØGID文件管理系统
部署在物理文件存储系统的上层,以索引文件管理的方式达到“计算跟着数据”走的目的,显著降低跨数据中心的数据传输规模。
Ø算力网络分布式算法库
LOGO算法库为100多种经典算法提供了高效的分布式运行方案,高效无缝处理各种复杂数据集,是挖掘数据潜藏价值的关键。
专利情况
1.一种数据分块方法、装置及终端设备(已授权并转让),201811480718.X,黄哲学;朱胡飞
2.一种数据分块方法、装置及终端设备(公布),PCT/CN2018/119378,黄哲学;朱胡飞
3.大数据随机采样数据子块的划分方法及装置(实审),201810193125.9,黄哲学;何玉林;张晓亮;魏丞昊;朱胡飞
4.大数据随机采样数据子块的划分方法及装置(公布),PCT/CN2018/078509,黄哲学;何玉林;张晓亮;魏丞昊;朱胡飞
5.数据样本划分方法和系统(实审),202210623161.0,罗凯靖,孙旭东,康伟建,龙浩,蔡萌
6.跨数据中心的数据协同处理方法、装置、设备及存储介质(申请中),202310868755.2,张育铭,孙旭东,罗凯靖,赵凌翔,萧畅达,范华华
7.分布式机器学习算法库的封装方法、装置、设备及介质(申请中),202311172017.0,孙旭东、蔡湧达、梁展雄、吴东彤、许竞升、尹鸿铭
市场前景及应用领域
AI算法平台适用于企业、政府、园区和社区等多种应用场景,支持多用户、多任务运行。针对不同规模应用提供定制化计算服务:
Ø大型企业:建立多功能、多用途大数据分析平台
Ø中小型企业:为其小型集群提供大数据分析与处理的能力
该平台能解决的大数据分析问题主要如下:
合作方式:技术转让、许可使用、股权投资、风险投资、合作开发、合作创办企业、面谈
项目单位:深圳大学 计算机与软件学院 大数据所
成果负责人:黄哲学
联系人:技术转化中心
联系方式:26536230