其他分享
首页 > 其他分享> > 2021-06-07

2021-06-07

作者:互联网

Zilliz创始人星爵出席2021北京智源大会,谈非结构化数据处理的新CAP理论

“科创”开局之年,AI 群英汇聚智源。

6 月 3 日,由北京智源人工智能研究院主办的 2021 北京智源大会在北京举行,Zilliz 创始人兼 CEO 星爵受邀出席分享开源技术创新进展,与智源研究院理事长张宏江、⾼瓴创投合伙⼈李强、北京科创基⾦投资部执⾏总经理魏凡杰、小冰公司 CEO 李笛等同台共话 AI 创业的机遇与挑战。

(Zilliz 创始人兼 CEO 星爵)

“非结构化数据目前产生的量比结构化数据多几个数量级,如何解决这类数据的处理以及基于此的应用搜索是非常大的问题和场景。” 李强表示,过去几年高瓴深入布局科技基础领域,在云原生的基础设施软件、运维安全等赛道重仓拥有最强技术的企业,去年领投的 Zilliz 4300 万美金 B 轮融资就是当时在开源基础软件领域最大的一笔投资。

(高瓴创投合伙人李强)

星爵在分享中谈到,成立四年来,Zilliz 专注于 AI 数据基础软件的研发和探索,并发现 AI 在数据处理类型(Data Type)、基于语义的数据检索(Semantics)、设计空间(Design Space)等三方面引发了根本性的范式变化。对此,Zilliz 希望重新开发一套数据基础软件,赋能 AI 时代的所有应用。

北京智源大会定位于“AI 内行顶级盛会”,2019 年举办了首届大会,今年为第三届,超过 3 万多名人工智能领域专业人士注册参会。本届大会上,智源研究院还发布了超大规模智能模型“悟道 2.0”,参数规模十倍于 OpenAI 开发的 GPT-3,是目前中国首个、全球最大的万亿级模型。

以下是星爵的主题演讲内容,与各位分享~

When AI Meets Database

AI 正在深刻改变我们的世界,在计算机视觉、自然语言处理、新药研制等方面帮助创造了很多社会价值。今天想跟大家聊聊当 AI 和基础的数据软件在一起碰撞会产生什么机会,也讲一下过去四年我们的行业洞察。

在这里插入图片描述

AI 是计算机科学的子分支,时至今日,AI 又是如何影响计算机科学本身的?AI 有算法、算力、数据三大支柱:在算力领域,将 CPU、DSP、GPU、ASIC、FPGA 等不同制程架构、不同指令集、不同功能的计算单元组合起来的异构计算正在兴起,新的处理器在去年层出不穷;在算法领域,从 CNN 到 RNN,AI 基于大规模深度学习网络创造了很多新的算法和模型;在数据领域,过去几年我们一直专注 AI 数据基础软件方面的研发和探索,发现有三个 AI 引起的范式变化。

在这里插入图片描述

第一个范式转变是数据处理的类型(Data Type)。在 AI 时代到来之前,计算机处理结构化数据,就是人给计算机输入适合计算机语言表述的结构化数据,比如整数。如今,非结构化数据的量远远大于结构化数据,需要 AI 处理自然语言、画像、蛋白质三维结构等非结构化数据。

在这里插入图片描述

第二个范式转变是基于语义的数据检索(Semantics)。左边是结构化的数据,传统结构化数据会用 SQL 定义语义查询。如果我们查询“年龄大于 18 岁”、“工作是工程师”,设置这样的查询语句,在数据库里面他的年龄大于 18,后面检索的时候语义也是由大于 18 岁来定义的,那么最后这个数据的结构跟它的语义是一种对等关系,或者说这是一种直接的语义。非结构化语义背后的图像、自然语言和三维结构,它们的语义其实是浅层的。

在这里插入图片描述

举个例子,图像检索涉及很多图片,图片以比特为单位存在磁盘上,我们检索的时候很多情况下不是寻求图像的完全对等,而是去寻求这里有没有商品、有没有人、有没有地标性的建筑,那么这里相似的人、相似的场景是由我们定义的。

再比如,生物制药中有小分子有三维结构,我们检索的不是一模一样的化合物分子,而是找到对于某一个靶点具有相同的生化和治疗作用的子结构,检索的语义则是对生化活性和治愈的作用。可以看到,深度语义的结构不对等,需要复杂的翻译。

针对语义的范式不同,我们现在还有一种方法,就是把原始非结构化的数据,通过特征学习的方法来提取语义特征向量,以表达深度的语义,并在最后的应用阶段通过各种比对召回的操作,去实现非结构化数据的检索、分析和处理。

在这里插入图片描述

第三个范式转变是设计空间(Design Space)。做数据库或者分布式的同学对 CAP(Consistency - High Availability - Partition Tolerancy)很熟悉,这是传统的分布式,在数据的一致性、高可用性、网络分区的容忍性之间寻求平衡,我们只能取得两个很好的性质保证,几乎不可能兼顾三方面。在非结构化数据的处理中,我们发现了一个新的 CAP 理论(Cost Efficiency - Accuracy - High Performance)。

关于 Cost Efficiency,在人工智能的应用里,处理非结构化数据的量相当大,价值密度相对来说比较稀薄,那么如何在大规模的价值挖掘中寻求成本的有效性和成本优势?关于 Accuracy,如何寻求我们在召回或对比时,人工智能推荐和语义理解的准确性?关于 High Performance,如何在实际部署中支持大规模的超高性能?其实这三个属性也是一个不可能三角,很多场景往往不可能三者兼顾。

举个例子,如果我们想得到准确的召回,不管是图像检索还是视频分析,都能够达到 99% 的召回。用户访问量特别大的情况下,我们可以用异构计算的硬件,用海量的内存、海量的 GPU 甚至神经网络芯片去做加速,从而满足高性能和高准确率的召回需求。由于异构硬件的投入,成本变得很高很高,导致很多企业,特别是互联网企业不太能够接受。

另外一个例子,某些情况下我们可以降低召回的需求、降低它的准确度,在推荐系统、互联网场景里面用了很多。在推荐系统里面,我们要求准确率 80%,这个时候发现可以用一些比较常用的硬件设备,比如通用的 X86 的 CPU 芯片加上常用磁盘,同时可以保证很高的查询吞吐,用合适的成本实现目标。

基于这三个范式变化,我们觉得 AI 时代在数据的规范方面会创造很大的机会。这是 Zilliz 正在做的事情,我们希望重新开发一套数据的基础软件,赋能所有 AI 时代的应用。

在这里插入图片描述

可能大家对我们公司的名字比较好奇,这是我们自己造的单词。我们发现非结构化数据的量特别大,庞大得难以表述,所以我们造了“zilliiz”(zillions of zillions)。

Zilliz 做的是面向非结构化数据和 AI 应用的数据库系统。非结构化数据处理的流程是,先提取它的语义,通过语义做了一个桥梁,从而实现对它的探索和分析。

我们的第一个开源项目是 Milvus,一个完全面向 AI 应用的新型数据库系统,过去 18 个月里在开源社区取得了一些小小的成绩,截至目前在全球被超过一千家的企业级用户使用。

在这里插入图片描述

未来几年,我们希望能进一步通过非结构化数据的处理和分析,来帮助更多企业和行业实现 AI 数据的高效管理和赋能。过去几年里,我们的产品也被各个行业广泛应用,包括电商、互联网、制药、智慧城市等。

Zilliz 的定位是一家全球化企业,目前在上海、杭州、美国、新加坡有自己的团队,接下来还将在北京设立办公室。我们公司崇尚分布式的文化,工作既是开源又是分布式,希望以后打造全球分布式的工作环境和协作团队。目前 Zilliz 正在大量招募人才,欢迎推荐或加入。

在这里插入图片描述

在这里插入图片描述

Github @Milvus-io|CSDN @Zilliz Planet|Bilibili @Zilliz-Planet

Zilliz 以重新定义数据科学为愿景,致力于打造一家全球领先的开源技术创新公司,并通过开源和云原生解决方案为企业解锁非结构化数据的隐藏价值。

Zilliz 构建了 Milvus 向量数据库,以加快下一代数据平台的发展。Milvus 目前是 LF AI & Data 基金会的孵化阶段项目,能够管理大量非结构化数据集。我们的技术在新药发现、计算机视觉、推荐引擎、聊天机器人等方面具有广泛的应用。

标签:结构化,06,07,AI,语义,Zilliz,2021,数据,我们
来源: https://blog.csdn.net/weixin_44839084/article/details/117652520