5月26日,2023“专精特新”企业与资本市场对接交流会在北京举行。天云数据CEO雷涛出席并发表演讲。
雷涛表示,今天已经不是自己去设计基因链路时代了。利用机器学习、专家系统来构建数据驱动逻辑,虽然在这个逻辑之下现在这个市场现在刚刚启动,但是很无情,我们已经看到更强大的强人工智能的起步。但在一年以前还不能思考强人工智能的路径是什么,今天我们已经在百亿参数规模涌现以后,意识到了基于意图理解自主智体。
他指出,在大模型阶段,国内很多选手还在陷入一个数据工程的逆境里对大模型调参,想做这个技术轮子。而Google实验室的一篇论文给了全球一个发令枪,所有的工程团队都开始全力以赴。就在大模型这个轮子出来以后,谁能够做第一个汽车,谁能做第一部高铁,谁能做第一轮船下水,这已经是一个全新的命题。基于向量化的私域的数据迁移,你怎么能保证又准确又深入地回答问题,以及强化学习,还有自主智体还有多模态应用的工程能力。这些能力都开始让大家在大模型上面对一个全新的市场的打开。从数据库到机器学习,专家系统到自主智体,天云数智全家桶,提供企业从IT到DT演进路径的完备工具包。
以下为发言摘录:
大家好,非常荣幸又回到中关村这个平台,记得十年以前我在云基地的时候,我们自己筹办的会后来也被市长定成北京市的大数据日,我们发展起来中关村大数据产业园。我是在2015年离开云基地,现在做ToB业务。
我本人是工程师出身,是全球最早一批流程驱动的骨灰级的程序员,我们是做基础软件的,不是应用。就像流程开发里核心,以前是Java体系。我自己从田溯宁总的云基地开始,到后来创办了自己的企业,基本上以数据驱动。数据驱动洗牌我们自己的逻辑,以前程序员靠着经验和知识编写代码的过程,被算法和技术所替代。之所以走向数据驱动最核心的变化,是我们所面对的数据要素发生了根本性的变化。数据要素从传统系统化的逻辑-面向存储和计算,走向面向互联网的逻辑-面向连接和数据,到今天面向的生成。数据本身从信息的副产品计算完成为一个伴生数据,到产销合一模式,整个系统架构出现了根本性的变化。这个逻辑之下,信息化逻辑里头还可以谈信创,我们去做Oracle替代;但是,互联网的时代,我们发现不是要替代Oracle,而是要面向全新的生产和数据驱动方法,实时的、高并发的业务体系,传统信息架构根本没法运作,这也出现了断代差异,像新锐公司像Databricks、Snowflake,这些amazon和Google的后起之秀,垄断了面向连接的互联网数据驱动模式。这里面有我们的核心技术产品,现在能在市场上打出差异性的基础设施的优势。但我们也看到就像再一个电子管时代提出晶体管时代的时候,我们有一个小骄傲,突然意识到集成电路出现了,也就是面向今天的这些大模型生成式技术。我们在焦虑的同时也比较兴奋,我们是第一批能转型做集成电路的,一会儿可以讲很多的案例,在大模型上的落地,是来自机器学习、特征工程很多的积淀和沉淀,现在已经不仅仅是一个模型,相应的中间层的一些架构、向量库的架构,都是在新型的基础设施PasS层带来的一些价值差异。
不光是生产资料的这些数据要素,其实我们主要面对的是一次生产方式的全面变革。因为我们的IT信息化,这里列的模型Cynefin模型是不确定性模型,不确定性模型是更为复杂解决社会管理经济这些内容,我们传统的信息化的逻辑在不确定性不只是右下角(simple)这个有限空间的确定逻辑,只有唯一解,我们有一个最佳实践,一个流程一个规则我们抽象出来变成ERC系统去指导我们的生产经营、指导我们的开发指导我们的程序员编写代码。实际上我们面临大量的幂律操作,就是像传播里的小概率事件,像生产线上的异常经营,我们金融里面的各种反欺诈、反洗钱的交易异常,这些小概率事件分布在不同的象限,我们有什么样新的数据驱动工具面临不确定性。
天云数据在数据驱动这个线路图上有自己的全家桶,在2010年团队对Hbase,现在在大数据主流上的一个基础设施数据库上有60%的源代码的贡献。我们立足于硅谷的前沿技术能力,开始不断尝试,从做开源到后面的改造到现在的原创,我们已经形成了一个系列的在数据驱动的全家桶。它也分几个阶段,最左边的这个确定型的市场,也就是在传统IT的市场,存量的数据我们怎么去做。大家知道巴菲特投的第一个科技公司最核心的技术就是数据编织技术,改变了我们的很多思路。推传统的信创体系,无论是对Oracle的替代,还是对Oracle分析类场景的全面升级我们有一个系列型的产品,Hubble系列。
第二个阶段是符号主义。符号主意是什么?我们人工智能的初级阶段,还是要打包人类的一些经验和规则,比如长程推理的逻辑结构以及隐含的基于复杂网络结构的推理结构,这块我们有自己相应的知识图谱的生成工具,还有长程推演的专家系统,面向复杂场景。这也是我们在2015年创立到2019年主要的收入来源就是AI的PasS化平台。现在工信部也叫机器学习平台,这块主要是金融客户。我们在这个赛道里面,2015年之初就进入了全美的10大AI赋能平台,所以这个领域是一个窄而深的领域。
今天我们处在混沌阶段,混沌并不是仅仅是面向确定场景,是通过行动和反馈建立机制的。在今天以大模型、意图理解、向量数据库和强化学习和迁移学习为主导的这波自主知识体的能力上,我们在国内率先发布了第一个私域版的模型,私域版比通用大模型更复杂,嫁接了更多中间的技术栈。
我一个一个介绍一下相应的案例成果。信创Oracle的替代,我们是少数在A类核心系统能够对交易的核心系统完整替代,这个项目已经做了5期,大概做了60多个交易,全国3000多个营业提所有的分支机构的交易是跑到我们这个平台上的信创类型的替代。Hubble去年也中标了中行第一名数据库选型。
在存量数据里头,一个崭新的面貌就是数据编制,简单一点说就是TP、AP和HTAP的区别。现在的数据体量越来越大,存量数据已经搬不动了,我们用数据标准已经很难描述数据类型,这种情况下我们在互联网里头不能因为我要看某一个网页把整个网站搬过来,跨组织跨机构的数据连接和机损问题Amazon给出一些答案,我们是国内比较早在数据编织这个领域,比如在中石化还有在商业银行落地的编织概念的,这是对存量的数据资产,大概有14万张表结构的用高维的图数据库来解决。这是银联的一个项目,面向150家的城商行怎么用订阅的方式解决,订阅的方式就是像网盘和QQ音乐的区别,基于setion和token完成数据以流量方式付费,像银联面向150多家的城商行,一家一家去开发API脚本不太现实。
在人工智能的早期,像新的深度学习框架已经洗盘了专家系统这些逻辑规则,就是IBM Watson为主的内容。但我们也发现工业里头有大量的机理模型需要把人类已有的经验封装起来去实施。其实大模型是今年才热起来,同样在早期,其实在2020年大模型已经开始在产业应用。我之前发言的时候,上了一下Hugging Face ,上面transformer 的开源框架的模型,上载数量13万多。在业内其实大模型的使用已经非常工程化,早期的时候跟专家系统跟知识图谱结合得非常多,走Google的标注路径。比如金融里头的国债收益率预测,还有PPN非公开发行还有像招行的政策解读,都是基于大模型加上家系统以及知识图谱完成的,也有几千万的收入。
更复杂的是机器学习的模型,机器学习带来一次比较复杂的人类表达的革命,上面是证监会的一个项目,下面是中石化的项目,把机器人放在一起去谈了。怎么去查杠杆基金,找这些小事件,利用深度学习丰富的表达能力。像很多的规则是很难被人类抽象表述出来的,比如交易规则怎么界定,这里面用了14万个变量,通过时间序列下的不同,只要有资金账户变化不同的元神经网络的描述,我们计算神经网络之间的向量距离来识别交易风格的快速迁移。这个项目作为唯一一家民营企业进入了监管沙盒,其他进入监管沙盒项目的都是中行这些大型的监管机构。
这个是给海油做的。以前金融比较容易进入,因为它原来一直在用机器学习,像SaaS核心就是金融,我们基本上是吃到金融这个市场,走出这3个多亿的存量以后在其他的行业碰到很多认知的挑战,大家更多是用经验和规则去构建业务系统,而很少用机器学习。像海油的项目很典型,它的项目是静态的,解决1100多个物资流在ERP系统的动态数据,怎么去供给到300多个钻井平台?这个其实用一套引擎算法,给海油做了一个海油版的“滴滴打车”,就是用算法来替代局部的算法场景规划回归这些模型,来替代以前我们的经验和规则。
今天已经不是一个我们去设计基因链路时代了,刚才提到利用机器学习、专家系统来构建我们的数据驱动逻辑,虽然在这个逻辑之下现在这个市场现在刚刚启动,但是很无情,我们已经看到更强大的强人工智能的起步。在一年以前还不能思考强人工智能的路径是什么,今天我们在百亿参数规模以后我们看到一次涌现以后,我们也意识到基于意图理解自主智体,现在这个自主智体分几个阶段,在大模型阶段,现在国内很多选手还在陷入一个数据工程的逆境里对大模型调参,想做大模型这个技术的轮子。其实Google实验室那篇论文给了全球一个发令枪,所有的工程团队都开始全力以赴,就在大模型这个轮子出来以后,谁能够做第一个汽车,谁能做第一部高铁,谁能做第一艘轮船下水,这已经是一个全新的命题。基于向量化的私域数据迁移,你怎么能保证又准确又深入回答问题,以及强化学习,还有自主智体还有多模态应用的工程能力。这些能力都开始让我们在大模型上面对一个全新的市场的打开。
我们3月中旬在金融行业的顶级峰会,量化交易和金融资管的会上发布了我们的大模型,这个大模型与ChatGPT对比,很典型的就是引入了向量化,也就是更深更准确能回答像关联交易、异常、配资,而且能准确溯源。基本上在左边ChatGPT回答的情况下,我们能精准回溯到每一个法条和法律,它的数据资源是基于全量的司法解释以及全量的迄今为止的上市公司的公告。私域数据的大模型可以有效完成一个知识的资产化、知识分装、知识移动的过程。
同时基于大模型意图的理解,我们现在已经在两个国家级项目,一个重点的国防实验室,已经投入了相应的动作,一个记忆流,一个任务流,现在任务流的内容已经走向工程落地。
最后介绍一下公司,公司的客单数量不多,基本上都在以股份制银行为主体。整体的收入,19年以前是百分之百金融体系,现在也扩展到能源、电力、三桶油,竞争对手基本上都是全球的巨无霸。
行业,现在在IDC、Forrster、Gartenr这些赛道定位,我们两款主力产品都是在头部,前三或者前五的位置。基于我们AI产品,拿了国家最顶级的吴文俊人工智能技术发明奖,工信部去年的179号文我们和达梦是唯一两个在数据库赛道上入围的公司。
现在在资本路径上,我们去年有4000多万的利润,投资人建议我们以AI原生第一股的形式,争取登录资本市场。目前在AI原生这个概念上,其实大家可以看到大模型在硅谷这边没有以大模型为核心,能够看到端倪的都是在向量数据库上。能快速往前推动一个多质体的基本任务流都是以强化为核心的一套体系。我们能够快速迁移来自于之前在机器学习、特征工程,此外在向量化的内容上,我们在金融里也做了很多内容。一句话总结,组合落地的工程能力以及行业的基础设施的软件开发能力是天云数据最核心的竞争力。
新浪声明:所有会议实录均为现场速记整理,未经演讲者审阅,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。