数据是基础,但如何实现应用才是重头戏
AI发展,尤其是大模型的发展离不开海量数据的累积与深度学习。孙仁诚认为,大模型的基础就是数据,有了数据才能谈到模型开发和算力。
数据,就是大模型进一步发展的先决条件。
青岛在数据开发利用方面,可谓“数满质高”——数据体量大、质量高,并在数据资源化、数据资产化、数据产业化等方面走在了全国的前列。
6月13日,在青岛市数据要素供需对接会上,青岛市大数据发展管理局局长张艳介绍,当前,青岛公共数据开发利用的资源池已汇聚高点视频、物联感知等高质量公共数据总量3180TB,包括1.3万个可共享数据集;自1998年以来的全市电子文件信息10.3亿件;电子病历、健康档案等高质量健康医疗数据41亿条;机场、地铁、港口、公路等交通运输数据资源2160亿条。

青岛市大数据发展管理局副局长王朝静告诉记者,2022年青岛市就开始了公共数据运营试点工作,开发了一定数量的公共数据运营场景,在交通、教育、医疗、海洋都有了一些应用场景典型案例。例如,青岛市在全国率先成立数据资产登记评价中心。随着数据要素资源的不断集聚,青岛在本次数据要素供需对接会首次提出“以数招商”的概念,对公共数据资源、社会数据资源进行统一的摸底,与全国的数商企业进行合作,共同打造更优质的大模型应用产品。
王朝静表示,下一步,青岛市大数据发展管理局将统筹全市数据资源,推动公共数据和社会数据按需汇聚有序供给,探索企业数据资产化新路径和交易运作的新机制,鼓励企业开展数据采集、清洗、标注、质检等业务,构建大数据产品供应和交易服务市场。
2024年年初,国家数据局等17部门联合印发的《“数据要素x”三年行动计划(2024—2026年)》进一步明确“建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练”。通过数据要素建设推动人工智能大模型发展,可以有效突破人工智能研发,特别是大模型研发所面临的数据瓶颈,进一步发挥大模型汇集和处理世界知识数据的能力,从而创造更大的生产力,助力中国从数据经济走向智能经济新发展模式。
青岛在数据开放上的魄力和进度,以及在挖掘数据要素价值方面的创新机制,为企业挖掘数据应用场景、开展深层次合作提供了广阔的市场空间。
优势:产业与算力
数据是基础,但如何实现应用才是重头戏。
“对于大模型,我们不能只把自己看作使用者。特别从青岛市的层面讲,还是要思考如何深入其中,创造一些展现青岛优势的大模型产品。”孙仁诚表示,目前市场上较为知名的大模型产品,基本是以ChatGPT、通义千问、文心一言为代表的基础大模型或者通用大模型。“这些产品最大的特点就是背后拥有海量的数据,能服务于各行各业,如果仅从‘通用’角度出发,青岛显然是不具备竞争力的。”
那么青岛发展大模型的优势在何处?在孙仁诚看来,一是产业,二是算力。
“大模型要真正产生价值,最后一定要和企业、行业背后的数据紧密结合,就像使用搜索引擎一样,搜索出的结果本身价值有限,但将它们应用到具体的场景后,这些结果才能说有了价值。”孙仁诚说道。
青岛的产业优势不言而喻,海尔、海信、青岛啤酒这些行业巨头的存在,让青岛在制造业赛道上脱颖而出。也得益于这种制造优势,青岛的大模型机遇就体现在“产业大模型”身上。
“产业大模型其实就是在基础大模型、通用大模型的基础上,利用它们的数据,更加精准、垂直地应用在特定领域,为领域内相关的企业提供服务。”鲸准数据院负责人张文政告诉记者。
以海尔集团旗下海创汇平台推出的“鲸准小鲸AI”为例,该产品专注于投融资领域,致力于为用户提供高效、准确、个性化的投融资咨询服务。在这个创投大模型背后,是海创汇积累的超106万家创业企业、5万余位认证投资人、200多家高校科研机构以及超过10万家服务机构,这些资源形成了鲸准独有的创业大数据、项目大数据、投资人大数据和行业大数据的数据库,能够精准地服务创业者、投资人、行业分析师以及投资机构等创投领域的相关用户。
“我们之所以可以打造产业大模型,归根结底是因为拥有海尔这样的行业领军企业,足够了解市场,也拥有足够的体量。”张文政将海尔、海信、青啤这些企业比作圆心,在它们的“圈子”里有数以万计的攸关方,而“圆心”们打造的大模型产品几乎具备一呼百应的能力,谁与之相关,谁就能获得精准的大模型赋能。
聚焦算力,青岛同样有深厚的积淀。
