南京农业大学信息管理学院王东波教授研究团队近日发布的“荀子”古籍大措辞模型,是海内首个专门运用于古籍处理与研究的智能工具,能够实现文本翻译、实体识别、文本择要、文本标注、标点和词法剖析、诗歌天生等任务。
今年,大模型特殊火热。在上个月的天下互联网大会乌镇峰会上,各个企业研发的通用大模型就成为大众的宠儿,展示台前总是排着长队,大家都想体验上一番。有文化遗产保护领域的专家提出,乐意供应干系数据,未来希望能够将大模型和自己研究的垂直领域相结合。
“荀子”便是一种垂直领域的大模型。
王东波先容,目前的通用大措辞模型在办理领域化的问题和详细运用需求上整体性能还不突出,以是须要领域化、场景化的大措辞模型,这也是构建“荀子”大措辞模型的意义和代价之所在。
在王东波看来,开拓古籍大措辞模型是一个很大的工程。他的研究团队基本上涵盖了打算机、信息管理、措辞学、古典文献学和目录学等各个领域的职员,是一个跨学校、跨专业和跨领域的团队。在数据加工、参数调优和场景的运用方面均经由了反复、多次和永劫光的验证、谈论和总结。“在这个过程中最难的还是高质量数据的加工和整理,投入韶光和人力最多,也是最难之处。”他说。
王东波团队从2008年开始打仗古籍,2013年至今一贯专注于人工精标注数据的事情,在大量人工标注的根本上,再让机器学习。团队给“荀子”投喂了40亿字大型稠浊语料数据,包含了《四库全书》在内的诸多古籍文献。但他也坦言,“我们这个模型目前还有很多问题,关键是高质量精加工数据的缺少导致。”
之后,“荀子”古籍大措辞模型也将运用在文化家当方面,比如数字人、游戏、文化旅游。在教诲层面,能够运用在中小学的古籍学习和传授教化、大学生的古籍文化传授等方面。
随着海内大模型的不断发展,对垂直模型的重视也在不断增加,有业内人士指出,这将是百模大战的“后半场”。比如华为发布盘古金融、电力、药物分子三个垂直领域大模型;阿里云宣告与7家企业推动大模型在油气、电力、交通等行业落地;百度正式发布海内首个“家当级”医疗AI大模型灵医大模型;携程集团发布首个旅游行业垂直大模型“携程问道”等。尤其是在金融和医疗领域,垂直大模型已经加速落地。而比起普适性的通用大模型,垂直大模型对专业度的哀求更高,更能针对性地办理行业问题。“在真正的AGI(人工通用智能)未实现之前,垂直领域的大措辞模型仍有其存在的必要和代价。”王东波说。
栏目主编:孔令君 笔墨编辑:孔令君 题图来源:上不雅观题图
来源:作者:刘畅