《九歌》团队开放了诗歌自动天生模型及数据资源,详细包括以下内容:
诗歌数据集:涵盖四行诗数据、诗歌情绪标注数据、韵表等资源。
诗歌天生模型:开源模型包括风格诗歌天生、多关键词诗歌天生。
预演习资源:基于大规模古诗词预演习的模型。
&AI 论文列表:关于诗歌和 AI 交叉领域的论文集。
资源地址:
《九歌》在线系统网址:
诗歌数据集
图1:开源数据集列表
目前已开放四个中文诗歌数据集:
诗歌天生模型
已开源以下诗歌自动天生模型:
基于 的诗歌天生模型。该模型支持多关键词输入,将中国古典诗歌的韵律分解为词级格式,可以更好地掌握天生的诗歌的节奏和韵律,提高诗歌的高下文干系性和关联性。干系论文揭橥在 IJCAI 2018。
基于互信息解耦的无监督风格诗歌天生模型。该模型不须要任何标记数据,可以自动将天生的诗歌分类为用户指定的任意数量的不同风格。干系论文揭橥在 EMNLP 2018 上。
基于对抗因子稠浊的半监督风格诗歌天生模型。该模型利用少量标注数据,通过组合不同的影响成分,创造出多种可控的诗歌风格。干系论文揭橥于 AAAI 2020。
预演习资源 BERT-
BERT模型基于90多万首古诗词演习,能够对任意一首古典诗歌中的任意一句话给出向量表征,可广泛运用于古典诗歌智能检索与推举、风格剖析、情绪打算等诸多下贱任务。
AI论文列表(&A)
整理了一份人工智能与诗歌交叉领域的论文列表。本列表列出了关于诗歌这一文学文体的论文,包括 1. 中国古典诗歌的天生(绝句、宋词等)、2. 中国对联的天生、3. 中国当代诗歌的天生、4. 外国诗歌的天生、5. 多模态诗歌天生、6. 诗歌的自动剖析、7. 诗歌的自动翻译、8. Demo 等。每篇论文都附有下载链接,部分论文还附有作者的公开源代码和数据链接。本列表不断更新,力求为读者供应更全面、最新的该领域研究方法和趋势。
结论
近年来,AI与文艺不断领悟,产生了许多有趣的研究方向,例如自动绘画天生、诗歌天生、音乐天生、小说天生等。这些研究引起了学界和"大众的热烈谈论,在娱乐、教诲和赞助文艺研究方面具有广泛的运用代价。本团队将持续掩护和开放AI+干系资源,以促进NLP和打算人文领域的研究。
开拓团队
讲师:
孙茂松,清华大学打算机系教授。
团队成员:易晓媛、杨成、陈慧敏、郭志鹏、梁建南、胡进一、李文浩等。