这个名为“chinese-poetry”、号称“最全中文诗歌古典文集数据库”的项目,今日登顶GitHub热榜第一。
截止发稿,这一项目已得到近2.5万标星,Fork超过4600,受欢迎度可见一斑。
项目发起者名为Jackey,在Teambition从事运维自动化事情。他阐明了为什么要做这个仓库:
从某种意义上来说,这些弘大的文集离我们是有一定间隔的。而电子版方便拷贝,以是此开源数据库出身了。此数据库通过 JSON 格式分发,可以让你很方便的开始你的项目。
10大数据集全体项目最核心的内容,便是数据集了。
目前,仓库中一共有10个数据集,分别是:全唐诗、全宋诗、全宋词、五代·花间集、五代·南唐二主词、论语、诗经、幽梦影、四书五经、蒙学。
这些数据,都来自互联网。如何采集的?项目发起者也分享了全宋词爬取过程及数据剖析。
为什么没有古诗?他也给出理解释,古诗采集没有记录过程,由于古诗数据弘大,目标网站有限定,采集过程常常中断超过了一个星期。
环绕着数据库,他也进行了一个初步的词频剖析:
但这些数据集的运用,远远不止于此。
8大案例展示在项目中,作者也放上了利用数据集的运用案例。
有基于浏览器的诗词网站,有安卓版的运用“离线全唐诗”,有简体唐诗天生(char-RNN),也诗词桌面和干系小程序等等。
而且这些项目,也大都在GitHub上开源了。
如果你有兴趣,可以收好传送门:
https://github.com/chinese-poetry/chinese-poetry
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一韶光获知前沿科技动态