近期,GitHub上最全中華古詩詞數據庫再次登上熱榜,又火了一把。根據介紹,chinese-poetry最全中華古詩詞數據庫集合了唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人,21050首詞。該項目已經獲得了 22.6k 個「star」以及 4.2k 個「fork」。
GitHub項目:https://github.com/chinese-poetry/chinese-poetry
最全的中華古典文集數據庫,包含5.5萬首唐詩、26萬首宋詩、2.1萬首宋詞和其他古典文集。詩人包括唐宋兩朝近1.4萬古詩人,和兩宋時期1.5千古詞人。數據來源于互聯網。
為什么要做這個倉庫? 項目作者表示,古詩是中華民族乃至全世界的瑰寶,我們應該傳承下去,雖然有古典文集,但大多數人并沒有擁有這些書籍。從某種意義上來說,這些龐大的文集離我們是有一定距離的。而電子版方便拷貝,所以此開源數據庫誕生了。此數據庫通過JSON格式分發,可以讓你很方便的開始你的項目。
古詩采集沒有記錄過程,因為古詩數據龐大,目標網站有限制,采集過程經常中斷超過了一個星期。2017年新加入全宋詞,全宋詞爬取過程及數據分析。
高頻詞分析圖
宋詞受歡迎的詞牌名
宋詞高頻詞
宋詞作者作品榜
唐詩高頻詞
唐詩作者作品榜
宋詩高頻詞
宋詩作者作品榜
數據集
- 全唐詩 json
- 全宋詩 json
- 全宋詞 ci
- 五代·花間集 wudai/huajianji
- 五代·南唐二主詞 wudai/nantan
- 論語 lunyu
- 詩經 shijing
- 幽夢影 youmengying
- 四書五經 sishuwujing
- 蒙學 mengxue