国产片侵犯亲女视频播放_亚洲精品二区_在线免费国产视频_欧美精品一区二区三区在线_少妇久久久_在线观看av不卡

服務器之家:專注于服務器技術及軟件下載分享
分類導航

PHP教程|ASP.NET教程|Java教程|ASP教程|編程技術|正則表達式|C/C++|IOS|C#|Swift|Android|VB|R語言|JavaScript|易語言|vb.net|

服務器之家 - 編程語言 - PHP教程 - php實現自動獲取生成文章主題關鍵詞功能的深入分析

php實現自動獲取生成文章主題關鍵詞功能的深入分析

2020-03-28 12:46PHP教程網 PHP教程

本篇文章是對php實現自動獲取生成文章主題關鍵詞功能進行了詳細的分析介紹,需要的朋友參考下

以前寫程序一直在逃避這個問題,tag什么的都是要求使用程序的人自行輸入,對于某些懶人及為了程序的體驗,則是希望可以有自動生成文章關鍵詞,自動獲取文章tag的類似功能,這次為了迎接新的項目,所以搗鼓了一晚上,研究了一下這個功能。

要實現自動獲取關鍵詞的功能,大概可以分成三步 1,通過分詞算法將標題和內容分別進行分割,提取出關鍵詞和頻度。

當前主要的兩個算法是中科院的ICTCLAS和隱馬爾可夫模型。但這兩個都太高端,有一定的門檻,且都是只支持C++/JAVA。基于PHP的當前有兩個是值得推薦的PSCWS和HTTPCWS。 SCWS于2008-03-08發布1.0.0 正式版,到現在最新版本已經到了1.0.4。PSCWS是它的PHP版。而HTTPCWS是張宴開發的,之前叫PHPCWS。PHPCWS 先使用“ICTCLAS 3.0 共享版中文分詞算法”的API進行初次分詞處理,再使用自行編寫的“逆向最大匹配算法”對分詞和進行詞語合并處理,并增加標點符號過濾功能,得出分詞結果。不過很遺憾目前僅支持Linux系統,尚未移植到win平臺上。

2,將提取結果與現有詞庫進行比較,處理,去除無用的詞得到最符合規則的關鍵詞。

這里主要就是要看詞庫了,我們可以自己定義詞庫,也可以使用現有的成熟詞庫。比如新浪和網易博客都有這個功能,。他們分詞應該有不錯的詞庫,因為他們都是大網站,而我呢,區區一個小程序員,不可能搞到什么權威的詞庫,所以只能從現有的開源程序上入手,看看他們的詞庫。

3,在處理后的提取結果中選擇適當的作為最終的關鍵詞,得到最符合當前內容的關鍵詞

,在這個階段就是具體情況具體分析了,無論如何也不可能達到人的那種智能化。最多是。當前PHP類CMS都自有自己的提取關鍵詞系統。

目前在網絡上流傳最廣的是DEDECMS的分詞源碼,我做了測試,發現相當的呆,效果很不好。它先設置一個關鍵詞長度,確定獲取關鍵詞的數量,然后取詞,它認為標題分好的詞就是所需關鍵詞,在加上從正文中讀取關鍵詞只到達到這個所設置的長度,就是最終關鍵詞了。另外類似“我們”等無意義的詞也沒有去除掉提取并被列為關鍵詞的頻率太高,甚至有時候還會把空格的HTML提出來做為關鍵詞,亟待改進。不過如果作為輔助功能,它已經很好了。而discuz的稍微好一些,但是discuz并沒有提供源碼,只是提供了一個在線api。

而dede的分詞也有好幾個版本,最好的應該是最新版的吧,出現頻率什么都有了,下面就以dede5.7的分詞和discuz的api的結果對比下

測試例子:

$title="THINKPHP官方即將停止對2.0版本的支持";

$body="了更好地做好ThinkPHP框架的開發、維護和支持工作,官方宣布從2012年5月1日起s對2.0及之前版本的維護和支持,為了節能低碳考慮,同時也取消官網的相應版本和文檔下載。

就此緬懷那些年,曾經一起開發的ThinkPHP版本吧!

關于ThinkPHP 2.0版本

ThinkPHP誕生于2006年,致力于WEB應用的快速開發,其2.0版本發布于2009年10月1日 ,在之前的1.*版本上完成新的重構和飛躍,當時是一次劃時代的版本,為新版奠定了基礎,同時也積累了較多的用戶群和網站,隨著框架的快速更新,和新版2.1、2.2和3.0版本的陸續發布,預示著ThinkPHP的3.0時代到來了,2.0的生命周期宣告結束。但基本上2.0的很多功能都延續或者完善到2.1版本中了,從2.0版本升級到2.1和2.2版本也相對輕松。2.2版本是2.*版本的最終版本,不再更新功能,僅做BUG修復。";

一、dede分詞

將結果排序后如下

標題Array (

[THINKPHP] => 1

[官方] => 1

[即將] => 1

[停止] => 1

[對] => 1

[2.0] => 1

[版本] => 1

[的] => 1

[支持] => 1

)

內容Array (

[版本] => 12

[的] => 12

[和] => 8

[ThinkPHP] => 5

[2.0] => 5

[也] => 3

[2.2] => 3

[2.1] => 3

[開發] => 3

[3.0] => 2

[是] => 2

[快速] => 2

[到] => 2

[發布] => 2

[維護] => 2

[之前] => 2

[了] => 2

[新版] => 2

[支持] => 2

[框架] => 2

[同時] => 2

[從] => 2

對此如何取出最終的需要的關鍵詞呢? 初步思路是先去除“的”,“些”這些詞,再按照內容的排序順序,依次看分到是否出現在標題中出現即為所需的,這樣可以取出一定量的詞最為最終關鍵詞。如上結果我們可以得到

版本 thinkphp 2.0 支持 停止

五個關鍵詞。看起來結果還是可以接受的。

二、在來看discuz的,利用api得到的是一個xml文檔,解析后得到的關鍵詞是

的、快速、版本升級、開發、用戶

五個詞,第一個是“的”......

對比這兩種方式發現第一種dede+后續處理的較為接近文檔的內容,應該是稍好一些,而discuz的偏離了文章的主題,但是其取到詞有一定的熱門性

延伸 · 閱讀

精彩推薦
Weibo Article 1 Weibo Article 2 Weibo Article 3 Weibo Article 4 Weibo Article 5 Weibo Article 6 Weibo Article 7 Weibo Article 8 Weibo Article 9 Weibo Article 10 Weibo Article 11 Weibo Article 12 Weibo Article 13 Weibo Article 14 Weibo Article 15 Weibo Article 16 Weibo Article 17 Weibo Article 18 Weibo Article 19 Weibo Article 20 Weibo Article 21 Weibo Article 22 Weibo Article 23 Weibo Article 24 Weibo Article 25
主站蜘蛛池模板: 欧美 亚洲 一区 | 免费黄色av| 中文字幕av一区二区三区免费看 | 精品欧美一区二区三区久久久 | 亚洲国产精品激情在线观看 | 亚洲精品视频网 | 日韩欧美在线播放 | 亚洲三级网站 | 精品久久一区二区三区 | 色婷婷国产精品免费网站 | 国产羞羞视频免费在线观看 | 日韩精品在线一区 | 亚洲精品乱码久久久久久金桔影视 | 欧美三级在线播放 | 中文字幕精品一区二区精品绿巨人 | 在线播放高清视频www | 日韩一区二区三区视频 | 成人a视频在线观看 | 亚洲福利片 | 午夜天堂 | 日本不卡免费一区二区三区综合久久 | 欧美午夜精品久久久久久浪潮 | 久久久久亚洲精品 | 日韩成人一区 | 国产黄| 国产精品一卡二卡 | 国产日韩欧美一区 | 国产视频在线播放 | 免费观看黄色 | 亚洲精品一区二区三区 | 91人人爽人人爽人人精88v | 日本免费在线 | 激情欧美一区二区三区中文字幕 | 精品一二三四区 | 精品国产青草久久久久福利 | 性色国产| 午夜激情影院 | 免费色在线| 午夜精品在线 | av在线免费播放 | 成人av入口 |