2010年2月28日星期日

網頁設計PHP+MYSQL 簡單實現中文分詞全文索引

網頁設計PHP+MYSQL 簡單實現中文分詞全文索引
發佈者:作者:Web Design香港網頁設計大皇 - 網站設計
Web Design
  相信很多人都研究過MYSQL的中文全文索引問題,目前MYSQL不支持中文全文索引,無奈~~~
  網上找了N多關於PHP+MYSQL中文全文索引的文章都沒有一個好用的,對於一般的菜鳥根本不知道怎麼使用,PHP中文分詞有DDEDE的,DEDE的詞庫不是很強大,還算可以用吧!
  還有一個是《SCWS - 簡易中文分詞系統》這個目前對於一般菜鳥根本不知道怎麼用,雖然有人編譯了Windows版的,但安裝還是挺麻煩的,我尚未測試過!
  //==========================
  廢話不多說了,首先去DEDE下載分詞算法函數和詞庫;下載地址:http://webdesign.zoapcon.comcom/html/chanpinxiazai/20061229/3.html
  裡面有詳細的使用說明,我在這裡舉一個使用的例子;
  MYSQL表名:music
  字段:title,tag
  
  require("lib_splitword_full.php");
  $str = "這裡是你要分詞的內容,一般不要超過1024KB會好一點,否則會很慢!";
  $sp = new SplitWord();//實例化
  $dd = explode(" ",$sp->SplitRMM($str));
  $i=0;
  foreach ($dd as $key=>$var) {
  if (strlen($var)>2)//UTF8編碼的請設置為3,因為UTF8編碼的中文一般為3個字節以上,過濾單個字不保存!
  {
  $str.=base64_encode($var)." ";//由於MYSQL不支持中文全文索引,所以在分詞中我們必須把詞轉換成字母或者數字,這裡我選擇了base64編碼
  //當然大家還可以把中文轉成區碼,但我測試過區碼的方法,感覺很一般,所以在這樣我推薦大家使用base64
  $i++;
  }
  if ($i>=50) break;//這裡是設置你要存儲多少個詞組,如果是文章可能會有N多詞組,你可以設置大一點,但如果你對標題分詞的話,50個已經足夠了!
  //這樣運行未編碼得出來的結果:這裡 分詞 內容 一般 不要 超過 1024KB 一點 否則
  //base64編碼後的結果:1eLA7w== t9a0yg== xNrI3Q== 0ruw4w== srvSqg== s6y5/Q== MTAyNEtC 0ru14w== t/HU8g==
  }
  ?>
  這樣我們就可以把分好詞而且轉換成編碼的分詞存進 tag 字段了,當然tag字段必須設置成全文索引 full text 而且數據表類型必須為MyISAM。
  tag字段數據類型為CHAR和VARCHAR、text,有關如何創建MYSQL全文索引,大家可以搜索一下《mysql創建索引》遍地開花,到處都是!
  下面的例子是根據TAG字段的內容進行全文索引查詢:
  
  include("Mysql.class.php");
  $rs = $DB->get_one("select title,tag from music where id=$id");//根據ID讀取title和tag字段內容
  $title = $rs['title'];
  $sql = $DB->query("select title,MATCH(tag) AGAINST('".trim($rs['tag'])."' IN BOOLEAN MODE) AS score from music where MATCH(tag) AGAINST('".trim($rs['tag'])."' IN BOOLEAN MODE) ORDER BY score DESC limit 21");//這裡是查詢20條相似的內容,而且按相似的排序,21是因為同一條記錄都會匹配出來!
  while ($rs = $DB->fetch_array($sql))
  {
  if ($rs['title']!=$title)
  {
  echo $rs['title']."";
  }
  }
  $DB->close();
  ?>
  如果大家想看效果可以到我的小站看演示:http://webdesign.zoapcon.comcom
  以上的例子就實現了PHP+MYSQL簡單的中文分詞全文索引!
  希望對跟我一樣的菜鳥有一定的幫助吧!
  本人BLOG:http://hi.baidu.com/web20/
 Web Hosting

没有评论:

发表评论