在window环景下对php配制SCWS中文分词工具

本文介绍在windows2003系统下,php版本5.3中配制scws中文分词工具的方法和注意事项,看下面步骤:

php中scws有两种安装方法:

一:用php扩展安装scws。如果是购买云独立服务器,有服务器控制权,建议采用此方式,简单,好用。

二:用php类实现安装。没有服务器控制权限的直接在php代码中实现。


下面详细介绍第一种扩展安装方法:


1、根据你的php版本下载php扩展dll文件。 目前支持php4和php5两种版本,注意php版是nts还是zts,这个可以在phpinfo中查看。

下载地址:http://www.xunsearch.com/scws/download.php。


2、将下载好的dll文件放到php安装目录中的extensions/目录中去(通常为:X:/php/extensions/或 X:/php/ext/)。此时注意复制到ext或extensions目录中的文件权限一定要有iis执行权限,很多同学安装后不能正常运行大多都有这种情况,不知道权限的可以查看其它扩展dll文件的权限,跟着设置一样就可以了。笔者刚开始就是忽略了这点,导至php不能正常加载scws的dll文件。


3、在服务器上创建一个目录。官网上是这样讲的“ 建立一个本地目录放规则集文件和词典文件,建议使用:C:/program files/scws/etc” 。目录也可以放其它地方,如D:/www/xxx。


4、下载scws词典文件,扩展名为 *.xdb。中文分词的时候会用到这个文件。将这个文件放到刚才创建的目录中C:/program files/scws/etc中。xdb文件区分编码,用UTF8编码就下载相对应的dict.utf8.xdb。文件权限设置跟dll文件一样。

http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2


5、下载规则集文件,解压后将 *.ini 放到第 3 步建立的目录中。解压后文件包括rules.ini  rules.utf8.ini rules_cht.utf8.ini三个ini文件将复制到第3步目录中。权限设置一样。

规则集文件压缩包:http://www.xunsearch.com/scws/down/rules.tgz


6、配制php.ini 通常位于 C:/windows/php.ini 或 C:/winnt/php.ini 之类的目录。根据实际安装的php位置找php.ini文件。在php.ini文件的末尾加入以下几行:

[scws]
; 注意请检查 php.ini 中的 extension_dir 的设定值是否正确, 否则请将 extension_dir 设为空,
; 再把 php_scws.dll 指定为绝对路径。
;
extension = php_scws.dll
scws.default.charset = utf8
scws.default.fpath = "c:/program files/scws/etc"

scws.default.charset配制编辑格式utf8或gbk。scws.default.fpath配制路径,路径为第三步建立的目录。


7、重启IIS或服务器,进入phpinfo界面看到如下。

scws中文分词参数


8、写段简单代码测试。

<?php
    $so = scws_new();
    $so->set_charset('utf8');
 $so->set_ignore(true);//分词前去掉标点符号
    $so->send_text("2、seo建站,成成seo为你提供网站建设跟网站优化一条龙服务。");
    while ($tmp = $so->get_result()){
        foreach($tmp as $K=>$val){
            echo $val['word'].'  '.$val['attr']."<br>";
        }
    }
    $so->close();
?>


第二种方法也比较简单,下载PSCWS23的php包 解压后包括pscws类文件和案例,照着案例做来做。

下载地址:http://www.xunsearch.com/scws/down/pscws23-20081221.tar.bz2


猜您喜欢
    0条评论