2.2. 数据库维护

2.2.1. 配置文件: aspseek.conf
2.2.2. 用 index 程序定期更新搜索引擎数据库

index 程序完成的功能包括网站爬虫、网页下载、解析、数据库维护。

2.2.1. 配置文件: aspseek.conf

aspseek.conf 是 index 程序的配置文件,告诉 index 程序为哪个网址建立索引,如果建立索引等等。

Include db.conf 1
UtfStorage yes 2
Include ucharset.conf  3
Period 1d 4
Server	URL 5
1

包含 db.conf 配置文件,设置连接 MySQL 数据库的用户名、口令等。例如:DBAddr mysql://aspseek12:PASSWOR-IS-HERE@localhost/aspseek12/

4

设定网页重建索引的间隔,作用域到下一个 Period 命令或者文件结尾。对作用域内的 Server 指定的网站有效,因此可以对不同的网站设置不同的更新频率

2

以 UTF-8 格式存储 MySQL 数据库中信息

3

配置字符集。若需要能够对中文进行检索,需要打开 CharsetTableU2 和 Dictionary2 的配置

5

最重要的设置。告诉 index 为哪些网站建立索引,可通过多个 Server 配置设置多个服务器。注意:如果在URL中包含路径并不能将索引限制在该目录下,仍然会对整个网站建立索引。如果想限制某些路径,使用 Disallow 配置,例如下面的配置将对网站的索引限制在 url: http://members.aol.com/midlandsda 下。

Server http://www.aol.com/ 
Allow ^http://members.aol.com/midlandsda 
Disallow ^http://www.aol.com/ 

2.2.2. 用 index 程序定期更新搜索引擎数据库

  • index -a

    为所有网页重新建立索引。不使用该参数,则参考配置中的 Period 参数,只对早于这个时间的网页重建索引。

  • index -S

    显示数据库的统计信息

  • 通过 crontab 设置定时启动 index 重建检索

    0 0 * * * su -c '/usr/local/aspseek/sbin/index' aspseek 
    
[注意]

注意要以 aspseek 用户身份执行。