论文
Web搜索引擎日志挖掘研究 

摘要:
搜索引擎日志记录了用户与系统交互的整个过程,不同搜索引擎的日志记录格式略有不同,但一般都包括用户的访问时间、用户的IP地址、输入的查询串、用户所点击的URL、点击的时间以及点击URL的序号等。这些信息通常按某种格式存入磁盘的文件系统中。

对日志文件进行挖掘,可以发现用户进行Web搜索的行为特征与规律并有效的改善搜索引擎系统的性能, 主要包括: 研究用户如何使用Web搜索引擎;研究用户在Web上查找何种内容的信息; 研究群体或单个用户的查询行为特征、规律及其演化趋势; 研究不同地域或不同主题搜索引擎的用户查询行为的异同。

《web搜索引擎日志挖掘研究》就近几年国内外搜索引擎日志挖掘的研究进展进行了系统的分析和总结,具体包括:日志挖掘的内容、数据集的选择、数据预处理的方法、不同地域用户行为的特征与比较、应用于系统性能的改善等内容。

关键词: 搜索引擎;用户日志;Web使用挖掘;用户搜索行为



目录

1.. 引 言
2.. 数据集与数据预处理
2.1 数据集
2.2 特定术语
2.3 数据预处理
3.. 挖掘的主要内容及其结果
3.1 主要统计指标
3.2 不同地域用户查询的特征及比较
3.3 深度挖掘
4.. 应用于搜索引擎系统性能的改善
4.1 提高结果排序的质量
4.2 Cache的替换策略
4.3 发现相关Web查询
5.. 结语与展望
参考文献