《web数据挖掘》读书笔记3


###第二部分:Web挖掘

第六章 信息检索与Web搜索

6.1 信息检索中的基本概念      一个用户查询所需要的信息,应该是一下几种形式之一:

  • 关键字查询:用户使用一组关键词表达所需的信息,目的是查找包含一些或全部关键词的文档。
  • 布尔查询:用户可以使用布尔操作符。
  • 短语查询:这种查询式是包含一些词的一个短语或者句子。
  • 临近查询:查找那些包含查询词,且允许查询词之间相互有其他词的间隔的文档。
  • 全文搜索:当查询是一个完整的文档,用户希望找到其他相似的文档。
  • 自然语言查询:用户通过自然语言来表达自己的想法,然后系统来查找结果。

6.2 信息检索模型

     有四种主要的IR模型:

  • 布尔模型:文档和查询都被表示成一组词,每一个词在文档中出现或不出现表示为0或1,检索完成后,返回满足布尔表达式的文档。
  • 向量空间模型:文档被表示成一个权值向量,每个权值都通过词频表,或者词逆向文档频率表得到。
  • 统计语言模型:首先为每个文档估计一个语言类型,然后基于语言模型根据查询的似然排序。简单来说,就是词频/文档单词数量。
  • 概率模型

6.3 关联性反馈      根据用户的选择,提取附加的关键词重新检索,这个过程不停地反复,直到用户对检索的结果满意。

  • Rocchio算法:
  • 机器学习算法

6.4 评估标准      如何返回用户一个文档与查询的相似度排名。

6.5 文本和网页的预处理      文本预处理

  • 停用词移除:a,about,are,as,be,by,for,from,how,in,is,that,the,to,等。
  • 词干提取:简化单词,直到变成它们的词根或者词干。

     网页的预处理

  • 辨别不同标签
  • 辨别锚文本
  • 移除HTML标签
  • 辨别只要内容块

6.6 倒排索引及其压缩

     最简单的倒排索引就是一张表,包含了每一个不同的词和包含该词的的文档列表。      使用倒排索引搜索:

  1. 搜索词汇表
  2. 结果合并
  3. 计算排名

     索引的建立:使用Trie树(字典树),每一个子节点代表一个词。

6.7 隐式语义索引

     问题的提出:使用关键字的近义词来搜索会影响搜索的准确率      这里介绍了一种叫奇异值分解的统计学方法。

6.8 Web搜索      搜索引擎的工作步骤:

  1. 分解:分析HTML网页
  2. 索引:生成倒排索引
  3. 搜索并排序

第七章 链接分析

7.1 社会关系网分析      两种社会网络分析方法:

  • 中心性:原理:与他人有广泛联系的人,其重要程度要高于那些联系较少的人。
  • 权威性:看成是有向图,用入度计算权威度

7.2 同引分析和引文耦合      同引分析:用来度量两篇文档之间的相似性。如果i和j都被k所引用,则说明i和j有某种联系。      引文耦合:跟同引分析相似,如果i被j和k引用,则j和k也存在某种联系。

7.3 PageRank

  1. 从一个网页指向另一个网页的超链接是一种对目标网站权威的隐含认可。
  2. 一个拥有高权威值的网页指向i比一个拥有低权威值的网页指向i更加重要。

     最主要的优点是防止作弊。另外效率高。

     缺点是:非查询相关的特性。也就是说它不能分辨网页在广泛意义上是权威的还是仅仅在特定的查询话题上是权威的。

7.4 HITS算法(Hypertext Induced Topic Search)      关键思想:一个优秀的中心页必然会指向很多优秀的权威页,一个优秀的权威页必然会被很多优秀的中心页指向。也就是说,权威页和中心页会相互促进。      算法:

  1. 搜索关键字,收集t个排名最高的网页。
  2. 对网页进行分析处理,计算权威分值中心分值

     优点是它根据搜索内容来为网页排名,这样的话搜索结果是更加相关的权威页和中心页。      缺点是反作弊能力不强和效率不高。