对PageRank算法的简单理解

本文首发于知乎(实现为例进行具体展示。

1. 引言PageRank是谷歌的镇店之宝，一种用来对网络中节点的重要性排序的算法。为什么叫“PageRank”呢？一方面这个算法最初是用来对网页重要性进行排序的，另一方面它是Sergey Brin和Lawrence Page提出的。这个名字一语双关，特别好。人们对PageRank进行个各种改动，基于相关算法在推荐、社社会网络分析、自然语言处理等领域推出了很多实用的解决方案，比如用于文本摘要的TextRank算法。PageRank算法是怎么来的呢？怎么计算？

2. 场景我们在生活和生产活动中，经常遇到对网络中节点排序的任务。比如互联网中存在数以亿计的网页，哪些网页比较重要、值得投放医疗广告呢？学术论文在引用和被引用的过程中实现了知识的传递，那么哪些论文是学科发展的关键节点呢？一个由人构成的社会网络中，哪些是“大人物”呢？

我们可以把这些问题用图(graph)来表述一下。如图1-1，是一个有向图，包含了4个节点，以及4条边。边的起点是一个网页、论文或者人，终点指向的是起点所引用的网页、论文或者人。Node1节点引用node0节点，表示前者从后者获取信息、知识、权力或者财富。引用其他节点就是获益；反过来讲，被他人引用就是在传播福报。

问题来了，网络中哪个节点是传播力最强，也就是最重要的呢？

图1-1 一个简单的有向图

3. PageRank的思想PageRank认为，一个节点对系统施加影响的结果，就是与它相连的节点也具有一定的影响力。假如图1-1是一个财富分发网络：Node1向其他节点传递财富，node1接收不能搞传播从node0得到的财富;等等。Node0的影响力，可以用与之相连的node1的影响力来度量。这个套路有点类似“通过看一个人的朋友来分析这个人”。

我们用符号来描述一下PageRank的想法。假设一个节点的影响力值是。Node0节点的影响力就是,类似的，node1的影响力就是。这是PageRank的第一个模块。

看起来很简单的样子，实际上给我们留了一个问题：各个节点的PR值计算是存在依赖的，得先计算出PR(node1)才能计算PR(node0)。也就是说，我们需要首先把所有未被引用的节点的PR值算出来(一般默认是1.0)；然后把以它们为源头、只和源头相连、距离为1的节点的PR值算出来；接着计算距离为2、只和已经具有PR值节点相连的，所有节点的PR值；直到所有的节点都有PR值为止。这个计算方法复杂度比较高，不实用。PageRank算法的第二个模块提供了一个复杂度较低的算法，用来较快地、近似的求出各个节点的PR。

4. 迭代算法及其冷启动PageRank算法为所有的节点设置了一个初始得分(通常是1.0)，然后用前面所述的PR值计算公式更新所有节点的PR值，不断更新，直到PR值收敛。

我们再用符号来表示一下这个操作。用一个向量S来存储每个节点的PR值:

表示初始状态下，各个节点的PR值，下角标表示迭代的轮次；表示第0轮时，1号节点的PR值。假设各个节点的临接矩阵为，那么第一轮迭代的结果是:

第二轮迭代的结果是:

以此类推，我们可以执行这个迭代过程，直到PR值收敛。

一定收敛吗？可以看做一个概率转移矩阵，连续乘以它的结果肯定会收敛。这是可以证明的。

5. 孤立节点的处理互联网这样的图里存在很多孤立节点，即不被其他节点引用的网页。PageRank增加了一个策略，就是为所有的节点设置一个最小得分，使得搜索用户有一定几率检索到这些网页。具体做法是为PR值的计算公式增加一个阻尼系数:

式中，d是一个取值范围为[0,1]的数，物理含义是搜索用户随机看到这个网页的概率，实际作用相当于对PR值做了一个平滑、把非孤立节点的PR值转移给孤立节点一些。

6. 穷人版PageRank算法的Python实现#用于存储图class Graph(): def __init__(self): self.linked_node_map = {}#邻接表， self.PR_map ={}#存储每个节点的入度 #添加节点 def add_node(self, node_id): if node_id not in self.linked_node_map: self.linked_node_map[node_id] = set({}) self.PR_map[node_id] = 0 else: print("这个节点已经存在") #增加一个从Node1指向node2的边。允许添加新节点 def add_link(self, node1, node2): if node1 not in self.linked_node_map: self.add_node(node1) if node2 not in self.linked_node_map: self.add_node(node2) self.linked_node_map[node1].add(node2)#为node1添加一个邻接节点，表示ndoe2引用了node #计算pr def get_PR(self, epoch_num=10, d=0.5):#配置迭代轮数，以及阻尼系数 for i in range(epoch_num): for node in self.PR_map:#遍历每一个节点 self.PR_map[node] = (1-d) + d*sum([self.PR_map[temp_node] for temp_node in self.linked_node_map[node]])#原始版公式 print(self.PR_map) edges = [[1,2], [3,2], [3,5], [1,3], [2,3], [3, 1], [5,1]]#模拟的一个网页链接网络 if __name__ == '__main__': graph = Graph() for edge in edges: graph.add_link(edge[0], edge[1]) graph.get_PR()7. 结语PageRank算法可以被看做一个框架，可以在这个基础上做一些变化，进而解决实际问题。

注意：本文为李鹏宇(知乎个人主页。

你可能想看：

PageRank算法与实践

如果让我们自己去做搜索的话，我们能够想到的是文章和搜索词的相关性，以此来判断这个文章是否是我们想要的，最开始的搜索有的是这样做的，还有的是按照网站的种类做个大的索引表，但是可以索引的关键字有限。互联网...

think，thinkof，thinkabout，thinkover的区别和用法？

think、think of、think about、think over的区别为指代不同、用法不同、侧重点不同，意思用法如下：

getCurrentUser（）。role在DaftMonk / generator-angular-fullstack中未定义

$scope.user.email,password:$scope.user.password;" + Auth.getCurrentUser().role);User.get();会触发一个异步HT...

think of think about与think over的区别？

think of, think about,think over,think for的区别为：含义不同、用法不同、介词不同。Helen，are you thinking of marrying Tom...

曝光（pùguāng）？曝光（bàoguāng）？周杰在《非常静距离》中

刚刚看了"非常静距离"中李静访谈周杰，这个节目似乎有意给周杰一个回应是非传闻的机会，当然媒体有误解的地方解释清楚也是应该，我们并不知道演艺界的真实面目，姑妄听之。究竟应读什么音呢，不知道周杰翻的是什么...

曝光（pùguāng）？曝光（bàoguāng）？看访谈周杰-“非常静距离

阳阳有氧运动健身操直播间阳阳[yáng yáng]什么意思?近义词和反义词是什么?英文翻译是什么...

阳阳[y hm2 ng y hm2 ng][阳阳]基本上是解释1。色彩鲜艳。2。形容温暖如春天。3.健壮的身姿。4.得到自己的脸。阳光与“扬”相通。5.就像自己的样子。阳光与“扬”相通。[阳阳]详细说...

简单的小数加减法的计算法则？

计算小数加法和减法，首先对齐每个数字的小数点，然后根据整数加减法则进行计算，最后将小数点对齐在分数的水平线上。如果计数的小数部分末尾有0，通常应删除0。拓展资料：1.小数是实数的一种特殊形式。将小数点...

为何复仇者联盟的英文是“avengers”而不是“revengers”？

在回答这个问题之前，我们先了解一下复仇者联盟这部电影吧，影片讲述了尼克·弗瑞为了搞定《雷神》中被流放的洛基，四处寻找王者知音，将钢铁侠、美国队长、雷神托尔、绿巨人、黑寡妇和鹰眼这六位超牛的人物聚集在了...

《Hierarchical Text-Conditional Image Generation with CLIP Latents》阅读笔记

模型真的学习到了文本图像特征，基于CLIP的分层文本条件图像生成——使用CLIP训练好的特征，生成类似于CLIP的图像特征：可以实时利用文本信息引导模型生成、编辑各种图像，然后得到输出的文本特征和图像...

《dreadhunger》进不去怎么办dreadhunger进不去怎么办

但是，由于游戏没有提供国内玩家专用的服务器，玩家由于无法连接游戏服务器而往往无法进入游戏，Dread Hunger不能进入的概率是玩家无法连接到服务器造成的；玩家的网络质量不支持与游戏服务器的稳定连接...

PHP communication management system wamp running custom development mysql database html webpage computer software engineering

Modify and delete picturesMessage board：admin Database configuration file data.php2.The development ...

[Kogel.Subscribe.Mssql]SQL Server incremental subscription, database change monitoring

您可以下载安装到Nuget：[Display(Rename=“t_oms_order_detail”)]，[Identity]；[Display(Rename=“trade_id)]；[Nest.Pr...

look over, get over , go over 分别是什么意思

她无法克服她的羞怯心理。She seemed to get over the death of her husband in no time。她好像很快就从失去丈夫的哀伤中恢复过来。He never ...

Google放弃PageRank转为内部使用谷歌PR查询成为历史

PageRank诞生于2000年，以特定算法为网页排序，得分范围0-10，能让用户直观地了解网页的价值等级，但也催生了庞大的SEO地下产业，让很多毫无价值的网页也能得到高分。事实上，Google已经好...

矩阵：如何使用矩阵操作进行 PageRank 计算？

内容选自《程序员的数学基础课》你好，我是黄申。今天我来说说矩阵。矩阵由多个长度相等的向量组成，其中的每列或者每行就是一个向量。从数据结构的角度来看，我们可以把向量看作一维数组，把矩阵看作二维数组。...

生信文章分享！多组学数据、多重网络、PageRank

今天跟大家分享一篇去年发表在Computers in Biology and Medicine期刊上的文章，题目为Network-based prioritization of cancer gene...

图论算法理论、实现及应用数学建模第四章图论 part4.2最短路径问题-Dijkstra算法

文章目录：数学建模第四章图论 part4.2最短路径问题-Dijkstra算法算法有哪些分类图遍历算法之最短路径Dijkstra算法一、数学建模第四章图论 part4.2最短路径问题-Dijkst...

He is coming over at 7. 这里的over 做什么理解？over都有哪些用法？

我们住在一家小书店的楼上。(覆盖)在。。。We spread a carpet over the floor。我们给地板铺上了地毯。一架飞机飞过了房子。(职位等)高于;支配;监督。He never t...

百度权重算法的原理是什么？

算法原理集成学习通过构建并结合多个学习器来完成学习任务，通过将多个学习器结合，常常可以获得比单一学习器显著优越的效果和泛化能力。集成学习中的基学习器可以是同质的，也可以是异质的。随机森林是以决策树为基...

标签: pagerank算法算法 node pr值

分享给朋友：

问答百科

对PageRank算法的简单理解

Copyright © 2024 问答百科网 All Rights Reserved.
蜀ICP备11000655号-9