矩阵：如何使用矩阵操作进行 PageRank 计算？

内容选自《程序员的数学基础课》

你好，我是黄申。今天我来说说矩阵。

矩阵由多个长度相等的向量组成，其中的每列或者每行就是一个向量。从数据结构的角度来看，我们可以把向量看作一维数组，把矩阵看作二维数组。

具有了二维数组的特性，矩阵就可以表达二元关系了，例如图中结点的邻接关系，或者是用户对物品的评分关系。而通过矩阵上的各种运算操作，我们就可以挖掘这些二元关系，在不同的应用场景下达到不同的目的。今天我就从图的邻接矩阵出发，展示如何使用矩阵计算来实现 PageRank 算法。

回顾 PageRank 链接分析算法在讲马尔科夫模型的时候，我已经介绍了 PageRank 链接分析算法。所以，在展示这个算法和矩阵操作的关系之前，我们快速回顾一下它的核心思想。

PageRank 是基于马尔科夫链的。它假设了一个“随机冲浪者”模型，冲浪者从某张网页出发，根据 Web 图中的链接关系随机访问。在每个步骤中，冲浪者都会从当前网页的链出网页中，随机选取一张作为下一步访问的目标。此外，PageRank 还引入了随机的跳转操作，这意味着冲浪者不是按 Web 图的拓扑结构走下去，只是随机挑选了一张网页进行跳转。

基于之前的假设，PageRank 的公式定义如下：

其中，pi 表示第 i 张网页，Mi 是 pi 的入链接集合，pj 是 Mi 集合中的第 j 张网页。PR(pj) 表示网页 pj 的 PageRank 得分，L(pj) 表示网页 pj 的出链接数量，1/L(pj) 就表示从网页 pj 跳转到 pi 的概率。α是用户不进行随机跳转的概率，N 表示所有网页的数量。

PageRank 的计算是采样迭代法实现的：一开始所有网页结点的初始 PageRank 值都可以设置为某个相同的数，例如 1，然后我们通过上面这个公式，得到每个结点新的 PageRank 值。每当一张网页的 PageRank 发生了改变，它也会影响它的出链接所指向的网页，因此我们可以再次使用这个公式，循环地修正每个网页结点的值。由于这是一个马尔科夫过程，所以我们能从理论上证明，所有网页的 PageRank 最终会达到一个稳定的数值。整个证明过程很复杂，这里我们只需要知道这个迭代计算的过程就行了。

简化 PageRank 公式

那么，这个计算公式和矩阵操作又有什么联系呢？为了把问题简化，我们暂时不考虑随机跳转的情况，而只考虑用户按照网页间链接进行随机冲浪。那么 PageRank 的公式就简化为：

这个公式只包含了原公式中的Σ(PR(pj)/L(pj)) 部分。我们再来对比看看矩阵点乘的计算公式。

以上两个公式在形式上是基本一致的。因此，我们可以把Σ(PR(pj)/L(pj)) 的计算，分解为两个矩阵的点乘。一个矩阵是当前每张网页的 PageRank 得分，另一个矩阵就是邻接矩阵。所谓邻接矩阵，其实就是表示图结点相邻关系的矩阵。

假设 xi,j 是矩阵中第 i 行、第 j 列的元素，那么我们就可以使用 xi,j 表示从结点 i 到结点 j 的连接，放到 PageRank 的应用场景，xi,j 就表示网页 pi 到网页 pj 的链接。最原始的邻接矩阵所包含的元素是 0 或 1，0 表示没有链接，而 1 表示有链接。

考虑到 PageRank 里乘积是 1/L(pj)，我们可以对邻接矩阵的每一行进行归一化，用原始的值（0 或 1）除以 L(pj)，而 L(pj) 表示有某张网页 pj 的出链接，正好是矩阵中 pj 这一行的和。所以，我们可以对原始的邻接矩阵，进行基于行的归一化，这样就能得到每个元素为 1/L(pj) 的矩阵，其中 j 表示矩阵的第 j 行。注意，这里的归一化是指让所有元素加起来的和为 1。

为了方便你理解，我用下面这个拓扑图作为例子给你详细解释。

基于上面这个图，原始矩阵为：

其中第 i 行、第 j 列的元素值表示从结点 i 到 j 是不是存在链接。如果是，那么这个值为 1；否则就为 0。

按照每一行的和，分别对每一行进行归一化之后的矩阵就变为：

有了上述这个邻接矩阵，我们就可以开始最简单的 PageRank 计算。PageRank 的计算是采样迭代法实现的。这里我把初始值都设为 1，并把第一次计算的结果列在这里。

好了，我们已经成功迈出了第一步，但是还需要考虑随机跳转的可能性。

考虑随机跳转经过上面的步骤，我们已经求得Σ(PR(pj)/L(pj)) 部分。不过，PageRank 引入了随机跳转的机制。这一部分其实也是可以通过矩阵的点乘来实现的。我们把Σ(PR(pj)/L(pj)) 部分用 A 表示，那么完整的 PageRank 公式就可以表示为：

于是，我们可以把上述公式分解为如下两个矩阵的点乘：

我们仍然使用前面的例子，来看看经过随机跳转之后，PageRank 值变成了多少。这里α取 0.9。

我们前面提到，PageRank 算法需要迭代式计算。为了避免计算后的数值越来越大甚至溢出，我们可以进行归一化处理，保证所有结点的数值之和为 1。经过这个处理之后，我们得到第一轮的 PageRank 数值，也就是下面这个行向量：

[0.37027027 0.24864865 0.37027027 0.00540541 0.00540541]

接下来，我们只需要再重复之前的步骤，直到每个结点的值趋于稳定就可以了。

使用 Python 进行实现说到这里，我已经把如何把整个 PageRank 的计算，转换成多个矩阵的点乘这个过程讲完了。这样一来，我们就可以利用 Python 等科学计算语言提供的库，来完成基于 PageRank 的链接分析。为了展示具体的代码，我以之前的拓扑图为例，给你详细讲述每一步。

首先，我们要进行一些初始化工作，包括设置结点数量、确定随机跳转概率的α、代表拓扑图的邻接矩阵以及存放所有结点 PageRank 值的数组。下面是一段示例代码，在代码中我提供了注释供你参考。

复制代码

import numpy as np # 设置确定随机跳转概率的 alpha、网页结点数alpha = 0.9N = 5 # 初始化随机跳转概率的矩阵jump = np.full([2,1], [[alpha], [1-alpha]], dtype=float) # 邻接矩阵的构建adj = np.full([N,N], [[0,0,1,0,0],[1,0,1,0,0],[1,0,0,0,0],[0,0,0,0,0],[0,1,0,0,0]], dtype=float) # 对邻接矩阵进行归一化row_sums = adj.sum(axis=1) # 对每一行求和row_sums[row_sums == 0] = 0.1 # 防止由于分母出现 0 而导致的 Nanadj = adj / row_sums[:, np.newaxis] # 除以每行之和的归一化 # 初始的 PageRank 值，通常是设置所有值为 1.0pr = np.full([1,N], 1, dtype=float)之后，我们就能采用迭代法来计算 PageRank 值。一般我们通过比较每个结点最近两次计算的值是否足够接近，来确定数值是不是已经稳定，以及是不是需要结束迭代。这里为简便起见，我使用了固定次数的循环来实现。如果你的拓扑图比较复杂，需要更多次迭代，我把示例代码和注释列在这里。

复制代码

# PageRank 算法本身是采样迭代方式进行的，当最终的取值趋于稳定后结束。for i in range(0, 20): # 进行点乘，计算Σ(PR(pj)/L(pj)) pr = np.dot(pr, adj) # 转置保存Σ(PR(pj)/L(pj)) 结果的矩阵，并增加长度为 N 的列向量，其中每个元素的值为 1/N，便于下一步的点乘。 pr_jump = np.full([N, 2], [[0, 1/N]]) pr_jump[:,:-1] = pr.transpose() # 进行点乘，计算α(Σ(PR(pj)/L(pj))) + (1-α)/N) pr = np.dot(pr_jump, jump) # 归一化 PageRank 得分 pr = pr.transpose() pr = pr / pr.sum() print("round", i + 1, pr)如果成功运行了上述两段代码，你就能看到每个结点最终获得的 PageRank 分数是多少。

Python 中还有一些很不错的库，提供了直接构建拓扑图和计算 PageRank 的功能，例如networkx。你可以尝试使用这种库，构建样例拓扑图并计算每个结点的 PageRank 得分，最后和上述代码所计算的 PageRank 得分进行比较，验证一下上述代码的结果是不是合理。

总结我们可以把向量看作一维数组，把矩阵看作二维数组。矩阵的点乘，是由若干个向量的点乘组成的，所以我们可以通过矩阵的点乘操作，挖掘多组向量两两之间的关系。

今天我们讲了矩阵的点乘操作在 PageRank 算法中的应用。通过表示网页的邻接二元关系，我们可以使用矩阵来计算 PageRank 的得分。在这个应用场景下，矩阵点乘体现了多个马尔科夫过程中的状态转移。

矩阵点乘和其他运算操作，还可以运用在很多其他的领域。例如，我在上一节介绍 K 均值聚类算法时，就提到了需要计算某个数据点向量、其他数据点向量之间的距离或者相似度，以及使用多个数据点向量的平均值来获得质心点的向量，这些都可以通过矩阵操作来完成。

另外，在协同过滤的推荐中，我们可以使用矩阵点乘，来实现多个用户或者物品之间的相似程度，以及聚集后的相似程度所导致的最终推荐结果。下一节，我会使用矩阵来表示用户和物品的二元关系，并通过矩阵来计算协同过滤的结果。

你可能想看：

think，thinkof，thinkabout，thinkover的区别和用法？

think、think of、think about、think over的区别为指代不同、用法不同、侧重点不同，意思用法如下：

安全期是怎么计算的安全期是怎么计算的安全期是怎么计算的安全期是怎么计算的安全期是怎么计算？

女性的排卵日期一般在下次月经来潮前的14天左右。下次月经来潮的第1天算起，倒数 14天或减去14天就是排卵日，排卵日及其前5天和后4天加在一起称为排卵期。例如，某女的月经周期为28天，本次月经来潮的...

getCurrentUser（）。role在DaftMonk / generator-angular-fullstack中未定义

$scope.user.email,password:$scope.user.password;" + Auth.getCurrentUser().role);User.get();会触发一个异步HT...

think of think about与think over的区别？

think of, think about,think over,think for的区别为：含义不同、用法不同、介词不同。Helen，are you thinking of marrying Tom...

曝光（pùguāng）？曝光（bàoguāng）？周杰在《非常静距离》中

刚刚看了"非常静距离"中李静访谈周杰，这个节目似乎有意给周杰一个回应是非传闻的机会，当然媒体有误解的地方解释清楚也是应该，我们并不知道演艺界的真实面目，姑妄听之。究竟应读什么音呢，不知道周杰翻的是什么...

曝光（pùguāng）？曝光（bàoguāng）？看访谈周杰-“非常静距离

阳阳有氧运动健身操直播间阳阳[yáng yáng]什么意思?近义词和反义词是什么?英文翻译是什么...

阳阳[y hm2 ng y hm2 ng][阳阳]基本上是解释1。色彩鲜艳。2。形容温暖如春天。3.健壮的身姿。4.得到自己的脸。阳光与“扬”相通。5.就像自己的样子。阳光与“扬”相通。[阳阳]详细说...

如何使用启动盘安装ghost文件(如何使用启动盘安装ghost文件)

我将向您介绍使用U深度创建u磁盘启动磁盘并使用创建的u磁盘启动磁盘的顺利安装系统。一个4G以上的u磁盘一份gost系统文件一个u磁盘启动磁盘创建工具这里，u深度u磁盘启动磁盘创建工具为例。点击立即下载...

Google放弃PageRank转为内部使用谷歌PR查询成为历史

PageRank诞生于2000年，以特定算法为网页排序，得分范围0-10，能让用户直观地了解网页的价值等级，但也催生了庞大的SEO地下产业，让很多毫无价值的网页也能得到高分。事实上，Google已经好...

抖音短视频内容运营矩阵，抖音短视频内容矩阵怎么做

易媒，可以一键管理抖音、视频号等近70+主流自媒体账号，文章、视频一键发布至30+平台，做品宣、矩阵、收录、引流必备神器。抖音短视频内容运营矩阵，2022最大的流量入口，抖音短视频强势崛起，大部分中国...

理解矩阵分块和矩阵乘法

分块矩阵；线性组合（linear combination） ⇔ 矩阵乘法（matrix multiplication）；矩阵和向量相乘，自然容易立即；矩阵和矩阵相乘，则要分块进行理解；1. 矩阵乘法（...

为何复仇者联盟的英文是“avengers”而不是“revengers”？

在回答这个问题之前，我们先了解一下复仇者联盟这部电影吧，影片讲述了尼克·弗瑞为了搞定《雷神》中被流放的洛基，四处寻找王者知音，将钢铁侠、美国队长、雷神托尔、绿巨人、黑寡妇和鹰眼这六位超牛的人物聚集在了...

《Hierarchical Text-Conditional Image Generation with CLIP Latents》阅读笔记

模型真的学习到了文本图像特征，基于CLIP的分层文本条件图像生成——使用CLIP训练好的特征，生成类似于CLIP的图像特征：可以实时利用文本信息引导模型生成、编辑各种图像，然后得到输出的文本特征和图像...

《dreadhunger》进不去怎么办dreadhunger进不去怎么办

但是，由于游戏没有提供国内玩家专用的服务器，玩家由于无法连接游戏服务器而往往无法进入游戏，Dread Hunger不能进入的概率是玩家无法连接到服务器造成的；玩家的网络质量不支持与游戏服务器的稳定连接...

PHP communication management system wamp running custom development mysql database html webpage computer software engineering

Modify and delete picturesMessage board：admin Database configuration file data.php2.The development ...

[Kogel.Subscribe.Mssql]SQL Server incremental subscription, database change monitoring

您可以下载安装到Nuget：[Display(Rename=“t_oms_order_detail”)]，[Identity]；[Display(Rename=“trade_id)]；[Nest.Pr...

如何使用Maven配置hibernate-tools以生成hibernate.cfg.xml，* hbm.xml，POJO和DAO

我有一个使用项目hbm2cfgxml和<hbm2cfgxml使hibernate.cfg.xml如下所示;我的pom.xml目前看起来像这样;plugin>hibernate3-maven...

look over, get over , go over 分别是什么意思

她无法克服她的羞怯心理。She seemed to get over the death of her husband in no time。她好像很快就从失去丈夫的哀伤中恢复过来。He never ...

计算器和计算机的区别？计算器在线计算

计算器是现代人发明的可进行数字运算的电子设备，现代电子计算机是可进行数学运算的手持电子设备，先进的计算机有生物计算机、光子计算机、量子计算机等计算机，一般手头还有现成的利用液晶黑白的数学计算机科学计算...

PageRank算法与实践

如果让我们自己去做搜索的话，我们能够想到的是文章和搜索词的相关性，以此来判断这个文章是否是我们想要的，最开始的搜索有的是这样做的，还有的是按照网站的种类做个大的索引表，但是可以索引的关键字有限。互联网...

标签: 矩阵邻接矩阵矩阵转置矩阵分解归一化

分享给朋友：

问答百科

矩阵：如何使用矩阵操作进行 PageRank 计算？

Copyright © 2024 问答百科网 All Rights Reserved.
蜀ICP备11000655号-9