PageRank算法与实践

如果让我们自己去做搜索的话，我们能够想到的是文章和搜索词的相关性，以此来判断这个文章是否是我们想要的，最开始的搜索有的是这样做的，还有的是按照网站的种类做个大的索引表，但是可以索引的关键字有限。

互联网上的网页估计有千百亿规模了（猜测），那么显然不是所有包含搜索关键字的网页都同等重要。有的在标题中包含关键字，有的在文档中包含关键字；有的是权威机构网站，有的是个人博客，显然在给用户返回网页的时候，比较重要的网页的应该排在前面，不重要的网页信息排在后面。那又来一个问题，如何确定一个网页的重要性那。

网页是通过链接来组织的，那么我们可以把整个互联网看成一张大的图，每个节点为一个个网页，网页之间的链接看成边。网页是否重要，要看是否有多个网页链接到它。被越多网页链接的网页越重要，当然链接这个网页的多个链接的重要性又是不相同的。

假设我们搜索得到很多网页，其中一个网页Y的排名应该来自所有指向这个网页X1，X2，X3的权重之和：

Y网页的权重 = X1+X2+X3...+Xn而X1，X2，...Xn的权重分别是多少，如何度量，这又需要通过链接到它的网页的权重来计算，这样循环往复，就无解了。据说是Google的布林破解了这个怪圈，就是开始的时候给每个网页设置相同的初始值，那么经过多轮计算后，这个算法可以保证网页排名多次之后回收敛到排名的真实值。

我理解下，大概是这样子的：

第一轮的时候，我们假设所有网页的权重都是1，那么A这个网页的权重为1+1+1为3，第二轮计算的时候，与A相连的网页权重变成了2，那么最终A这个网页的权重就变成了2+2+2=6，这样多次计算后，被更多权重高的网页链接的网页，排名靠前，其他的靠后。

这整个过程有点类似于民主选举，选举过程中每个人的票的权重又是不一样的，这和现实也很类似。那么PageRank算法除了计算网页排名还有什么用那，数据实战45讲里面，有个例子比较有意思，计算泄露出来希拉里邮件列表中的人物影响力的情况，通过python的networkx库可以方便地计算PageRank的值。

下面的网络图的：

简单的计算PageRank的代码：

import networkx as nx# 创建有向图G = nx.DiGraph() # 有向图之间边的关系edges = [("B1", "B"), ("B2", "B"), ("C1", "C"), ("C2", "C"), ("D1", "D"), ("D2", "D"), ("D", "A"), ("C", "A"), ("B", "A")]for edge in edges: G.add_edge(edge[0], edge[1])pagerank_list = nx.pagerank(G, alpha=1)print("pagerank值是：", pagerank_list)结果：

整个数据集合分为三个文件：Aliases.csv,Emails.csv和Persons.csv,其中Emails文件为邮件内容，包括重要的发送者和接收者信息。 Persons文件统计邮件中所有人的姓名和对应ID。下面代码是数据实战中的代码直接拿过来了，其实过程也是比较简单，只是这个思路比较重要。

# -*- coding: utf-8 -*-# 用 PageRank 挖掘希拉里邮件中的重要任务关系import pandas as pdimport networkx as nximport numpy as npfrom collections import defaultdictimport matplotlib.pyplot as plt# 数据加载emails = pd.read_csv("./input/Emails.csv")# 读取别名文件file = pd.read_csv("./input/Aliases.csv")aliases = {}for index, row in file.iterrows(): aliases[row['Alias']] = row['PersonId']# 读取人名文件file = pd.read_csv("./input/Persons.csv")persons = {}for index, row in file.iterrows(): persons[row['Id']] = row['Name']# 针对别名进行转换 def unify_name(name): # 姓名统一小写 name = str(name).lower() # 去掉, 和 @后面的内容 name = name.replace(",","").split("@")[0] # 别名转换 if name in aliases.keys(): return persons[aliases[name]] return name# 画网络图def show_graph(graph, layout='spring_layout'): # 使用 Spring Layout 布局，类似中心放射状 if layout == 'circular_layout': positions=nx.circular_layout(graph) else: positions=nx.spring_layout(graph) # 设置网络图中的节点大小，大小与 pagerank 值相关，因为 pagerank 值很小所以需要 *20000 nodesize = [x['pagerank']*20000 for v,x in graph.nodes(data=True)] # 设置网络图中的边长度 edgesize = [np.sqrt(e[2]['weight']) for e in graph.edges(data=True)] # 绘制节点 nx.draw_networkx_nodes(graph, positions, node_size=nodesize, alpha=0.4) # 绘制边 nx.draw_networkx_edges(graph, positions, edge_size=edgesize, alpha=0.2) # 绘制节点的 label nx.draw_networkx_labels(graph, positions, font_size=10) # 输出希拉里邮件中的所有人物关系图 plt.show()# 将寄件人和收件人的姓名进行规范化emails.MetadataFrom = emails.MetadataFrom.apply(unify_name)emails.MetadataTo = emails.MetadataTo.apply(unify_name)# 设置遍的权重等于发邮件的次数edges_weights_temp = defaultdict(list)for row in zip(emails.MetadataFrom, emails.MetadataTo, emails.RawText): temp = (row[0], row[1]) if temp not in edges_weights_temp: edges_weights_temp[temp] = 1 else: edges_weights_temp[temp] = edges_weights_temp[temp] + 1# 转化格式 (from, to), weight => from, to, weightedges_weights = [(key[0], key[1], val) for key, val in edges_weights_temp.items()]# 创建一个有向图graph = nx.DiGraph()# 设置有向图中的路径及权重 (from, to, weight)graph.add_weighted_edges_from(edges_weights)# 计算每个节点（人）的 PR 值，并作为节点的 pagerank 属性pagerank = nx.pagerank(graph)# 将 pagerank 数值作为节点的属性nx.set_node_attributes(graph, name = 'pagerank', values=pagerank)# 画网络图show_graph(graph)# 将完整的图谱进行精简# 设置 PR 值的阈值，筛选大于阈值的重要核心节点pagerank_threshold = 0.005# 复制一份计算好的网络图small_graph = graph.copy()# 剪掉 PR 值小于 pagerank_threshold 的节点for n, p_rank in graph.nodes(data=True): if p_rank['pagerank'] < pagerank_threshold: small_graph.remove_node(n)# 画网络图,采用circular_layout布局让筛选出来的点组成一个圆show_graph(small_graph, 'circular_layout')

你可能想看：

对PageRank算法的简单理解

一方面这个算法最初是用来对网页重要性进行排序的，另一方面它是Sergey Brin和Lawrence Page提出的。人们对PageRank进行个各种改动，基于相关算法在推荐、社社会网络分析、自然语言...

think，thinkof，thinkabout，thinkover的区别和用法？

think、think of、think about、think over的区别为指代不同、用法不同、侧重点不同，意思用法如下：

getCurrentUser（）。role在DaftMonk / generator-angular-fullstack中未定义

$scope.user.email,password:$scope.user.password;" + Auth.getCurrentUser().role);User.get();会触发一个异步HT...

think of think about与think over的区别？

think of, think about,think over,think for的区别为：含义不同、用法不同、介词不同。Helen，are you thinking of marrying Tom...

曝光（pùguāng）？曝光（bàoguāng）？周杰在《非常静距离》中

刚刚看了"非常静距离"中李静访谈周杰，这个节目似乎有意给周杰一个回应是非传闻的机会，当然媒体有误解的地方解释清楚也是应该，我们并不知道演艺界的真实面目，姑妄听之。究竟应读什么音呢，不知道周杰翻的是什么...

曝光（pùguāng）？曝光（bàoguāng）？看访谈周杰-“非常静距离

阳阳有氧运动健身操直播间阳阳[yáng yáng]什么意思?近义词和反义词是什么?英文翻译是什么...

阳阳[y hm2 ng y hm2 ng][阳阳]基本上是解释1。色彩鲜艳。2。形容温暖如春天。3.健壮的身姿。4.得到自己的脸。阳光与“扬”相通。5.就像自己的样子。阳光与“扬”相通。[阳阳]详细说...

为何复仇者联盟的英文是“avengers”而不是“revengers”？

在回答这个问题之前，我们先了解一下复仇者联盟这部电影吧，影片讲述了尼克·弗瑞为了搞定《雷神》中被流放的洛基，四处寻找王者知音，将钢铁侠、美国队长、雷神托尔、绿巨人、黑寡妇和鹰眼这六位超牛的人物聚集在了...

《Hierarchical Text-Conditional Image Generation with CLIP Latents》阅读笔记

模型真的学习到了文本图像特征，基于CLIP的分层文本条件图像生成——使用CLIP训练好的特征，生成类似于CLIP的图像特征：可以实时利用文本信息引导模型生成、编辑各种图像，然后得到输出的文本特征和图像...

《dreadhunger》进不去怎么办dreadhunger进不去怎么办

但是，由于游戏没有提供国内玩家专用的服务器，玩家由于无法连接游戏服务器而往往无法进入游戏，Dread Hunger不能进入的概率是玩家无法连接到服务器造成的；玩家的网络质量不支持与游戏服务器的稳定连接...

PHP communication management system wamp running custom development mysql database html webpage computer software engineering

Modify and delete picturesMessage board：admin Database configuration file data.php2.The development ...

[Kogel.Subscribe.Mssql]SQL Server incremental subscription, database change monitoring

您可以下载安装到Nuget：[Display(Rename=“t_oms_order_detail”)]，[Identity]；[Display(Rename=“trade_id)]；[Nest.Pr...

西藏土建类专业研讨会：探索产教融合发展与实践

中新网拉萨6月26日电由西藏大学主办的新工科背景下土建类专业产教融合机制模式探索与实践研讨会25日在拉萨举行。这次活动是全区首次开展中职高职本科院校的共同联合探讨人才培养的会议。活动由西藏自治区勘察...

vivo霍金实验平台设计与实践-平台产品系列02

本篇介绍了vivo霍金实验平台的系统架构以及业务发展过程中遇到的问题以及对应的解决方案：数据精细运营、AB实验分析来驱动业务有效增长也逐渐成为共识，vivo霍金实验平台（以下简称霍金）已经从一个单一系...

“人民城市”的生成逻辑与实践旨归

在现代语境中，“人民城市”作为一个整体概念，将方向固定在中国特色城市发展道路上。[关键词]以人民城市中国特色城市发展道人为核心的2022年10月，党的二十大将“坚持人民城市人民建设，人民城市为人民”被...

look over, get over , go over 分别是什么意思

她无法克服她的羞怯心理。She seemed to get over the death of her husband in no time。她好像很快就从失去丈夫的哀伤中恢复过来。He never ...

Google放弃PageRank转为内部使用谷歌PR查询成为历史

PageRank诞生于2000年，以特定算法为网页排序，得分范围0-10，能让用户直观地了解网页的价值等级，但也催生了庞大的SEO地下产业，让很多毫无价值的网页也能得到高分。事实上，Google已经好...

矩阵：如何使用矩阵操作进行 PageRank 计算？

内容选自《程序员的数学基础课》你好，我是黄申。今天我来说说矩阵。矩阵由多个长度相等的向量组成，其中的每列或者每行就是一个向量。从数据结构的角度来看，我们可以把向量看作一维数组，把矩阵看作二维数组。...

生信文章分享！多组学数据、多重网络、PageRank

今天跟大家分享一篇去年发表在Computers in Biology and Medicine期刊上的文章，题目为Network-based prioritization of cancer gene...

图论算法理论、实现及应用数学建模第四章图论 part4.2最短路径问题-Dijkstra算法

文章目录：数学建模第四章图论 part4.2最短路径问题-Dijkstra算法算法有哪些分类图遍历算法之最短路径Dijkstra算法一、数学建模第四章图论 part4.2最短路径问题-Dijkst...

标签: pagerank算法

分享给朋友：

问答百科

PageRank算法与实践

Copyright © 2024 问答百科网 All Rights Reserved.
蜀ICP备11000655号-9