百度权重算法的原理是什么？

算法原理集成学习（ensemble leaning）通过构建并结合多个学习器来完成学习任务，通过将多个学习器结合，常常可以获得比单一学习器显著优越的效果和泛化能力。集成学习中的基学习器可以是同质的，也可以是异质的。根据个体学习器的生成方式，目前的集成学习方法大致可分为三大类：一类是Bagging，个体学习器之间不存在强依赖关系，可以同时并行化训练和生成，最终结果通常通过投票机制产出，随机森林是这一类型的代表；另一类是Boosting，个体学习器之间存在强依赖关系，后一学习器依赖前一学习器的结果，，因此必须以序列化形式串行生成，我们下节会讲到的Adaboost和GBDT是这一类型的代表；其实还有第三类，叫Stacking，即将初级学习器的输出次级学习器的输入特征，深层神经网络甚至可以理解为Stacking集成学习的变种。

随机森林（Random Forest）是以决策树为基学习器构建的Bagging集成学习算法，其实现简单、计算开销小、并且在很多现实任务中表现出抢眼的效果。其主要通过样本扰动和属性扰动使得集成学习的泛化性显著提高。样本扰动是指通过对初始训练集采样构建每一棵决策树；属性扰动是指对基决策树的每个节点，分裂时从该节点的属性集合中随机选择k个属性（k一般去log(d,2)，d为属性数量）。

模型训练代码地址：

def train():

print("start training...")

# 处理训练数据

train_feature, train_target = process_file(train_dir, word_to_id, cat_to_id)

# 模型训练

model.fit(train_feature, train_target)

def test():

print("start testing...")

# 处理测试数据

test_feature, test_target = process_file(test_dir, word_to_id, cat_to_id)

# test_predict = model.predict(test_feature) # 返回预测类别

test_predict_proba = model.predict_proba(test_feature) # 返回属于各个类别的概率

test_predict = np.argmax(test_predict_proba, 1) # 返回概率最大的类别标签

# accuracy

true_false = (test_predict == test_target)

accuracy = np.count_nonzero(true_false) / float(len(test_target))

print()

print("accuracy is %f" % accuracy)

# precision recall f1-score

print()

print(metrics.classification_report(test_target, test_predict, target_names=categories))

# 混淆矩阵

print("Confusion Matrix...")

print(metrics.confusion_matrix(test_target, test_predict))

if not os.path.exists(vocab_dir):

# 构建词典表

build_vocab(train_dir, vocab_dir)

categories, cat_to_id = read_category()

words, word_to_id = read_vocab(vocab_dir)

# kNN

# model = neighbors.KNeighborsClassifier()

# decision tree

# model = tree.DecisionTreeClassifier()

# random forest

model = ensemble.RandomForestClassifier(n_estimators=10) # n_estimators为基决策树的数量，一般越大效果越好直至趋于收敛

train()

test()运行结果：

ead_category...

read_vocab...

start training...

start testing...

accuracy is 0.875000

precision recall f1-score support

娱乐 0.83 0.91 0.87 89

房产 0.78 0.83 0.80 104

教育 0.81 0.81 0.81 104

家居 0.75 0.71 0.73 89

游戏 0.93 0.95 0.94 104

时政 0.78 0.79 0.78 94

时尚 0.94 0.89 0.92 91

体育 0.98 0.97 0.97 116

财经 0.95 0.91 0.93 115

科技 0.99 0.96 0.97 94

avg / total 0.88 0.88 0.88 1000

Confusion Matrix...

-------------------了解更多干货文章，可以关注小程序八斗问答

你可能想看：

影响百度权重的因素和提升百度权重的方法

百度权重一直是行业默认的一个权威数值，一个网站的百度权重越高，在行业内才会越被认可。爱站、站长工具等网站甚至推出的针对网站关键词排名预计给网站带来流量多少来计算百度权重。因此，近两年刷百度权重，刷百度...

百度权重对百度搜索排名有什么影响？

百度目前采用的是蜘蛛抓取，就是说他抓取的过程就像蜘蛛一样，从一根丝出发，可以到达任何一个地方。而广度抓取的模式就是A，一级梯度抓完后，二级梯度抓取a1,b2,c2,d2，三级抓取a3,b3,c3,d3...

百度权重不是百度家的？先别急着惊讶，它还真不是

做过网站的小伙伴可能经常会听到百度权重这个词。那什么是百度权重呢？首先百度百科这个百度官方的平台对百度权重可是解释得明明白白，这个东西压根和百度官方没有半点关系。[震惊]所以听到有人说自己是百度官方，...

怎么快速提高百度权重？

随着百度不断地推出新算法，SEO从业者们越来越艰难，但SEO从业者依然相信，SEO行业的八字真言“内容为王外链为皇”,这句真理名言，那么这个真理名言在百度不断地推出新算法的时代还有用么？在2014年这...

如何提升百度权重？

想要快速提高百度权重，就要选择能够做上排名的词来做。你选择的关键词不能范围太广就像你说男装、女装它们下面的小关键词就非常多。找到一个适合你的非常重要。你的网站要能够吸引来访客，同时也要能够留得住访客。...

网站怎样提高百度权重？

想要让网站在搜索引擎中拥有一个好的排名，网站权重是必备的条件，网站权重越高，越被搜索引擎所信任，网站排名也就会越高。那么，提升网站权重的技巧有哪些呢？高质量的内容不仅可以增加搜索引擎的友好性，提高网站...

个人站长赚钱，提高百度权重的秘诀

现在做一个个人网站，并且需要其有较高权重和流量，如果你按部就班地做seo很难做起排名，我们需要在每一个seo环节中做到尽量完善才有机会将关键词排名做上去。那么，个人网站怎么提高百度权重？不论做什么网站...

蛋白质减肥法的正确吃法为什么多吃蛋白质会瘦,蛋白质减肥法的原理

文章目录：为什么多吃蛋白质会瘦,蛋白质减肥法的原理哪些减肥食谱美味又健康?一、为什么多吃蛋白质会瘦,蛋白质减肥法的原理二、哪些减肥食谱美味又健康?减肥是一件很辛苦的事情，很多女性朋友为了减肥放弃了很多...

SEM竞价推广的原理是什么？米可分享如何利用原理来提高广告效果

您有没有在搜索时输入关键字，发现排名靠前的站点更受关注？这就是SEM(搜索引擎营销)竞价推广的原理。本文详细介绍了东莞大米在SEM竞价推广的原理，并可分享如何利用这些原理来提高广告效果。一、搜索网络和...

自媒体账号权重到底是什么？什么行为可以提升账号权重？

作为一名3年的自媒体从业者，对于能够有机会回答这个问题而感到很荣幸。账号权重就是平台对你这个账号的认可程度，刚注册的新号账号权重很低，无法和已经开了原创权限的账号权重比较，因为已经过了开通了原创功能，...

网站权重是什么？如何提高网站权重？

网站权重可以把它看做搜索引擎针对每一个网站进行价值判断的综合体系。要注意的是，每家搜索引擎的价值判断体系都是不一样的，侧重的维度，场景不一，除了搜索一哥Google的PR及搜狗的SR外，市面上比较主流...

3D扫描的技术原理是怎样的?三维扫描技术的原理

深圳3D抄数公司-至诚工业今天为大家讲讲3D扫描的技术原理是怎样的?三维扫描及数字化系统在反求工程中发挥着巨大作用，高速三维扫描仪已在我国多家模具厂点得到应用,取得良好效果。该系统提供了从模型或实物扫...

自媒体权重如何理解，怎么才能提高权重？

每次说到权重，都会遭到条友反驳：官方都说了没有权重这个东西。好吧，权重这东西，信则有，不信则无，本身它就看不见，摸不着，神龙见首不见尾，玩的就是悬学。下面，我跟大家一起来扒一扒，权重这个东西的前世今生...

场效应管的工作原理和使用方法场效应管的工作原理是什么？

场效应管的工作原理是什么？场效应管工作原理，一言以蔽之，就是“在漏极-源极间流过沟道的ID是由栅极和沟道间的pn结引起的反向偏置的栅极电压控制ID”。1.场效应晶体管(Field Effect Tra...

飞机的机翼原理机翼的工作原理是什么？

翅膀的工作原理是什么？在飞机机翼上产生升力的原理是，大气施加在机翼下面的压力(方向方向)大于施加在机翼上面的压力(方向下方)，两者的压力差形成飞机的升力，这是公认的。飞机越往前走，机翼带来的空气升力也...

小腿神经阻断术的原理是什么？有什么危害？

小腿神经阻断术的危害为了好看，去做这种伤害巨大，风险巨大的手术，真的是现代版本的裹小脚。小腿后群的肌肉主要由小腿三头肌构成，即腓肠肌和比目鱼肌，比目鱼肌的形状更修长。这个手术就是要把腓肠肌内、外侧头...

变色马克杯原理是什么什么是变色马克杯?变色马克杯原理？

变色马克杯是什么？变色马克杯的原理？原理1：由同轴设置的外杯和内杯两部分组成，两个杯的底端之间设有填充有热敏变色挥发液体的夹心空洞，内杯的外侧壁上刻有通往该层腔的艺术图形通道。在水杯中倒入热水后，中间...

《盗梦空间》背后的原理是什么？

《盗梦空间》是2010年诺兰推出的一部科幻悬疑大作，推出以后立刻占据各大票房榜冠军位置，并且由于它丰富的幻想，雄奇的影像镜头，难以预料的剧情，和暧昧的结局，给广大网友留下无穷的话题。那么《盗梦空间》到...

导弹的原理是什么？导弹分类有哪些？

MissiIe／导弹，是所有各类型导弹的统称。missiIe.weapon.system／导弹武器系统！导弹的基本工作原理：是依靠自身动力+弹翼+指导系统+地面控制系统自主飞向目标的武器装备。之所以称...

京东白条的原理是什么？

查资料得知，京东白条是一项面对个人消费者的"先消费后付款"的信用赊购消费金融业务。个人感觉就是京东暂时借钱给你，下月你再还。其中，京东白条是分为不分期和分期付款两种不同方式。分期还款包括延后付款（最长...

标签: test 决策树

分享给朋友：

问答百科

百度权重算法的原理是什么？

Copyright © 2024 问答百科网 All Rights Reserved.
蜀ICP备11000655号-9