如何从python3中的xgboop模型中提取决策规则（特征拆分）？

提问者：小点点

如何从python3中的xgboop模型中提取决策规则（特征拆分）？

我需要从python中安装的xgboost模型中提取决策规则。我使用0.6a2版本的xgboost库，我的python版本是3.5。2.

我的最终目标是使用这些拆分来存储变量（根据拆分）。

我没有遇到任何属性的模型，这个版本可以给我分裂。

plot_tree给了我类似的东西。然而，它是树的可视化。

我需要像这样的东西https://stackoverflow.com/a/39772170/4559070对于xgboost模型

共3个答案

匿名用户

这是可能的，但不容易。我建议您使用的GRadientBoosting分类器，它类似于xgboop，但具有对构建的树的本地访问权限。

但是，使用xgboost，可以获取模型的文本表示，然后对其进行解析：

from sklearn.datasets import load_iris
from xgboost import XGBClassifier
# build a very simple model
X, y = load_iris(return_X_y=True)
model = XGBClassifier(max_depth=2, n_estimators=2)
model.fit(X, y);
# dump it to a text file
model.get_booster().dump_model('xgb_model.txt', with_stats=True)
# read the contents of the file
with open('xgb_model.txt', 'r') as f:
    txt_model = f.read()
print(txt_model)

它将打印6棵树的文本描述（2个估计器，每个估计器由3棵树组成，每个类一个），开始如下：

booster[0]:
0:[f2<2.45] yes=1,no=2,missing=1,gain=72.2968,cover=66.6667
    1:leaf=0.143541,cover=22.2222
    2:leaf=-0.0733496,cover=44.4444
booster[1]:
0:[f2<2.45] yes=1,no=2,missing=1,gain=18.0742,cover=66.6667
    1:leaf=-0.0717703,cover=22.2222
    2:[f3<1.75] yes=3,no=4,missing=3,gain=41.9078,cover=44.4444
        3:leaf=0.124,cover=24
        4:leaf=-0.0668394,cover=20.4444
...

例如，现在您可以从该描述中提取所有拆分：

import re
# trying to extract all patterns like "[f2<2.45]"
splits = re.findall('\[f([0-9]+)<([0-9]+.[0-9]+)\]', txt_model)
splits

它将打印元组列表（feature_id，split_value），如

[('2', '2.45'),
 ('2', '2.45'),
 ('3', '1.75'),
 ('3', '1.65'),
 ('2', '4.95'),
 ('2', '2.45'),
 ('2', '2.45'),
 ('3', '1.75'),
 ('3', '1.65'),
 ('2', '4.95')]

您可以根据需要进一步处理此列表。


                        

                
                    匿名用户

                




                
					
您可以通过函数模型找到决策规则作为数据帧。_Booster.trees_to_dataframe（）。Yes列包含yes分支的ID和no分支的No列。通过这种方式，您可以重建树，因为对于数据帧的每一行，节点ID都将边指向Yes和No。你可以用networkx这样做：
import networkx as nx

df = model._Booster.trees_to_dataframe()

# Create graph
G = nx.Graph()
# Add all the nodes
G.add_nodes_from(df.ID.tolist())
# Add the edges. This should be simpler in Pandas, but there seems to be a bug with df.apply(tuple, axis=1) at the moment.
yes_pairs = df[['ID', 'Yes']].dropna()
no_pairs = df[['ID', 'No']].dropna()
yes_edges = [tuple([i[0], i[1]]) for i in yes_pairs.values]
no_edges = [tuple([i[0], i[1]]) for i in no_pairs.values]
G.add_edges_from(yes_edges + no_edges)
				

                
                
            

            
                        

                
                    匿名用户

                




                
					
您需要知道您的树的名称，然后，您可以将它插入到您的代码中。


		      
                相关问题
                

																                
					
										   Android：在模块jefied-play-services-测量和jefied-play-services-测量-impl中发现重复类
										   在Hashmap中查找匹配的键/值对
										   如何迭代Hashmap并与同一Hashmap中的其他键进行组合以比较它们的对象
										   HashCode-如果相等的对象碰巧在同一个桶中散列会发生什么？
										   如何防止对数组中类对象的重复引用？
										   如何以及何时在HashMap中完成重新散列
										   在hashmap或hashtable中重新散列的成本
										   HashMap如何识别内部数组中的哪些位置包含元素？
										   当HashMap增加其大小时，HashMap中值的索引会发生什么？
										   @BeforeClass在ktor测试类中不工作
										   Jest vanilla JavaScript JSDOM刷新失败，切换beforeAll到before每一个后的第二次测试中断
										   在笑话中，定义全局变量是否与在BeforeAll中定义相同？
										   静态编程语言中@BeforeAll的正确解决方法是什么
										   线程“main”java. lang.NoClassDefFoundError中的异常：在Intellij[Spring boot]中
										   线程“main”java. lang.NoClassDefFoundError中的异常：org/apache/log4j/ProvisionNode
										   异步管道会自动取消订阅可观察，如果我改变可观察？
										   异步管道是否从服务中定义并从组件变量指向的可观察对象取消订阅？
										   如果可观察对象使用异步管道，是否需要取消订阅？
										   结合主体时不更新在模板中的异步管道可观察
										   角度观察取消订阅异步管道

如何从python3中的xgboop模型中提取决策规则（特征拆分）？

共3个答案

相关问题

热门标签

微信关注