如果训练集和测试集是提前分好的,但是目标列又不是数值型的 ,两个数据集同时对目标列进行编码 会有问题吗?
如果训练集和测试集分别独立编码,会导致编码不一致的问题,严重影响模型评估的准确性。问题演示import pandas as pd
from sklearn.preprocessing import LabelEncoder# 假设训练集和测试集
train_df pd.DataFrame({label: [猫, 狗, 猫, 鸟]})
test_df …
2026/6/27 20:13:15