Name	Name	Last commit message	Last commit date
parent directory ..
data/sample_data	data/sample_data
__init__.py	__init__.py
config.yaml	config.yaml
config_bigdata.yaml	config_bigdata.yaml
criteo_reader.py	criteo_reader.py
dygraph_model.py	dygraph_model.py
metrics.py	metrics.py
net.py	net.py
optimizer.py	optimizer.py
readme.md	readme.md
trainer.py	trainer.py

AutoFIS模型的点击率预估模型

以下是本例的简要目录结构及说明：

├── data #样例数据
    ├── sample_data #样例数据
        ├── sample_train_x.txt #训练数据样例
        ├── sample_train_y.txt #训练数据样例
├── __init__.py
├── config.yaml # sample数据配置
├── config_bigdata.yaml # 全量数据配置
├── criteo_reader.py #数据读取程序
├── dygraph_model.py # 构建动态图
├── metrics.py # 自定义评估指标
├── net.py # 模型核心组网
├── optimizer.py # 自定义优化器
├── trainer.py # 训练脚本
├── README.md #文档
├── trainer.py #训练入口

注：在阅读该示例前，建议您先了解以下内容：

paddlerec入门教程

模型简介

Automatic Feature Interaction Selection in Factorization Models（点击率预测问题下因子分解机模型的自动特征交互选择模型）是华为在2020kdd上提出了新的CTR预估方法。论文指出，很多CTR预估算法都需要进行特征组合，但是传统的特征组合方式都是简单的暴力组合或者人工选择，人工选择的方式依赖于先验知识，而简单的暴力组合其实对模型的性能的提升并不总是有益的，有些组合方式其实对模型的性能提升并没有多少的帮助，甚至会损害模型的性能，而且大量无效的特征组合会形成很多的参数，降低内存的利用率。根据AutoML技术，提出AutoFIS，顾名思义，就是自动去找最佳的特征组合。

数据准备

数据为Criteo，选择了第6-12天的数据作为训练集，第13天的数据测试集。正负样本采用后的比例约为1:1，在模型目录的data目录下为您准备了快速运行的示例数据，若需要使用全量数据可以参考下方效果复现部分。

运行环境

PaddlePaddle>=2.0

python 2.7/3.5/3.6/3.7

os : windows/linux/macos

快速开始

本文提供了样例数据可以供您快速体验，在任意目录下均可执行。在autofis模型目录的快速执行命令如下：

# 进入模型目录
# cd models/rank/autofis # 在任意目录均可运行
# 动态图训练
python trainer.py -m config.yaml # stage0：自动搜索最佳特征组合 全量数据运行config_bigdata.yaml
python trainer.py -m config.yaml -o stage=1 # stage1：训练最终模型 全量数据运行config_bigdata.yaml

# 动态图预测
python -u ../../../tools/infer.py -m config.yaml -o stage=1 # 全量数据运行config_bigdata.yaml

效果复现

为了方便使用者能够快速的跑通每一个模型，我们在每个模型下都提供了样例数据。如果需要复现readme中的效果,请按如下步骤依次操作即可。在全量数据下模型的指标如下：

模型	auc	log_loss	batch_size	epoch_num	Time of each epoch
AutodeepFM	0.8009	0.5403	2000	1	约3小时

确认您当前所在目录为PaddleRec/models/rank/autofis
进入Paddlerec/datasets/criteo_autofis
执行命令运行全量数据

cd ../../../datasets/criteo_autofis
sh run.sh

cd - # 切回模型目录
# 动态图训练
python trainer.py -m config_bigdata.yaml # stage0：自动搜索最佳特征组合
python trainer.py -m config_bigdata.yaml -o stage=1 # stage1：训练最终模型
python -u ../../../tools/infer.py -m config_bigdata.yaml -o stage=1 # 预测

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

readme.md

AutoFIS模型的点击率预估模型

内容

模型简介

数据准备

运行环境

快速开始

效果复现

进阶使用

FAQ

Uh oh!

FilesExpand file tree

autofis

Directory actions

More options

Directory actions

More options

Latest commit

History

autofis

Folders and files

parent directory

readme.md

AutoFIS模型的点击率预估模型

内容

模型简介

数据准备

运行环境

快速开始

效果复现

进阶使用

FAQ