GitHub - llz123304/Sensitive_topic_identification: 77,370条敏感文本和22,823个敏感词的高质量数据集，并进行分类

构建了包含77,370条敏感文本和22,823个敏感词的高质量数据集。
本项目旨在开发一个敏感话题识别系统，采用两种方法对话题进行分类：敏感词判别和基于预训练语言模型的判别。
分类类别包括：正常、政治、违法、色情、暴恐、广告。
敏感词路径：Sensitive_Word/black_words.csv
敏感文本路径：data.csv

🚀 Quick Start

#安装软件包
pip install -r requirements.txt

# 划分数据集为训练集、验证集和测试集
python Spilt_CSV.py

# 训练bert、bert_CNN，把model替换为对应名称
python Train1.py --model bert

# 训练TextCNN、TextRCNN、DPCNN,把model替换为对应名称
python Train2.py --model TextCNN
# 训练FastText

python Train2.py --model FastText --embedding random
# 进行推理
python Predict.py

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.idea		.idea
Sensitive_Word		Sensitive_Word
Utils		Utils
bert_pretrain		bert_pretrain
dataset/data		dataset/data
models		models
pytorch_pretrained		pytorch_pretrained
Predict.py		Predict.py
README.md		README.md
Spilt_CSV.py		Spilt_CSV.py
Train1.py		Train1.py
Train2.py		Train2.py
data.csv		data.csv
requirements.txt		requirements.txt
train_eval.py		train_eval.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🚀 Quick Start

About

Uh oh!

Releases

Packages

Uh oh!

Languages

llz123304/Sensitive_topic_identification

Folders and files

Latest commit

History

Repository files navigation

🚀 Quick Start

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages