Skip to content

Mengyueke/CTI_extract

Repository files navigation

事件图谱构建与展示

爬虫

爬虫方法路径./crawler

爬虫接口

路径./crawler/crawler_func.py

  1. 保证./crawler/config.yaml预定义了如下配置:
  - name: "talos_blog"   # 保存文件夹名称
    homepage: "https://blog.talosintelligence.com"   # 主页(仅爬取该页面的子页面)
    subpage_strategy: "sitemap"   # 子页面获取方式
    start_url: ["https://blog.talosintelligence.com/sitemap-posts.xml"]  # sitemap
    target_lang: "en" # 目标语言
  1. 直接import方法即可进行爬取
from crawler.crawler_func import *

crawler_for_talos_blog(base_dir,date_str)

"""
base_dir: 存储原始数据的目录,文件会保存在{base_dir}/{date_str}
date_str: 爬取数据的日期,格式为 'YYYY-MM-DD',例如 '2025-09-22'
"""

数据保存

目前数据保存在./data/raw路径,调用raw2sqlite方法可以将数据转存为./data/sqlite/data.db

数据库后端

启动

python ./event_graph/db_app.py --port 5001 --base_dir {base_dir} --db_dir {db_dir}

API

{BASE_URL}/meta_data
{BASE_URL}/search

事件图谱展示

文档预处理+图谱构建

./graph_service

资源

About

威胁情报事件抽取管道

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages