📊 크롤링 데이터 명세서
각 데이터 소스로부터 수집하는 데이터의 상세 명세서입니다.
CN드림 (CNDreams)
❌ 비활성
타입:
커뮤니티 사이트
방식:
HTML 파싱 (목록 + 상세 페이지)
수집 데이터:
title
url
content
author
postedAt
views
location
category
externalId
밴조선 (Vanchosun)
⚠️ 부분적
타입:
커뮤니티 사이트
방식:
HTML 파싱 (목록 페이지만)
수집 데이터:
title
url
content
author
postedAt
views
location
category
externalId
CBC Calgary
✅ 활성
타입:
뉴스 RSS 피드
방식:
RSS XML 파싱
수집 데이터:
title
url
content
author
postedAt
views
location
category
externalId
데이터베이스 스키마
Posts 테이블
id
title
url
content_raw
author
posted_at
metadata
source_id
board_id
external_id
Sources 테이블
id
name
base_url
kind
enabled
rate_limit_sec
Source_boards 테이블
id
source_id
board_name
url
type
rss
selectors
크롤링 프로세스
수동 크롤링 (현재)
1
웹 UI에서 크롤링 버튼 클릭
2
/api/crawl 엔드포인트 호출
3
CrawlerServiceV2 실행
4
각 소스별 파서로 데이터 수집
5
데이터베이스에 저장
자동 크롤링 (예정)
1
Vercel Cron Jobs
2
6시간마다 자동 실행
3
모든 활성 소스 크롤링
4
AI 파이프라인 실행
5
이메일 발송