Skip to content

Latest commit

Β 

History

History
54 lines (45 loc) Β· 1.89 KB

File metadata and controls

54 lines (45 loc) Β· 1.89 KB

Present-Data-Generation

폴더 ꡬ쑰

πŸ“ Present-Data-Generation/
β”œβ”€β”€ dataset/
β”‚   β”œβ”€β”€ images/                  # 크둀링 이미지 μ €μž₯ μœ„μΉ˜ (각 product_id둜 폴더 생성, μ•ˆμ— main 이미지와 detail 이미지 쑴재)
β”‚   └── products.csv             # μ΅œμ’… 데이터셋
β”œβ”€β”€ kakao_crawling.py            # μΉ΄μΉ΄μ˜€ν†‘ μ„ λ¬Όν•˜κΈ° 크둀링 μ½”λ“œ (ν•΄λ‹Ή URL νŽ˜μ΄μ§€μ—μ„œ μƒμœ„ n개, n'개의 νŽ˜μ΄μ§€ 탐색)
β”œβ”€β”€ kakao_crawling_category.py   # μΉ΄μΉ΄μ˜€ν†‘ μ„ λ¬Όν•˜κΈ° μΉ΄ν…Œμ½”λ¦¬ ν•­λͺ©λ³„ n개 크둀링
β”œβ”€β”€ product_visualizer_web.py    # μƒν’ˆ 데이터 streamlit 이용 μ›Ή μ‹œκ°ν™”
β”œβ”€β”€ generate_description.py      # products.csv νŒŒμΌμ— description ν”Όμ²˜λ₯Ό μΆ”κ°€ν•œ csv 파일 생성 (gpt api 이용 생성성)
└── requirements.txt             # 파이썬 μ„€μΉ˜ νŒ¨ν‚€μ§€

데이터 μ‹œκ°ν™”ν•˜μ—¬ 확인

1. 초기 μ…‹νŒ… (dataset)

  • 루트 폴더에 dataset μ••μΆ•ν•΄μ œν•˜μ—¬ μœ„μΉ˜

2. streamlit을 ν†΅ν•œ μ›Ήμ—μ„œ μ‹œκ°ν™”

streamlit run product_visualizer_web.py
# http://localhost:8501에 접속

description ν”Όμ²˜ 생성

1. ν™˜κ²½ μ…‹νŒ…

# κ°€μƒν™˜κ²½ 생성 (Linux/MacOS)
python3.11 -m venv env

# (Window)
py -3.11 -m venv env

# μ˜μ‘΄μ„± μ„€μΉ˜
pip install -r requirements.txt

2. API 토큰 μ…‹νŒ…

.env 파일 λ£¨νŠΈμ— 생성:

OPENAI_API_KEY=your_openai_api_key_here

3. ν”„λ‘¬ν”„νŠΈ μˆ˜μ •

  • prompts/description_generate_prompt.txt νŒŒμΌμ— μžˆλŠ” ν”„λ‘¬ν”„νŠΈ μˆ˜μ •
  • 자유둭게 few-shot 같은것 μΆ”κ°€
  • 단, 'μƒν’ˆλͺ…: {name}'κ³Ό 'μΉ΄ν…Œκ³ λ¦¬: {category}'λŠ” 건듀지 말기

4. description 생성

python generate_description.py

(μ°Έκ³ : generate_description.py μ½”λ“œμ—μ„œ START λ³€μˆ˜λŠ” csv νŒŒμΌμ—μ„œ 생성을 μ‹œμž‘ν•  인덱슀의 μœ„μΉ˜, ENDλŠ” STARTλΆ€ν„° λͺ‡ 개λ₯Ό ν• μ§€μ΄λ‹ˆ μžμ‹  νŒŒνŠΈμ— 맞게 μ‘°μ •)