diff --git a/README.md b/README.md index 5c2d1ef..0505917 100644 --- a/README.md +++ b/README.md @@ -38,17 +38,13 @@ DeepSeek R1 (OpenRouter) / 500B / 정답률 30%, 속도: ... ... --- ``` +# 🗺️ 수도 맞히기 벤치마크 (LLM Capital Benchmark) _ 이주영 +(submission 에 이주영.md 파일에 결과 작성했습니다.) + + + ### 두 번째 미션 -#### 개발자 전용: Gemini API를 이용한 PDF 데이터 정형화 추출 -* 과제 목표: Gemini API의 File API와 Structured Output 기능을 활용하여 PDF 문서에서 특정 데이터를 추출하고 Pydantic 모델로 구조화하는 방법을 이해하고 실습할 수 있습니다. -* 요구 사항: - * Gemini API의 File API를 이용하여 PDF 파일을 업로드하고, Pydantic 모델을 정의하여 해당 PDF 파일에서 원하는 데이터를 정형화된 형태로 추출하는 코드를 작성합니다. - * 샘플 PDF 파일(invoice.pdf, handwriting_form.pdf) 또는 개인적으로 준비한 PDF 파일을 사용해도 좋습니다. - * 모델은 Gemini 2.5 Flash를 이용합니다. -* 최종 결과물: 작성된 결과물을 Pull Request로 올려주세요. -* 참고자료: Jupyter Notebook - * [Pdf_structured_outputs_on_invoices_and_forms.ipynb](docs/Pdf_structured_outputs_on_invoices_and_forms.ipynb) #### 기획자 전용: Vibe Coding으로 포트폴리오 사이트 만들기 * 과제 목표: 개발자의 도움 없이도 바이브 코딩으로 프론트엔드를 만들어볼 수 있다. @@ -61,4 +57,4 @@ DeepSeek R1 (OpenRouter) / 500B / 정답률 30%, 속도: ... ## 제출 방법 * YouTube 링크를 참조 해주세요. * [Markdown 사용법](https://m.youtube.com/watch?v=kMEb_BzyUqk&t=0s) 을 익혀봅니다. -* GitHub Pull Request를 이용하여 제출 합니다. 이름: `제출자_이름.md` 팀인 경우 `제출자이름1_제출자이름2.md` 로 적어주세요. \ No newline at end of file +* GitHub Pull Request를 이용하여 제출 합니다. 이름: `제출자_이름.md` 팀인 경우 `제출자이름1_제출자이름2.md` 로 적어주세요. diff --git "a/submission/\354\235\264\354\243\274\354\230\201.md" "b/submission/\354\235\264\354\243\274\354\230\201.md" new file mode 100644 index 0000000..de8c4a1 --- /dev/null +++ "b/submission/\354\235\264\354\243\274\354\230\201.md" @@ -0,0 +1,91 @@ +###이주영### + +과제 1 +# 🗺️ 수도 맞히기 벤치마크 (LLM Capital Benchmark) + +## 🎯 목적 (Objective) +대규모 언어 모델(Large Language Models, LLM)이 일반 상식, 특히 세계 국가들의 수도에 대한 지식 정확도를 평가합니다. + +## 🧪 테스트 방식 (Test Method) +- 15개 국가명을 모델에게 입력하고 "[국가명]의 수도는 어디인가요?"라고 질문합니다. +- 테스트용 프롬프트 + [테스트용] +다음 15개 국가에 대해 "국가명: 수도명" 형식으로 답변을 요청합니다. 또한, 각 응답을 받는 데 걸리는 시간(초)을 추정해서 함께 작성해 주세요. 응답 시간은 예상 시간을 제공해 주세요. +형식은 다음과 같이 통일해 주세요: +국가명: 수도명 (응답 예상 시간: X초) +목록: +1. 대한민국 +2. 일본 +3. 미국 +4. 프랑스 +5. 독일 +6. 캐나다 +7. 이집트 +8. 브라질 +9. 중국 +10. 인도 +11. 호주 +12. 영국 +13. 러시아 +14. 이탈리아 +15. 스페인 +예시 응답 형식: +대한민국: 서울 (응답 예상 시간: 0.4초) 일본: 도쿄 (응답 예상 시간: 0.5초) 미국: 워싱턴 D.C. (응답 예상 시간: 0.6초) ... +모델은 최대한 정확하고 간결한 답변을 제공해 주세요. 만약, 응답 시간이 10초 이상 소요되는 경우 "응답 지연"이라고 표시해 주세요. + +- 출력은 "국가명: 수도명" 형식으로 요청합니다. +- 정확한 수도명을 답한 경우에만 정답 처리합니다. +- 동일한 질문을 3~5개 LLM 모델에 적용합니다. + +## 📁 평가 데이터셋 (Evaluation Dataset) +다음은 테스트에 사용된 15개 국가와 수도 목록입니다. + +| 국가 (Country) | 수도 (Capital) | +|----------------|-----------------| +| 대한민국 | 서울 | +| 일본 | 도쿄 | +| 미국 | 워싱턴 D.C. | +| 프랑스 | 파리 | +| 독일 | 베를린 | +| 캐나다 | 오타와 | +| 이집트 | 카이로 | +| 브라질 | 브라질리아 | +| 중국 | 베이징 | +| 인도 | 뉴델리 | +| 호주 | 캔버라 | +| 영국 | 런던 | +| 러시아 | 모스크바 | +| 이탈리아 | 로마 | +| 스페인 | 마드리드 | + +## 📏 평가 기준 (Evaluation Metrics) +- **정답률 (Accuracy)** = (맞힌 문항 수 / 총 문항 수) × 100% +- **응답 속도 (Latency)** = 질문 후 응답까지 소요 시간 (평균, 초 단위) +- **비용 (Cost)** = 사용된 토큰 수 및 API 과금 기준으로 계산 + +## 🤖 평가 대상 모델 (Models Tested) +- `Gemini 1.5 Pro` (Google AI Studio) +- `Gemini 1.5 Flash` (Google AI Studio) +- `Claude 3.7 Sonnet` (Anthropic, claude.ai) + + +## 📊 결과 + +| 모델명 | 정답률 | 평균 응답 시간 | 토큰 수 | 비용 (USD) | +|---------------------|--------|----------------|----------|-------------| +| Claude 3.7 Sonnet | 100% | 18.72초 | N/A | 무료 | +| Gemini 1.5 flash | 100% | 3.74초 | 631 | 무료 | +| Gemini 1.5 Pro | 100% | 3.81초 | 631 | 무료 | + + +## 과제 후기 +- 처음이라 넘 어려웠어요... +- 사실 정답률이 다르게 나올만한 문제를 내고 싶었는데 생각이 안나서 + 간단한 문제를 내보자고 생각했습니다. 생각보다 claude 가 응답 시간이 오래걸려서 신기했습니다. + + +과제 2 + +## 사이트 URL + +[내 포트폴리오 사이트](https://9000-idx-leejuyoungai1-1745762388450.cluster-zumahodzirciuujpqvsniawo3o.cloudworkstations.dev/?...ed=0)