SOPT-AI-25SS · Weeny326 · Apr 18, 2025 · Apr 25, 2025 · Apr 25, 2025 · Apr 25, 2025
diff --git a/README.md b/README.md
@@ -38,17 +38,13 @@ DeepSeek R1 (OpenRouter) / 500B / 정답률 30%, 속도: ...
 ...
 ---
 ```
+# 🗺️ 수도 맞히기 벤치마크 (LLM Capital Benchmark) _ 이주영
+(submission 에 이주영.md 파일에 결과 작성했습니다.)
+
+
+
 
 ### 두 번째 미션
-#### 개발자 전용: Gemini API를 이용한 PDF 데이터 정형화 추출
-* 과제 목표: Gemini API의 File API와 Structured Output 기능을 활용하여 PDF 문서에서 특정 데이터를 추출하고 Pydantic 모델로 구조화하는 방법을 이해하고 실습할 수 있습니다.
-* 요구 사항:
-  * Gemini API의 File API를 이용하여 PDF 파일을 업로드하고, Pydantic 모델을 정의하여 해당 PDF 파일에서 원하는 데이터를 정형화된 형태로 추출하는 코드를 작성합니다.
-  * 샘플 PDF 파일(invoice.pdf, handwriting_form.pdf) 또는 개인적으로 준비한 PDF 파일을 사용해도 좋습니다.
-  * 모델은 Gemini 2.5 Flash를 이용합니다.
-* 최종 결과물: 작성된 결과물을 Pull Request로 올려주세요.
-* 참고자료: Jupyter Notebook
-  * [Pdf_structured_outputs_on_invoices_and_forms.ipynb](docs/Pdf_structured_outputs_on_invoices_and_forms.ipynb)
 
 #### 기획자 전용: Vibe Coding으로 포트폴리오 사이트 만들기
 * 과제 목표: 개발자의 도움 없이도 바이브 코딩으로 프론트엔드를 만들어볼 수 있다.
@@ -61,4 +57,4 @@ DeepSeek R1 (OpenRouter) / 500B / 정답률 30%, 속도: ...
 ## 제출 방법
 * YouTube 링크를 참조 해주세요.
 * [Markdown 사용법](https://m.youtube.com/watch?v=kMEb_BzyUqk&t=0s) 을 익혀봅니다.
-* GitHub Pull Request를 이용하여 제출 합니다. 이름: `제출자_이름.md` 팀인 경우 `제출자이름1_제출자이름2.md` 로 적어주세요.
+* GitHub Pull Request를 이용하여 제출 합니다. 이름: `제출자_이름.md` 팀인 경우 `제출자이름1_제출자이름2.md` 로 적어주세요.
diff --git a/submission/이주영.md b/submission/이주영.md
@@ -0,0 +1,91 @@
+###이주영###
+
+과제 1 
+# 🗺️ 수도 맞히기 벤치마크 (LLM Capital Benchmark)
+
+## 🎯 목적 (Objective)
+대규모 언어 모델(Large Language Models, LLM)이 일반 상식, 특히 세계 국가들의 수도에 대한 지식 정확도를 평가합니다.
+
+## 🧪 테스트 방식 (Test Method)
+- 15개 국가명을 모델에게 입력하고 "[국가명]의 수도는 어디인가요?"라고 질문합니다.
+- 테스트용 프롬프트
+  [테스트용]
+다음 15개 국가에 대해 "국가명: 수도명" 형식으로 답변을 요청합니다. 또한, 각 응답을 받는 데 걸리는 시간(초)을 추정해서 함께 작성해 주세요. 응답 시간은 예상 시간을 제공해 주세요.
+형식은 다음과 같이 통일해 주세요:
+국가명: 수도명 (응답 예상 시간: X초)
+목록:
+1. 대한민국
+2. 일본
+3. 미국
+4. 프랑스
+5. 독일
+6. 캐나다
+7. 이집트
+8. 브라질
+9. 중국
+10. 인도
+11. 호주
+12. 영국
+13. 러시아
+14. 이탈리아
+15. 스페인
+예시 응답 형식:
+대한민국: 서울 (응답 예상 시간: 0.4초) 일본: 도쿄 (응답 예상 시간: 0.5초) 미국: 워싱턴 D.C. (응답 예상 시간: 0.6초) ...
+모델은 최대한 정확하고 간결한 답변을 제공해 주세요. 만약, 응답 시간이 10초 이상 소요되는 경우 "응답 지연"이라고 표시해 주세요.
+
+- 출력은 "국가명: 수도명" 형식으로 요청합니다.
+- 정확한 수도명을 답한 경우에만 정답 처리합니다.
+- 동일한 질문을 3~5개 LLM 모델에 적용합니다.
+
+## 📁 평가 데이터셋 (Evaluation Dataset)
+다음은 테스트에 사용된 15개 국가와 수도 목록입니다.
+
+| 국가 (Country) | 수도 (Capital) |
+|----------------|-----------------|
+| 대한민국       | 서울            |
+| 일본           | 도쿄            |
+| 미국           | 워싱턴 D.C.     |
+| 프랑스         | 파리            |
+| 독일           | 베를린          |
+| 캐나다         | 오타와          |
+| 이집트         | 카이로          |
+| 브라질         | 브라질리아      |
+| 중국           | 베이징          |
+| 인도           | 뉴델리          |
+| 호주           | 캔버라          |
+| 영국           | 런던            |
+| 러시아         | 모스크바        |
+| 이탈리아       | 로마            |
+| 스페인         | 마드리드        |
+
+## 📏 평가 기준 (Evaluation Metrics)
+- **정답률 (Accuracy)** = (맞힌 문항 수 / 총 문항 수) × 100%
+- **응답 속도 (Latency)** = 질문 후 응답까지 소요 시간 (평균, 초 단위)
+- **비용 (Cost)** = 사용된 토큰 수 및 API 과금 기준으로 계산
+
+## 🤖 평가 대상 모델 (Models Tested)
+- `Gemini 1.5 Pro` (Google AI Studio)
+- `Gemini 1.5 Flash` (Google AI Studio)
+- `Claude 3.7 Sonnet` (Anthropic, claude.ai)
+
+
+## 📊 결과 
+
+| 모델명             | 정답률 | 평균 응답 시간 | 토큰 수 | 비용 (USD) |
+|---------------------|--------|----------------|----------|-------------|
+| Claude 3.7 Sonnet   | 100%   | 18.72초        | N/A      | 무료        |
+| Gemini 1.5 flash    | 100%   | 3.74초         | 631      | 무료        |
+| Gemini 1.5 Pro      | 100%   | 3.81초         | 631      | 무료        |
+
+
+## 과제 후기 
+- 처음이라 넘 어려웠어요...
+- 사실 정답률이 다르게 나올만한 문제를 내고 싶었는데 생각이 안나서
+  간단한 문제를 내보자고 생각했습니다. 생각보다 claude 가 응답 시간이 오래걸려서 신기했습니다.
+
+
+과제 2
+
+## 사이트 URL
+
+[내 포트폴리오 사이트](https://9000-idx-leejuyoungai1-1745762388450.cluster-zumahodzirciuujpqvsniawo3o.cloudworkstations.dev/?...ed=0)