From 192521ee56d889944a2fa0326436a14fd7b8c7a9 Mon Sep 17 00:00:00 2001
From: Weeny326 <jinny0326@ewhain.net>
Date: Fri, 18 Apr 2025 22:03:38 +0900
Subject: [PATCH 1/5] =?UTF-8?q?1=EC=B0=A8=20=EA=B3=BC=EC=A0=9C=20=EC=B4=88?=
 =?UTF-8?q?=EC=95=88?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 "submission/\354\235\264\354\243\274\354\230\201.md" | 3 +++
 1 file changed, 3 insertions(+)
 create mode 100644 "submission/\354\235\264\354\243\274\354\230\201.md"

diff --git "a/submission/\354\235\264\354\243\274\354\230\201.md" "b/submission/\354\235\264\354\243\274\354\230\201.md"
new file mode 100644
index 0000000..bbd86f9
--- /dev/null
+++ "b/submission/\354\235\264\354\243\274\354\230\201.md"
@@ -0,0 +1,3 @@
+###이주영###
+
+과제 1 ~~~~ 

From 727f67338b5103f4aeb00cea4b77efa3090f1511 Mon Sep 17 00:00:00 2001
From: Weeny326 <jinny0326@ewhain.net>
Date: Fri, 25 Apr 2025 21:36:10 +0900
Subject: [PATCH 2/5] Update README.md

---
 README.md | 80 ++++++++++++++++++++++++++++++++++++++++++++++++-------
 1 file changed, 70 insertions(+), 10 deletions(-)

diff --git a/README.md b/README.md
index 5c2d1ef..b97c00e 100644
--- a/README.md
+++ b/README.md
@@ -38,17 +38,77 @@ DeepSeek R1 (OpenRouter) / 500B / 정답률 30%, 속도: ...
 ...
 ---
 ```
+# 🗺️ 수도 맞히기 벤치마크 (LLM Capital Benchmark) _ 이주영
+
+## 🎯 목적 (Objective)
+대규모 언어 모델(Large Language Models, LLM)이 일반 상식, 특히 세계 국가들의 수도에 대한 지식 정확도를 평가합니다.
+
+## 🧪 테스트 방식 (Test Method)
+- 15개 국가명을 모델에게 입력하고 "[국가명]의 수도는 어디인가요?"라고 질문합니다.
+- 출력은 "국가명: 수도명" 형식으로 요청합니다.
+- 정확한 수도명을 답한 경우에만 정답 처리합니다.
+- 동일한 질문을 3~5개 LLM 모델에 적용합니다.
+
+## 📁 평가 데이터셋 (Evaluation Dataset)
+다음은 테스트에 사용된 15개 국가와 수도 목록입니다.
+
+| 국가 (Country) | 수도 (Capital) |
+|----------------|-----------------|
+| 대한민국       | 서울            |
+| 일본           | 도쿄            |
+| 미국           | 워싱턴 D.C.     |
+| 프랑스         | 파리            |
+| 독일           | 베를린          |
+| 캐나다         | 오타와          |
+| 이집트         | 카이로          |
+| 브라질         | 브라질리아      |
+| 중국           | 베이징          |
+| 인도           | 뉴델리          |
+| 호주           | 캔버라          |
+| 영국           | 런던            |
+| 러시아         | 모스크바        |
+| 이탈리아       | 로마            |
+| 스페인         | 마드리드        |
+
+## 📏 평가 기준 (Evaluation Metrics)
+- **정답률 (Accuracy)** = (맞힌 문항 수 / 총 문항 수) × 100%
+- **응답 속도 (Latency)** = 질문 후 응답까지 소요 시간 (평균, 초 단위)
+- **비용 (Cost)** = 사용된 토큰 수 및 API 과금 기준으로 계산
+
+## 🤖 평가 대상 모델 (Models Tested)
+- `GPT-4o` (ChatGPT, OpenAI)
+- `Gemini 1.5 Pro` (Google AI Studio)
+- `Gemini 1.5 Flash` (Google AI Studio)
+- `Claude 3 Sonnet` (Anthropic, claude.ai)
+- `DeepSeek R1` (OpenRouter)
+
+## 📊 결과 예시 (Example Results)
+
+| 모델명             | 정답률 | 평균 응답 시간 | 토큰 수 | 비용 (USD) |
+|---------------------|--------|----------------|----------|-------------|
+| GPT-4o              | 93%    | 7초            | 220      | $0.02       |
+| Gemini 1.5 Pro      | 100%   | 6초            | 180      | 무료        |
+| Claude 3 Sonnet     | 86%    | 5초            | N/A      | 무료        |
+| DeepSeek R1         | 66%    | 9초            | 260      | 무료        |
+
+## ✅ 사용 방법 (Usage Guide)
+1. 각 모델에 대해 동일한 15개 질문을 차례로 입력합니다.
+2. 응답 결과를 표 형식으로 정리합니다.
+3. 정답과 비교해 정확도를 계산합니다.
+4. 응답 시간, 토큰 수, 비용 등을 함께 기록합니다.
+
+## 📌 참고사항 (Notes)
+- 질문 형식을 통일해 공정성을 확보하세요 (예: "[국가명]의 수도는 어디인가요?").
+- 답변 형식은 "국가명: 수도명"으로 요청하여 파싱을 쉽게 만듭니다.
+- 자동화를 위해 Python + API(OpenAI, Google, etc)를 이용할 수 있습니다.
+- 결과를 기반으로 모델별 일반 상식 이해도 및 비용 효율성을 비교할 수 있습니다.
+
+---
+
+
+
 
 ### 두 번째 미션
-#### 개발자 전용: Gemini API를 이용한 PDF 데이터 정형화 추출
-* 과제 목표: Gemini API의 File API와 Structured Output 기능을 활용하여 PDF 문서에서 특정 데이터를 추출하고 Pydantic 모델로 구조화하는 방법을 이해하고 실습할 수 있습니다.
-* 요구 사항:
-  * Gemini API의 File API를 이용하여 PDF 파일을 업로드하고, Pydantic 모델을 정의하여 해당 PDF 파일에서 원하는 데이터를 정형화된 형태로 추출하는 코드를 작성합니다.
-  * 샘플 PDF 파일(invoice.pdf, handwriting_form.pdf) 또는 개인적으로 준비한 PDF 파일을 사용해도 좋습니다.
-  * 모델은 Gemini 2.5 Flash를 이용합니다.
-* 최종 결과물: 작성된 결과물을 Pull Request로 올려주세요.
-* 참고자료: Jupyter Notebook
-  * [Pdf_structured_outputs_on_invoices_and_forms.ipynb](docs/Pdf_structured_outputs_on_invoices_and_forms.ipynb)
 
 #### 기획자 전용: Vibe Coding으로 포트폴리오 사이트 만들기
 * 과제 목표: 개발자의 도움 없이도 바이브 코딩으로 프론트엔드를 만들어볼 수 있다.
@@ -61,4 +121,4 @@ DeepSeek R1 (OpenRouter) / 500B / 정답률 30%, 속도: ...
 ## 제출 방법
 * YouTube 링크를 참조 해주세요.
 * [Markdown 사용법](https://m.youtube.com/watch?v=kMEb_BzyUqk&t=0s) 을 익혀봅니다.
-* GitHub Pull Request를 이용하여 제출 합니다. 이름: `제출자_이름.md` 팀인 경우 `제출자이름1_제출자이름2.md` 로 적어주세요.
\ No newline at end of file
+* GitHub Pull Request를 이용하여 제출 합니다. 이름: `제출자_이름.md` 팀인 경우 `제출자이름1_제출자이름2.md` 로 적어주세요.

From db30af22e67d0b0a9aa231846bb3e54ad5d169f4 Mon Sep 17 00:00:00 2001
From: Weeny326 <jinny0326@ewhain.net>
Date: Fri, 25 Apr 2025 22:00:36 +0900
Subject: [PATCH 3/5] =?UTF-8?q?Update=20=EC=9D=B4=EC=A3=BC=EC=98=81=5F1?=
 =?UTF-8?q?=EC=B0=A8=EA=B3=BC=EC=A0=9C.md?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 .../\354\235\264\354\243\274\354\230\201.md"  | 85 ++++++++++++++++++-
 1 file changed, 84 insertions(+), 1 deletion(-)

diff --git "a/submission/\354\235\264\354\243\274\354\230\201.md" "b/submission/\354\235\264\354\243\274\354\230\201.md"
index bbd86f9..0f10fc5 100644
--- "a/submission/\354\235\264\354\243\274\354\230\201.md"
+++ "b/submission/\354\235\264\354\243\274\354\230\201.md"
@@ -1,3 +1,86 @@
 ###이주영###
 
-과제 1 ~~~~ 
+과제 1 
+# 🗺️ 수도 맞히기 벤치마크 (LLM Capital Benchmark)
+
+## 🎯 목적 (Objective)
+대규모 언어 모델(Large Language Models, LLM)이 일반 상식, 특히 세계 국가들의 수도에 대한 지식 정확도를 평가합니다.
+
+## 🧪 테스트 방식 (Test Method)
+- 15개 국가명을 모델에게 입력하고 "[국가명]의 수도는 어디인가요?"라고 질문합니다.
+- 테스트용 프롬프트
+  [테스트용]
+다음 15개 국가에 대해 "국가명: 수도명" 형식으로 답변을 요청합니다. 또한, 각 응답을 받는 데 걸리는 시간(초)을 추정해서 함께 작성해 주세요. 응답 시간은 예상 시간을 제공해 주세요.
+형식은 다음과 같이 통일해 주세요:
+국가명: 수도명 (응답 예상 시간: X초)
+목록:
+1. 대한민국
+2. 일본
+3. 미국
+4. 프랑스
+5. 독일
+6. 캐나다
+7. 이집트
+8. 브라질
+9. 중국
+10. 인도
+11. 호주
+12. 영국
+13. 러시아
+14. 이탈리아
+15. 스페인
+예시 응답 형식:
+대한민국: 서울 (응답 예상 시간: 0.4초) 일본: 도쿄 (응답 예상 시간: 0.5초) 미국: 워싱턴 D.C. (응답 예상 시간: 0.6초) ...
+모델은 최대한 정확하고 간결한 답변을 제공해 주세요. 만약, 응답 시간이 10초 이상 소요되는 경우 "응답 지연"이라고 표시해 주세요.
+
+- 출력은 "국가명: 수도명" 형식으로 요청합니다.
+- 정확한 수도명을 답한 경우에만 정답 처리합니다.
+- 동일한 질문을 3~5개 LLM 모델에 적용합니다.
+
+## 📁 평가 데이터셋 (Evaluation Dataset)
+다음은 테스트에 사용된 15개 국가와 수도 목록입니다.
+
+| 국가 (Country) | 수도 (Capital) |
+|----------------|-----------------|
+| 대한민국       | 서울            |
+| 일본           | 도쿄            |
+| 미국           | 워싱턴 D.C.     |
+| 프랑스         | 파리            |
+| 독일           | 베를린          |
+| 캐나다         | 오타와          |
+| 이집트         | 카이로          |
+| 브라질         | 브라질리아      |
+| 중국           | 베이징          |
+| 인도           | 뉴델리          |
+| 호주           | 캔버라          |
+| 영국           | 런던            |
+| 러시아         | 모스크바        |
+| 이탈리아       | 로마            |
+| 스페인         | 마드리드        |
+
+## 📏 평가 기준 (Evaluation Metrics)
+- **정답률 (Accuracy)** = (맞힌 문항 수 / 총 문항 수) × 100%
+- **응답 속도 (Latency)** = 질문 후 응답까지 소요 시간 (평균, 초 단위)
+- **비용 (Cost)** = 사용된 토큰 수 및 API 과금 기준으로 계산
+
+## 🤖 평가 대상 모델 (Models Tested)
+- `Gemini 1.5 Pro` (Google AI Studio)
+- `Gemini 1.5 Flash` (Google AI Studio)
+- `Claude 3.7 Sonnet` (Anthropic, claude.ai)
+
+
+## 📊 결과 
+
+| 모델명             | 정답률 | 평균 응답 시간 | 토큰 수 | 비용 (USD) |
+|---------------------|--------|----------------|----------|-------------|
+| Claude 3.7 Sonnet   | 100%   | 18.72초        | N/A      | 무료        |
+| Gemini 1.5 flash    | 100%   | 3.74초         | 631      | 무료        |
+| Gemini 1.5 Pro      | 100%   | 3.81초         | 631      | 무료        |
+
+
+## 과제 후기 
+- 처음이라 넘 어려웠어요...
+- 사실 정답률이 다르게 나올만한 문제를 내고 싶었는데 생각이 안나서
+  간단한 문제를 내보자고 생각했습니다. 생각보다 claude 가 응답 시간이 오래걸려서 신기했습니다.
+
+

From 43723f820f5948bc30daffa455caba47025edf4e Mon Sep 17 00:00:00 2001
From: Weeny326 <jinny0326@ewhain.net>
Date: Fri, 25 Apr 2025 22:02:19 +0900
Subject: [PATCH 4/5] Update README.md

---
 README.md | 66 +------------------------------------------------------
 1 file changed, 1 insertion(+), 65 deletions(-)

diff --git a/README.md b/README.md
index b97c00e..0505917 100644
--- a/README.md
+++ b/README.md
@@ -39,71 +39,7 @@ DeepSeek R1 (OpenRouter) / 500B / 정답률 30%, 속도: ...
 ---
 ```
 # 🗺️ 수도 맞히기 벤치마크 (LLM Capital Benchmark) _ 이주영
-
-## 🎯 목적 (Objective)
-대규모 언어 모델(Large Language Models, LLM)이 일반 상식, 특히 세계 국가들의 수도에 대한 지식 정확도를 평가합니다.
-
-## 🧪 테스트 방식 (Test Method)
-- 15개 국가명을 모델에게 입력하고 "[국가명]의 수도는 어디인가요?"라고 질문합니다.
-- 출력은 "국가명: 수도명" 형식으로 요청합니다.
-- 정확한 수도명을 답한 경우에만 정답 처리합니다.
-- 동일한 질문을 3~5개 LLM 모델에 적용합니다.
-
-## 📁 평가 데이터셋 (Evaluation Dataset)
-다음은 테스트에 사용된 15개 국가와 수도 목록입니다.
-
-| 국가 (Country) | 수도 (Capital) |
-|----------------|-----------------|
-| 대한민국       | 서울            |
-| 일본           | 도쿄            |
-| 미국           | 워싱턴 D.C.     |
-| 프랑스         | 파리            |
-| 독일           | 베를린          |
-| 캐나다         | 오타와          |
-| 이집트         | 카이로          |
-| 브라질         | 브라질리아      |
-| 중국           | 베이징          |
-| 인도           | 뉴델리          |
-| 호주           | 캔버라          |
-| 영국           | 런던            |
-| 러시아         | 모스크바        |
-| 이탈리아       | 로마            |
-| 스페인         | 마드리드        |
-
-## 📏 평가 기준 (Evaluation Metrics)
-- **정답률 (Accuracy)** = (맞힌 문항 수 / 총 문항 수) × 100%
-- **응답 속도 (Latency)** = 질문 후 응답까지 소요 시간 (평균, 초 단위)
-- **비용 (Cost)** = 사용된 토큰 수 및 API 과금 기준으로 계산
-
-## 🤖 평가 대상 모델 (Models Tested)
-- `GPT-4o` (ChatGPT, OpenAI)
-- `Gemini 1.5 Pro` (Google AI Studio)
-- `Gemini 1.5 Flash` (Google AI Studio)
-- `Claude 3 Sonnet` (Anthropic, claude.ai)
-- `DeepSeek R1` (OpenRouter)
-
-## 📊 결과 예시 (Example Results)
-
-| 모델명             | 정답률 | 평균 응답 시간 | 토큰 수 | 비용 (USD) |
-|---------------------|--------|----------------|----------|-------------|
-| GPT-4o              | 93%    | 7초            | 220      | $0.02       |
-| Gemini 1.5 Pro      | 100%   | 6초            | 180      | 무료        |
-| Claude 3 Sonnet     | 86%    | 5초            | N/A      | 무료        |
-| DeepSeek R1         | 66%    | 9초            | 260      | 무료        |
-
-## ✅ 사용 방법 (Usage Guide)
-1. 각 모델에 대해 동일한 15개 질문을 차례로 입력합니다.
-2. 응답 결과를 표 형식으로 정리합니다.
-3. 정답과 비교해 정확도를 계산합니다.
-4. 응답 시간, 토큰 수, 비용 등을 함께 기록합니다.
-
-## 📌 참고사항 (Notes)
-- 질문 형식을 통일해 공정성을 확보하세요 (예: "[국가명]의 수도는 어디인가요?").
-- 답변 형식은 "국가명: 수도명"으로 요청하여 파싱을 쉽게 만듭니다.
-- 자동화를 위해 Python + API(OpenAI, Google, etc)를 이용할 수 있습니다.
-- 결과를 기반으로 모델별 일반 상식 이해도 및 비용 효율성을 비교할 수 있습니다.
-
----
+(submission 에 이주영.md 파일에 결과 작성했습니다.)
 
 
 

From 238402a5c5cf2f452363d4a38dd9eb13cd9afc60 Mon Sep 17 00:00:00 2001
From: Weeny326 <jinny0326@ewhain.net>
Date: Sun, 27 Apr 2025 23:10:34 +0900
Subject: [PATCH 5/5] =?UTF-8?q?Update=20=EC=9D=B4=EC=A3=BC=EC=98=81.md?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 "submission/\354\235\264\354\243\274\354\230\201.md" | 5 +++++
 1 file changed, 5 insertions(+)

diff --git "a/submission/\354\235\264\354\243\274\354\230\201.md" "b/submission/\354\235\264\354\243\274\354\230\201.md"
index 0f10fc5..de8c4a1 100644
--- "a/submission/\354\235\264\354\243\274\354\230\201.md"
+++ "b/submission/\354\235\264\354\243\274\354\230\201.md"
@@ -84,3 +84,8 @@
   간단한 문제를 내보자고 생각했습니다. 생각보다 claude 가 응답 시간이 오래걸려서 신기했습니다.
 
 
+과제 2
+
+## 사이트 URL
+
+[내 포트폴리오 사이트](https://9000-idx-leejuyoungai1-1745762388450.cluster-zumahodzirciuujpqvsniawo3o.cloudworkstations.dev/?...ed=0)