From 192521ee56d889944a2fa0326436a14fd7b8c7a9 Mon Sep 17 00:00:00 2001 From: Weeny326 Date: Fri, 18 Apr 2025 22:03:38 +0900 Subject: [PATCH 1/5] =?UTF-8?q?1=EC=B0=A8=20=EA=B3=BC=EC=A0=9C=20=EC=B4=88?= =?UTF-8?q?=EC=95=88?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- "submission/\354\235\264\354\243\274\354\230\201.md" | 3 +++ 1 file changed, 3 insertions(+) create mode 100644 "submission/\354\235\264\354\243\274\354\230\201.md" diff --git "a/submission/\354\235\264\354\243\274\354\230\201.md" "b/submission/\354\235\264\354\243\274\354\230\201.md" new file mode 100644 index 0000000..bbd86f9 --- /dev/null +++ "b/submission/\354\235\264\354\243\274\354\230\201.md" @@ -0,0 +1,3 @@ +###이주영### + +과제 1 ~~~~ From 727f67338b5103f4aeb00cea4b77efa3090f1511 Mon Sep 17 00:00:00 2001 From: Weeny326 Date: Fri, 25 Apr 2025 21:36:10 +0900 Subject: [PATCH 2/5] Update README.md --- README.md | 80 ++++++++++++++++++++++++++++++++++++++++++++++++------- 1 file changed, 70 insertions(+), 10 deletions(-) diff --git a/README.md b/README.md index 5c2d1ef..b97c00e 100644 --- a/README.md +++ b/README.md @@ -38,17 +38,77 @@ DeepSeek R1 (OpenRouter) / 500B / 정답률 30%, 속도: ... ... --- ``` +# 🗺️ 수도 맞히기 벤치마크 (LLM Capital Benchmark) _ 이주영 + +## 🎯 목적 (Objective) +대규모 언어 모델(Large Language Models, LLM)이 일반 상식, 특히 세계 국가들의 수도에 대한 지식 정확도를 평가합니다. + +## 🧪 테스트 방식 (Test Method) +- 15개 국가명을 모델에게 입력하고 "[국가명]의 수도는 어디인가요?"라고 질문합니다. +- 출력은 "국가명: 수도명" 형식으로 요청합니다. +- 정확한 수도명을 답한 경우에만 정답 처리합니다. +- 동일한 질문을 3~5개 LLM 모델에 적용합니다. + +## 📁 평가 데이터셋 (Evaluation Dataset) +다음은 테스트에 사용된 15개 국가와 수도 목록입니다. + +| 국가 (Country) | 수도 (Capital) | +|----------------|-----------------| +| 대한민국 | 서울 | +| 일본 | 도쿄 | +| 미국 | 워싱턴 D.C. | +| 프랑스 | 파리 | +| 독일 | 베를린 | +| 캐나다 | 오타와 | +| 이집트 | 카이로 | +| 브라질 | 브라질리아 | +| 중국 | 베이징 | +| 인도 | 뉴델리 | +| 호주 | 캔버라 | +| 영국 | 런던 | +| 러시아 | 모스크바 | +| 이탈리아 | 로마 | +| 스페인 | 마드리드 | + +## 📏 평가 기준 (Evaluation Metrics) +- **정답률 (Accuracy)** = (맞힌 문항 수 / 총 문항 수) × 100% +- **응답 속도 (Latency)** = 질문 후 응답까지 소요 시간 (평균, 초 단위) +- **비용 (Cost)** = 사용된 토큰 수 및 API 과금 기준으로 계산 + +## 🤖 평가 대상 모델 (Models Tested) +- `GPT-4o` (ChatGPT, OpenAI) +- `Gemini 1.5 Pro` (Google AI Studio) +- `Gemini 1.5 Flash` (Google AI Studio) +- `Claude 3 Sonnet` (Anthropic, claude.ai) +- `DeepSeek R1` (OpenRouter) + +## 📊 결과 예시 (Example Results) + +| 모델명 | 정답률 | 평균 응답 시간 | 토큰 수 | 비용 (USD) | +|---------------------|--------|----------------|----------|-------------| +| GPT-4o | 93% | 7초 | 220 | $0.02 | +| Gemini 1.5 Pro | 100% | 6초 | 180 | 무료 | +| Claude 3 Sonnet | 86% | 5초 | N/A | 무료 | +| DeepSeek R1 | 66% | 9초 | 260 | 무료 | + +## ✅ 사용 방법 (Usage Guide) +1. 각 모델에 대해 동일한 15개 질문을 차례로 입력합니다. +2. 응답 결과를 표 형식으로 정리합니다. +3. 정답과 비교해 정확도를 계산합니다. +4. 응답 시간, 토큰 수, 비용 등을 함께 기록합니다. + +## 📌 참고사항 (Notes) +- 질문 형식을 통일해 공정성을 확보하세요 (예: "[국가명]의 수도는 어디인가요?"). +- 답변 형식은 "국가명: 수도명"으로 요청하여 파싱을 쉽게 만듭니다. +- 자동화를 위해 Python + API(OpenAI, Google, etc)를 이용할 수 있습니다. +- 결과를 기반으로 모델별 일반 상식 이해도 및 비용 효율성을 비교할 수 있습니다. + +--- + + + ### 두 번째 미션 -#### 개발자 전용: Gemini API를 이용한 PDF 데이터 정형화 추출 -* 과제 목표: Gemini API의 File API와 Structured Output 기능을 활용하여 PDF 문서에서 특정 데이터를 추출하고 Pydantic 모델로 구조화하는 방법을 이해하고 실습할 수 있습니다. -* 요구 사항: - * Gemini API의 File API를 이용하여 PDF 파일을 업로드하고, Pydantic 모델을 정의하여 해당 PDF 파일에서 원하는 데이터를 정형화된 형태로 추출하는 코드를 작성합니다. - * 샘플 PDF 파일(invoice.pdf, handwriting_form.pdf) 또는 개인적으로 준비한 PDF 파일을 사용해도 좋습니다. - * 모델은 Gemini 2.5 Flash를 이용합니다. -* 최종 결과물: 작성된 결과물을 Pull Request로 올려주세요. -* 참고자료: Jupyter Notebook - * [Pdf_structured_outputs_on_invoices_and_forms.ipynb](docs/Pdf_structured_outputs_on_invoices_and_forms.ipynb) #### 기획자 전용: Vibe Coding으로 포트폴리오 사이트 만들기 * 과제 목표: 개발자의 도움 없이도 바이브 코딩으로 프론트엔드를 만들어볼 수 있다. @@ -61,4 +121,4 @@ DeepSeek R1 (OpenRouter) / 500B / 정답률 30%, 속도: ... ## 제출 방법 * YouTube 링크를 참조 해주세요. * [Markdown 사용법](https://m.youtube.com/watch?v=kMEb_BzyUqk&t=0s) 을 익혀봅니다. -* GitHub Pull Request를 이용하여 제출 합니다. 이름: `제출자_이름.md` 팀인 경우 `제출자이름1_제출자이름2.md` 로 적어주세요. \ No newline at end of file +* GitHub Pull Request를 이용하여 제출 합니다. 이름: `제출자_이름.md` 팀인 경우 `제출자이름1_제출자이름2.md` 로 적어주세요. From db30af22e67d0b0a9aa231846bb3e54ad5d169f4 Mon Sep 17 00:00:00 2001 From: Weeny326 Date: Fri, 25 Apr 2025 22:00:36 +0900 Subject: [PATCH 3/5] =?UTF-8?q?Update=20=EC=9D=B4=EC=A3=BC=EC=98=81=5F1?= =?UTF-8?q?=EC=B0=A8=EA=B3=BC=EC=A0=9C.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../\354\235\264\354\243\274\354\230\201.md" | 85 ++++++++++++++++++- 1 file changed, 84 insertions(+), 1 deletion(-) diff --git "a/submission/\354\235\264\354\243\274\354\230\201.md" "b/submission/\354\235\264\354\243\274\354\230\201.md" index bbd86f9..0f10fc5 100644 --- "a/submission/\354\235\264\354\243\274\354\230\201.md" +++ "b/submission/\354\235\264\354\243\274\354\230\201.md" @@ -1,3 +1,86 @@ ###이주영### -과제 1 ~~~~ +과제 1 +# 🗺️ 수도 맞히기 벤치마크 (LLM Capital Benchmark) + +## 🎯 목적 (Objective) +대규모 언어 모델(Large Language Models, LLM)이 일반 상식, 특히 세계 국가들의 수도에 대한 지식 정확도를 평가합니다. + +## 🧪 테스트 방식 (Test Method) +- 15개 국가명을 모델에게 입력하고 "[국가명]의 수도는 어디인가요?"라고 질문합니다. +- 테스트용 프롬프트 + [테스트용] +다음 15개 국가에 대해 "국가명: 수도명" 형식으로 답변을 요청합니다. 또한, 각 응답을 받는 데 걸리는 시간(초)을 추정해서 함께 작성해 주세요. 응답 시간은 예상 시간을 제공해 주세요. +형식은 다음과 같이 통일해 주세요: +국가명: 수도명 (응답 예상 시간: X초) +목록: +1. 대한민국 +2. 일본 +3. 미국 +4. 프랑스 +5. 독일 +6. 캐나다 +7. 이집트 +8. 브라질 +9. 중국 +10. 인도 +11. 호주 +12. 영국 +13. 러시아 +14. 이탈리아 +15. 스페인 +예시 응답 형식: +대한민국: 서울 (응답 예상 시간: 0.4초) 일본: 도쿄 (응답 예상 시간: 0.5초) 미국: 워싱턴 D.C. (응답 예상 시간: 0.6초) ... +모델은 최대한 정확하고 간결한 답변을 제공해 주세요. 만약, 응답 시간이 10초 이상 소요되는 경우 "응답 지연"이라고 표시해 주세요. + +- 출력은 "국가명: 수도명" 형식으로 요청합니다. +- 정확한 수도명을 답한 경우에만 정답 처리합니다. +- 동일한 질문을 3~5개 LLM 모델에 적용합니다. + +## 📁 평가 데이터셋 (Evaluation Dataset) +다음은 테스트에 사용된 15개 국가와 수도 목록입니다. + +| 국가 (Country) | 수도 (Capital) | +|----------------|-----------------| +| 대한민국 | 서울 | +| 일본 | 도쿄 | +| 미국 | 워싱턴 D.C. | +| 프랑스 | 파리 | +| 독일 | 베를린 | +| 캐나다 | 오타와 | +| 이집트 | 카이로 | +| 브라질 | 브라질리아 | +| 중국 | 베이징 | +| 인도 | 뉴델리 | +| 호주 | 캔버라 | +| 영국 | 런던 | +| 러시아 | 모스크바 | +| 이탈리아 | 로마 | +| 스페인 | 마드리드 | + +## 📏 평가 기준 (Evaluation Metrics) +- **정답률 (Accuracy)** = (맞힌 문항 수 / 총 문항 수) × 100% +- **응답 속도 (Latency)** = 질문 후 응답까지 소요 시간 (평균, 초 단위) +- **비용 (Cost)** = 사용된 토큰 수 및 API 과금 기준으로 계산 + +## 🤖 평가 대상 모델 (Models Tested) +- `Gemini 1.5 Pro` (Google AI Studio) +- `Gemini 1.5 Flash` (Google AI Studio) +- `Claude 3.7 Sonnet` (Anthropic, claude.ai) + + +## 📊 결과 + +| 모델명 | 정답률 | 평균 응답 시간 | 토큰 수 | 비용 (USD) | +|---------------------|--------|----------------|----------|-------------| +| Claude 3.7 Sonnet | 100% | 18.72초 | N/A | 무료 | +| Gemini 1.5 flash | 100% | 3.74초 | 631 | 무료 | +| Gemini 1.5 Pro | 100% | 3.81초 | 631 | 무료 | + + +## 과제 후기 +- 처음이라 넘 어려웠어요... +- 사실 정답률이 다르게 나올만한 문제를 내고 싶었는데 생각이 안나서 + 간단한 문제를 내보자고 생각했습니다. 생각보다 claude 가 응답 시간이 오래걸려서 신기했습니다. + + From 43723f820f5948bc30daffa455caba47025edf4e Mon Sep 17 00:00:00 2001 From: Weeny326 Date: Fri, 25 Apr 2025 22:02:19 +0900 Subject: [PATCH 4/5] Update README.md --- README.md | 66 +------------------------------------------------------ 1 file changed, 1 insertion(+), 65 deletions(-) diff --git a/README.md b/README.md index b97c00e..0505917 100644 --- a/README.md +++ b/README.md @@ -39,71 +39,7 @@ DeepSeek R1 (OpenRouter) / 500B / 정답률 30%, 속도: ... --- ``` # 🗺️ 수도 맞히기 벤치마크 (LLM Capital Benchmark) _ 이주영 - -## 🎯 목적 (Objective) -대규모 언어 모델(Large Language Models, LLM)이 일반 상식, 특히 세계 국가들의 수도에 대한 지식 정확도를 평가합니다. - -## 🧪 테스트 방식 (Test Method) -- 15개 국가명을 모델에게 입력하고 "[국가명]의 수도는 어디인가요?"라고 질문합니다. -- 출력은 "국가명: 수도명" 형식으로 요청합니다. -- 정확한 수도명을 답한 경우에만 정답 처리합니다. -- 동일한 질문을 3~5개 LLM 모델에 적용합니다. - -## 📁 평가 데이터셋 (Evaluation Dataset) -다음은 테스트에 사용된 15개 국가와 수도 목록입니다. - -| 국가 (Country) | 수도 (Capital) | -|----------------|-----------------| -| 대한민국 | 서울 | -| 일본 | 도쿄 | -| 미국 | 워싱턴 D.C. | -| 프랑스 | 파리 | -| 독일 | 베를린 | -| 캐나다 | 오타와 | -| 이집트 | 카이로 | -| 브라질 | 브라질리아 | -| 중국 | 베이징 | -| 인도 | 뉴델리 | -| 호주 | 캔버라 | -| 영국 | 런던 | -| 러시아 | 모스크바 | -| 이탈리아 | 로마 | -| 스페인 | 마드리드 | - -## 📏 평가 기준 (Evaluation Metrics) -- **정답률 (Accuracy)** = (맞힌 문항 수 / 총 문항 수) × 100% -- **응답 속도 (Latency)** = 질문 후 응답까지 소요 시간 (평균, 초 단위) -- **비용 (Cost)** = 사용된 토큰 수 및 API 과금 기준으로 계산 - -## 🤖 평가 대상 모델 (Models Tested) -- `GPT-4o` (ChatGPT, OpenAI) -- `Gemini 1.5 Pro` (Google AI Studio) -- `Gemini 1.5 Flash` (Google AI Studio) -- `Claude 3 Sonnet` (Anthropic, claude.ai) -- `DeepSeek R1` (OpenRouter) - -## 📊 결과 예시 (Example Results) - -| 모델명 | 정답률 | 평균 응답 시간 | 토큰 수 | 비용 (USD) | -|---------------------|--------|----------------|----------|-------------| -| GPT-4o | 93% | 7초 | 220 | $0.02 | -| Gemini 1.5 Pro | 100% | 6초 | 180 | 무료 | -| Claude 3 Sonnet | 86% | 5초 | N/A | 무료 | -| DeepSeek R1 | 66% | 9초 | 260 | 무료 | - -## ✅ 사용 방법 (Usage Guide) -1. 각 모델에 대해 동일한 15개 질문을 차례로 입력합니다. -2. 응답 결과를 표 형식으로 정리합니다. -3. 정답과 비교해 정확도를 계산합니다. -4. 응답 시간, 토큰 수, 비용 등을 함께 기록합니다. - -## 📌 참고사항 (Notes) -- 질문 형식을 통일해 공정성을 확보하세요 (예: "[국가명]의 수도는 어디인가요?"). -- 답변 형식은 "국가명: 수도명"으로 요청하여 파싱을 쉽게 만듭니다. -- 자동화를 위해 Python + API(OpenAI, Google, etc)를 이용할 수 있습니다. -- 결과를 기반으로 모델별 일반 상식 이해도 및 비용 효율성을 비교할 수 있습니다. - ---- +(submission 에 이주영.md 파일에 결과 작성했습니다.) From 238402a5c5cf2f452363d4a38dd9eb13cd9afc60 Mon Sep 17 00:00:00 2001 From: Weeny326 Date: Sun, 27 Apr 2025 23:10:34 +0900 Subject: [PATCH 5/5] =?UTF-8?q?Update=20=EC=9D=B4=EC=A3=BC=EC=98=81.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- "submission/\354\235\264\354\243\274\354\230\201.md" | 5 +++++ 1 file changed, 5 insertions(+) diff --git "a/submission/\354\235\264\354\243\274\354\230\201.md" "b/submission/\354\235\264\354\243\274\354\230\201.md" index 0f10fc5..de8c4a1 100644 --- "a/submission/\354\235\264\354\243\274\354\230\201.md" +++ "b/submission/\354\235\264\354\243\274\354\230\201.md" @@ -84,3 +84,8 @@ 간단한 문제를 내보자고 생각했습니다. 생각보다 claude 가 응답 시간이 오래걸려서 신기했습니다. +과제 2 + +## 사이트 URL + +[내 포트폴리오 사이트](https://9000-idx-leejuyoungai1-1745762388450.cluster-zumahodzirciuujpqvsniawo3o.cloudworkstations.dev/?...ed=0)