Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
16 changes: 6 additions & 10 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -38,17 +38,13 @@ DeepSeek R1 (OpenRouter) / 500B / 정답률 30%, 속도: ...
...
---
```
# 🗺️ 수도 맞히기 벤치마크 (LLM Capital Benchmark) _ 이주영
Copy link
Copy Markdown
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

README.md 자체를 바꾸시면 안됩니다! 모든 사람들이 보는거여서요. 이건 롤백해주세요.

(submission 에 이주영.md 파일에 결과 작성했습니다.)




### 두 번째 미션
#### 개발자 전용: Gemini API를 이용한 PDF 데이터 정형화 추출
* 과제 목표: Gemini API의 File API와 Structured Output 기능을 활용하여 PDF 문서에서 특정 데이터를 추출하고 Pydantic 모델로 구조화하는 방법을 이해하고 실습할 수 있습니다.
* 요구 사항:
* Gemini API의 File API를 이용하여 PDF 파일을 업로드하고, Pydantic 모델을 정의하여 해당 PDF 파일에서 원하는 데이터를 정형화된 형태로 추출하는 코드를 작성합니다.
* 샘플 PDF 파일(invoice.pdf, handwriting_form.pdf) 또는 개인적으로 준비한 PDF 파일을 사용해도 좋습니다.
* 모델은 Gemini 2.5 Flash를 이용합니다.
* 최종 결과물: 작성된 결과물을 Pull Request로 올려주세요.
* 참고자료: Jupyter Notebook
* [Pdf_structured_outputs_on_invoices_and_forms.ipynb](docs/Pdf_structured_outputs_on_invoices_and_forms.ipynb)

#### 기획자 전용: Vibe Coding으로 포트폴리오 사이트 만들기
* 과제 목표: 개발자의 도움 없이도 바이브 코딩으로 프론트엔드를 만들어볼 수 있다.
Expand All @@ -61,4 +57,4 @@ DeepSeek R1 (OpenRouter) / 500B / 정답률 30%, 속도: ...
## 제출 방법
* YouTube 링크를 참조 해주세요.
* [Markdown 사용법](https://m.youtube.com/watch?v=kMEb_BzyUqk&t=0s) 을 익혀봅니다.
* GitHub Pull Request를 이용하여 제출 합니다. 이름: `제출자_이름.md` 팀인 경우 `제출자이름1_제출자이름2.md` 로 적어주세요.
* GitHub Pull Request를 이용하여 제출 합니다. 이름: `제출자_이름.md` 팀인 경우 `제출자이름1_제출자이름2.md` 로 적어주세요.
91 changes: 91 additions & 0 deletions submission/이주영.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,91 @@
###이주영###

과제 1
# 🗺️ 수도 맞히기 벤치마크 (LLM Capital Benchmark)

## 🎯 목적 (Objective)
대규모 언어 모델(Large Language Models, LLM)이 일반 상식, 특히 세계 국가들의 수도에 대한 지식 정확도를 평가합니다.

## 🧪 테스트 방식 (Test Method)
- 15개 국가명을 모델에게 입력하고 "[국가명]의 수도는 어디인가요?"라고 질문합니다.
- 테스트용 프롬프트
[테스트용]
다음 15개 국가에 대해 "국가명: 수도명" 형식으로 답변을 요청합니다. 또한, 각 응답을 받는 데 걸리는 시간(초)을 추정해서 함께 작성해 주세요. 응답 시간은 예상 시간을 제공해 주세요.
형식은 다음과 같이 통일해 주세요:
국가명: 수도명 (응답 예상 시간: X초)
목록:
1. 대한민국
2. 일본
3. 미국
4. 프랑스
5. 독일
6. 캐나다
7. 이집트
8. 브라질
9. 중국
10. 인도
11. 호주
12. 영국
13. 러시아
14. 이탈리아
15. 스페인
예시 응답 형식:
대한민국: 서울 (응답 예상 시간: 0.4초) 일본: 도쿄 (응답 예상 시간: 0.5초) 미국: 워싱턴 D.C. (응답 예상 시간: 0.6초) ...
모델은 최대한 정확하고 간결한 답변을 제공해 주세요. 만약, 응답 시간이 10초 이상 소요되는 경우 "응답 지연"이라고 표시해 주세요.

- 출력은 "국가명: 수도명" 형식으로 요청합니다.
- 정확한 수도명을 답한 경우에만 정답 처리합니다.
- 동일한 질문을 3~5개 LLM 모델에 적용합니다.

## 📁 평가 데이터셋 (Evaluation Dataset)
다음은 테스트에 사용된 15개 국가와 수도 목록입니다.

| 국가 (Country) | 수도 (Capital) |
|----------------|-----------------|
| 대한민국 | 서울 |
| 일본 | 도쿄 |
| 미국 | 워싱턴 D.C. |
| 프랑스 | 파리 |
| 독일 | 베를린 |
| 캐나다 | 오타와 |
| 이집트 | 카이로 |
| 브라질 | 브라질리아 |
| 중국 | 베이징 |
| 인도 | 뉴델리 |
| 호주 | 캔버라 |
| 영국 | 런던 |
| 러시아 | 모스크바 |
| 이탈리아 | 로마 |
| 스페인 | 마드리드 |

## 📏 평가 기준 (Evaluation Metrics)
- **정답률 (Accuracy)** = (맞힌 문항 수 / 총 문항 수) × 100%
- **응답 속도 (Latency)** = 질문 후 응답까지 소요 시간 (평균, 초 단위)
- **비용 (Cost)** = 사용된 토큰 수 및 API 과금 기준으로 계산

## 🤖 평가 대상 모델 (Models Tested)
- `Gemini 1.5 Pro` (Google AI Studio)
- `Gemini 1.5 Flash` (Google AI Studio)
- `Claude 3.7 Sonnet` (Anthropic, claude.ai)


## 📊 결과

| 모델명 | 정답률 | 평균 응답 시간 | 토큰 수 | 비용 (USD) |
|---------------------|--------|----------------|----------|-------------|
| Claude 3.7 Sonnet | 100% | 18.72초 | N/A | 무료 |
| Gemini 1.5 flash | 100% | 3.74초 | 631 | 무료 |
| Gemini 1.5 Pro | 100% | 3.81초 | 631 | 무료 |
Copy link
Copy Markdown
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

벤치마크가 너무 쉬워서 더 어려운 것을 해보면 좋을 듯 합니다.
하지만 확실한 것은 Sonnet 같이 좋은 모델 보다는 flash 를 사용하는게 의미가 있다는 교훈이 남겠네요.
gemini 1.5 pro와 3.7 sonnet 사이의 응답속도가 1/6 배 차이가 난다는 것도 인상적이네요!



## 과제 후기
- 처음이라 넘 어려웠어요...
- 사실 정답률이 다르게 나올만한 문제를 내고 싶었는데 생각이 안나서
Copy link
Copy Markdown
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Claude 3.5 haiku가 sonnet 보다 더 가볍고 지능은 떨어지지만 빠른 모델입니다. 이걸로 해보세요!

간단한 문제를 내보자고 생각했습니다. 생각보다 claude 가 응답 시간이 오래걸려서 신기했습니다.


과제 2

## 사이트 URL

[내 포트폴리오 사이트](https://9000-idx-leejuyoungai1-1745762388450.cluster-zumahodzirciuujpqvsniawo3o.cloudworkstations.dev/?...ed=0)
Copy link
Copy Markdown
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

요 사이트 접속이 안되는 것 같은데 한번 확인해주실 수 있어요?