-
Notifications
You must be signed in to change notification settings - Fork 9
이주영 1차 과제 제출 #7
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
base: main
Are you sure you want to change the base?
이주영 1차 과제 제출 #7
Changes from all commits
File filter
Filter by extension
Conversations
Jump to
Diff view
Diff view
There are no files selected for viewing
| Original file line number | Diff line number | Diff line change |
|---|---|---|
| @@ -0,0 +1,91 @@ | ||
| ###이주영### | ||
|
|
||
| 과제 1 | ||
| # 🗺️ 수도 맞히기 벤치마크 (LLM Capital Benchmark) | ||
|
|
||
| ## 🎯 목적 (Objective) | ||
| 대규모 언어 모델(Large Language Models, LLM)이 일반 상식, 특히 세계 국가들의 수도에 대한 지식 정확도를 평가합니다. | ||
|
|
||
| ## 🧪 테스트 방식 (Test Method) | ||
| - 15개 국가명을 모델에게 입력하고 "[국가명]의 수도는 어디인가요?"라고 질문합니다. | ||
| - 테스트용 프롬프트 | ||
| [테스트용] | ||
| 다음 15개 국가에 대해 "국가명: 수도명" 형식으로 답변을 요청합니다. 또한, 각 응답을 받는 데 걸리는 시간(초)을 추정해서 함께 작성해 주세요. 응답 시간은 예상 시간을 제공해 주세요. | ||
| 형식은 다음과 같이 통일해 주세요: | ||
| 국가명: 수도명 (응답 예상 시간: X초) | ||
| 목록: | ||
| 1. 대한민국 | ||
| 2. 일본 | ||
| 3. 미국 | ||
| 4. 프랑스 | ||
| 5. 독일 | ||
| 6. 캐나다 | ||
| 7. 이집트 | ||
| 8. 브라질 | ||
| 9. 중국 | ||
| 10. 인도 | ||
| 11. 호주 | ||
| 12. 영국 | ||
| 13. 러시아 | ||
| 14. 이탈리아 | ||
| 15. 스페인 | ||
| 예시 응답 형식: | ||
| 대한민국: 서울 (응답 예상 시간: 0.4초) 일본: 도쿄 (응답 예상 시간: 0.5초) 미국: 워싱턴 D.C. (응답 예상 시간: 0.6초) ... | ||
| 모델은 최대한 정확하고 간결한 답변을 제공해 주세요. 만약, 응답 시간이 10초 이상 소요되는 경우 "응답 지연"이라고 표시해 주세요. | ||
|
|
||
| - 출력은 "국가명: 수도명" 형식으로 요청합니다. | ||
| - 정확한 수도명을 답한 경우에만 정답 처리합니다. | ||
| - 동일한 질문을 3~5개 LLM 모델에 적용합니다. | ||
|
|
||
| ## 📁 평가 데이터셋 (Evaluation Dataset) | ||
| 다음은 테스트에 사용된 15개 국가와 수도 목록입니다. | ||
|
|
||
| | 국가 (Country) | 수도 (Capital) | | ||
| |----------------|-----------------| | ||
| | 대한민국 | 서울 | | ||
| | 일본 | 도쿄 | | ||
| | 미국 | 워싱턴 D.C. | | ||
| | 프랑스 | 파리 | | ||
| | 독일 | 베를린 | | ||
| | 캐나다 | 오타와 | | ||
| | 이집트 | 카이로 | | ||
| | 브라질 | 브라질리아 | | ||
| | 중국 | 베이징 | | ||
| | 인도 | 뉴델리 | | ||
| | 호주 | 캔버라 | | ||
| | 영국 | 런던 | | ||
| | 러시아 | 모스크바 | | ||
| | 이탈리아 | 로마 | | ||
| | 스페인 | 마드리드 | | ||
|
|
||
| ## 📏 평가 기준 (Evaluation Metrics) | ||
| - **정답률 (Accuracy)** = (맞힌 문항 수 / 총 문항 수) × 100% | ||
| - **응답 속도 (Latency)** = 질문 후 응답까지 소요 시간 (평균, 초 단위) | ||
| - **비용 (Cost)** = 사용된 토큰 수 및 API 과금 기준으로 계산 | ||
|
|
||
| ## 🤖 평가 대상 모델 (Models Tested) | ||
| - `Gemini 1.5 Pro` (Google AI Studio) | ||
| - `Gemini 1.5 Flash` (Google AI Studio) | ||
| - `Claude 3.7 Sonnet` (Anthropic, claude.ai) | ||
|
|
||
|
|
||
| ## 📊 결과 | ||
|
|
||
| | 모델명 | 정답률 | 평균 응답 시간 | 토큰 수 | 비용 (USD) | | ||
| |---------------------|--------|----------------|----------|-------------| | ||
| | Claude 3.7 Sonnet | 100% | 18.72초 | N/A | 무료 | | ||
| | Gemini 1.5 flash | 100% | 3.74초 | 631 | 무료 | | ||
| | Gemini 1.5 Pro | 100% | 3.81초 | 631 | 무료 | | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. 벤치마크가 너무 쉬워서 더 어려운 것을 해보면 좋을 듯 합니다. |
||
|
|
||
|
|
||
| ## 과제 후기 | ||
| - 처음이라 넘 어려웠어요... | ||
| - 사실 정답률이 다르게 나올만한 문제를 내고 싶었는데 생각이 안나서 | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. Claude 3.5 haiku가 sonnet 보다 더 가볍고 지능은 떨어지지만 빠른 모델입니다. 이걸로 해보세요! |
||
| 간단한 문제를 내보자고 생각했습니다. 생각보다 claude 가 응답 시간이 오래걸려서 신기했습니다. | ||
|
|
||
|
|
||
| 과제 2 | ||
|
|
||
| ## 사이트 URL | ||
|
|
||
| [내 포트폴리오 사이트](https://9000-idx-leejuyoungai1-1745762388450.cluster-zumahodzirciuujpqvsniawo3o.cloudworkstations.dev/?...ed=0) | ||
|
Collaborator
There was a problem hiding this comment. Choose a reason for hiding this commentThe reason will be displayed to describe this comment to others. Learn more. 요 사이트 접속이 안되는 것 같은데 한번 확인해주실 수 있어요? |
||
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
README.md 자체를 바꾸시면 안됩니다! 모든 사람들이 보는거여서요. 이건 롤백해주세요.