LLM으로 프로그래밍

DEV 2024. 11. 24. 12:08

애플 연구팀, LLM 추론 능력에 의문 제기

애플 연구팀 대규모 언어 모델(LLM)이 진정한 추론 능력을 갖추지 못했다고 주장.

https://arxiv.org/pdf/2410.05229

토큰 편향: LLM의 출력은 실제 추론보다는 학습된 시퀀스의 친숙도에 더 의존하는 경향. 예를 들어, "린다"라는 이름을 사용한 문제는 LLM이 정확하게 풀지만, "밥"으로 이름을 바꾸면 똑같은 문제임에도 불구하고 틀린 답을 내놓음. 이는 LLM이 추론 과정을 완전히 내면화하지 못하고 단순히 훈련 시퀀스, 즉 "린다"라는 이름이 사용된 문제들을 암기했기 때문이라고 해석할 수 있다. 즉, LLM은 깊은 인간적 추론과 유사한 고차원적 추상화 능력이 부족하다는 것을 보여줌.
문제 난이도 증가에 따른 성능 저하: 애플 연구팀은 GSM8k 데이터 세트를 기반으로 난이도를 높인 문제들을 만들어 LLM을 테스트. 예상대로 모든 모델에서 성능이 저하되었으며, 이는 LLM의 지능이 과장되었을 뿐만 아니라 복잡성이 높아질수록 견고성이 떨어진다는 것을 의미.
무의미한 조항에 대한 취약성: 연구팀은 문제 해결에 전혀 관련 없는 조항을 추가하여 LLM의 패턴 매칭 능력이 얼마나 피상적인지 보여줌. 예를 들어, 키위의 개수를 세는 문제에 키위의 크기에 대한 무관한 정보를 추가했을 때, 일부 LLM은 이 무의미한 정보에 영향을 받아 틀린 답을 내놓음.
"NoOp" 조항 실험: 연구팀은 문제 해결에 필요한 추론 과정은 유지하면서 무의미한 조항("NoOp")을 추가한 변형 데이터 세트를 만들어 LLM의 노이즈 인식 및 무시 능력을 테스트. 그 결과, 모든 모델 크기에서 성능이 크게 저하되었으며, 일부 모델은 거의 70%까지 성능이 떨어짐.

LLM 성능 평가 방식

핵심은 LLM이 단순히 훈련 데이터를 암기하는 것이 아니라, 실제로 논리적 추론을 통해 문제를 해결하는지를 확인

GSM8k 데이터 세트 변형: 수학 문제 해결 능력을 평가하는 벤치마크인 GSM8k 데이터 세트를 변형하여 LLM의 추론 능력을 테스트
NoOp 조항 심층 분석: GSM-NoOp 데이터 세트를 사용하여 LLM이 무의미한 정보를 얼마나 잘 걸러내는지 심층적으로 분석
ARC-AGI 벤치마크: 훈련 데이터에서 본 적 없는 새로운 문제를 해결하는 능력, 즉 실질적인 추론 능력을 평가하기 위해 ARC-AGI 벤치마크를 활용. 모델이 새로운 기술을 효율적으로 습득하고, 기존 경험에 의존하지 않고 문제를 해결할 수 있는지 측정

애플 연구팀은 이러한 실험 결과를 토대로 LLM이 진정한 논리적 추론 능력을 갖추고 있지 않으며, 단순히 훈련 데이터에서 관찰된 추론 단계를 복제하려고 시도할 뿐이라고 주장. 즉, LLM은 새로운 상황에 대한 적응력이 떨어지며, 훈련 데이터에서 본 적 없는 문제를 해결하는 데 어려움을 겪는다는 것.

결론적으로 애플 연구팀은 LLM의 추론 능력이 과장되었으며, 진정한 인공 지능으로 보기에는 아직 한계가 있다는 주장을 뒷받침하는 증거를 제시.

LLM을 통한 프로그램 개발

LLM은 '복잡한 사고'가 아닌 '훈련 데이터 복제'에 능숙

프로그래밍은 "복잡한 작업을 구성 요소로 분해하여 기계를 안내하는 사고 과정"

애플 연구에 따르면 LLM이 이러한 '복잡한 사고'를 수행하는 능력이 부족하며, 단지 훈련 데이터에서 관찰된 추론 단계를 복제하려고 시도할 뿐이라고 지적합니다. 즉, LLM은 간단한 코드 작성이나 디버깅에는 유용할 수 있지만, 복잡한 문제 해결이나 창의적인 코드 작성에는 한계를 보인다는 것입니다.

LLM은 방대한 코드 데이터를 기반으로 코드를 생성하기 때문에, 마치 Stack Overflow에서 코드를 복사하여 붙여넣는 것과 유사하다는 것. 물론 이러한 방식은 편리하지만, LLM이 실제로 코드를 이해하고 작성하는 것이 아니라 단순히 기존 코드를 조합하는 것임을 잊지 말아야 할 것.

결론적으로, LLM의 코드 작성 능력은 아직은 기대에 미치지 못하는 것으로 보입니다. 물론 LLM은 간단한 코드 작성이나 디버깅에 도움을 줄 수 있지만, 복잡한 문제 해결이나 창의적인 코드 작성에는 여전히 인간 개발자의 역할이 중요합니다. 앞으로 LLM이 더욱 발전하여 진정한 의미의 코드 작성 능력을 갖추게 될지는 지켜봐야 할 것으로 보입니다.

728x90

'DEV' 카테고리의 다른 글

Anthropic's Contextual Retrieval (0)	2024.11.26
새로운 RAG system Golden-Retriever (2)	2024.11.25
Agentic RAG (1)	2024.11.22
프로젝트 일정 관리 방법 (1)	2024.11.21
마이크로 매니저, 위임하는 매니저 (0)	2024.11.20

직업으로서의 개발자 직업으로서의 개발자

애플 연구팀, LLM 추론 능력에 의문 제기

LLM 성능 평가 방식

LLM을 통한 프로그램 개발

LLM은 '복잡한 사고'가 아닌 '훈련 데이터 복제'에 능숙

'DEV' 카테고리의 다른 글

티스토리툴바

애플 연구팀, LLM 추론 능력에 의문 제기

LLM 성능 평가 방식

LLM을 통한 프로그램 개발

LLM은 '복잡한 사고'가 아닌 '훈련 데이터 복제'에 능숙

'DEV' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바