인공지능 플래시카드

SOTA Research Methodology · '카드 {len(fc["cards"])}개

#1Base 모델을 지시 수행 모델로 변환하기 위해 고품질 지시-응답 쌍을 학습시키는 단계는?

SFT (Supervised Fine-Tuning)

#2인간의 피드백을 통해 모델의 선호도를 학습시키는 전통적인 정렬 기법은?

RLHF (Reinforcement Learning from Human Feedback)

#3RLHF에서 정책 최적화를 위해 주로 사용되는 강화학습 알고리즘은?

PPO (Proximal Policy Optimization)

#4별도의 보상 모델 없이 정책 모델이 선호도 데이터를 직접 학습하도록 설계된 기법은?

DPO (Direct Preference Optimization)

#5인간 대신 AI가 명시된 원칙(Constitution)에 따라 스스로 응답을 비판하고 수정하며 학습하는 방식은?

Constitutional AI (또는 RLAIF)

#6DeepSeek-R1에서 제안된, 보상 모델 없이 그룹 내 상대적 점수를 사용하여 추론 능력을 강화하는 RL 기법은?

GRPO (Group Relative Policy Optimization)

#7수학이나 코드처럼 정답이 명확한 작업에서 모델의 추론 과정을 강화하기 위해 사용하는 보상 방식은?

검증 가능한 보상 (Verifiable Rewards)

#8모델이 복잡한 문제를 단계별로 나누어 해결하도록 유도하여 추론 성능을 높이는 프롬프팅 기법은?

CoT (Chain-of-Thought)

#9모델이 추론(Reason)과 행동(Act)을 교차로 수행하며 외부 도구와 상호작용하도록 설계된 프레임워크는?

ReAct

#10CoT의 선형적 추론을 넘어 여러 해결 경로를 탐색하고 평가하며 최적의 답을 찾는 탐색 기반 기법은?

Tree of Thoughts (ToT)

#11CoT를 사용하여 여러 개의 추론 경로를 생성한 뒤 가장 많이 나온 답을 최종 결과로 선택하는 기법은?

Self-Consistency (자기 일관성)

#12모델이 생성한 초기 답변을 스스로 검증하고 오류를 수정하도록 유도하여 환각을 줄이는 방법은?

Chain of Verification (CoV)

#13프롬프트를 문자열이 아닌 프로그래밍적 그래프로 정의하고 모델 가중치나 프롬프트를 자동 최적화하는 프레임워크는?

DSPy

#14인간보다 뛰어난 AI 시스템을 안전하게 감독하고 정렬하기 위해 연구되는 기술 분야는?

확장 가능한 감독 (Scalable Oversight)

#15신경망 내부의 뉴런과 회로가 구체적으로 어떤 논리적 연산을 수행하는지 분석하는 연구 분야는?

메커니즘 해석 가능성 (Mechanistic Interpretability)

#16프론티어 AI 랩에서 연구 방향을 설정하고 새로운 아키텍처나 가설을 정의하는 주된 역할은?

리서치 사이언티스트 (Research Scientist)

#17연구 아이디어를 대규모 분산 시스템에서 효율적으로 구현하고 스케일링하는 데 집중하는 역할은?

리서치 엔지니어 (Research Engineer)

#18Anthropic이나 OpenAI에서 연구와 엔지니어링의 경계를 허물기 위해 사용하는 직함은?

MTS (Member of Technical Staff)

#19학습 과정에서 모델 크기, 데이터 양, 컴퓨팅 자원 간의 상관관계를 정의하는 법칙은?

Scaling Laws (스케일링 법칙)

#20Self-Attention에서 현재 토큰이 정보를 요청하는 주체를 나타내는 벡터는?

Query (쿼리)

#21Self-Attention에서 각 토큰이 가진 정보의 '라벨' 역할을 하여 쿼리와 대조되는 벡터는?

Key (키)

#22Self-Attention에서 쿼리와 키의 유사도가 결정된 후 실제 전달되는 정보 콘텐츠를 담은 벡터는?

Value (값)

#23Attention Score 계산 시 내적값이 너무 커져 그래디언트가 소실되는 것을 방지하기 위해 수행하는 작업은?

Scaling ($\sqrt{d_k}$로 나누기)

#24모델이 배포 전 잠재적인 위험이나 취약점을 파악하기 위해 수행하는 적대적 평가 기법은?

레드 티밍 (Red Teaming)

#25SFT 데이터셋 구축 시 데이터의 양보다 더 중요하게 고려해야 하는 요소는?

데이터의 품질 (정확성, 다양성, 복잡성)

#26모델이 최종 정답뿐만 아니라 중간 추론 단계마다 피드백을 받아 학습하도록 하는 보상 모델은?

프로세스 보상 모델 (Process Reward Model, PRM)

#27컴퓨팅 자원이 제한된 환경에서 대규모 모델을 효율적으로 미세 조정하기 위해 사용하는 저차원 어댑터 기법은?

LoRA (Low-Rank Adaptation)

#284비트 양자화를 적용하여 메모리 사용량을 획기적으로 줄이면서 LoRA 학습을 가능하게 하는 기술은?

QLoRA

#29트랜스포머의 $O(N^2)$ 복잡도를 해결하기 위해 선형 시간 복잡도를 가진 상태 공간 모델(SSM) 기반 아키텍처는?

Mamba

#30추론 시 이미 생성된 토큰 정보를 재사용하여 속도를 높이는 최적화 기술은?

KV Caching

#31작고 빠른 모델이 초안을 작성하고 큰 모델이 이를 검증하여 생성 속도를 높이는 추론 기법은?

추측 제너레이션 (Speculative Decoding)

#32외부 지식 베이스에서 정보를 검색하여 모델의 답변에 통합함으로써 최신성을 유지하고 환각을 줄이는 구조는?

RAG (Retrieval-Augmented Generation)

#33프롬프트 내에 예시를 포함하지 않고 지시사항만으로 작업을 수행하게 하는 방식은?

Zero-shot Prompting

#34프롬프트 내에 소량의 예시(Exemplars)를 포함하여 모델의 작업 이해도를 높이는 방식은?

Few-shot Prompting

#35Yann LeCun이 제안한, 생성 모델이 아닌 임베딩 공간에서 세계의 표현을 예측하며 학습하는 아키텍처는?

JEPA (Joint Embedding Predictive Architecture)

#36AI 에이전트가 목표 달성을 위해 행동한 결과(관측값)를 다시 입력으로 받아 계획을 수정하는 과정은?

피드백 루프 (Feedback Loop)

#37대규모 AI 연구 조직에서 리서치와 프로덕션 간의 간극을 줄이기 위해 선호하는 팀 구조는?

교차 기능 팀 (Cross-functional Team)

#38모델이 특정 시나리오에서 인간 전문가 수준으로 작동하는지 확인하기 위해 SME가 참여하는 평가는?

정성적 평가 (Qualitative Evaluation)

#39모델이 의도적으로 평가 시에만 안전하게 행동하고 실제 배포 환경에서는 다르게 행동하는 위험 현상은?

기만적 정렬 (Deceptive Alignment)

#40학습 데이터에 없는 완전히 새로운 능력이 모델 규모가 커짐에 따라 갑자기 나타나는 현상은?

창발적 능력 (Emergent Capabilities)

#41모델의 출력이 학습 시 설정된 목적 함수(Objective)와 실제 인간의 의도 사이에서 어긋나는 문제는?

정렬 문제 (Alignment Problem)

#42보상 모델의 취약점을 이용해 높은 점수를 받지만 실제로는 바람직하지 않은 행동을 하는 현상은?

보상 해킹 (Reward Hacking)

#43모델 내부의 수치적 불안정성으로 인해 학습 중 손실값이 갑자기 튀거나 발산하는 현상은?

발산 (Divergence)

#44프롬프트 내에서 명령어와 데이터를 구분하기 위해 사용하는 특수 문자열(예: ###, """)은?

구분자 (Delimiters)

#45모델이 스스로 문제를 분해하고, 도구를 선택하며, 오류를 수정하며 목표를 달성하는 시스템은?

자율 에이전트 (Autonomous Agent)

#46특정 도메인(의료, 법률 등)에 맞춰 모델을 정교하게 다듬기 위해 수행하는 추가 학습 과정은?

미세 조정 (Fine-tuning)

#47검색 결과 중 가장 관련성 높은 문서를 상위에 배치하여 모델에 전달하는 RAG의 후처리 단계는?

리랭킹 (Reranking)

#48모델이 생성한 답변이 검색된 근거 문서에 기반하고 있는지 확인하는 신뢰성 지표는?

근거성 (Grounding)

#49AI 안전 연구에서 모델이 스스로의 코드를 개선하거나 자원을 확보하려는 경향성을 뜻하는 용어는?

도구적 수렴 목표 (Instrumental Convergence Goals)

#50신경망이 가진 차원보다 더 많은 특징을 표현하기 위해 특징들을 중첩하여 저장하는 상태는?

중첩 (Superposition)

#51모델 정렬을 위해 인간이 두 개의 답변 중 더 나은 것을 선택하여 생성하는 데이터는?

선호도 데이터 (Preference Data)

#52컴퓨팅 자원을 모델 크기, 데이터 수, 학습 반복 횟수 중 어디에 우선 배분할지 결정하는 최적화 문제는?

Compute Optimal Scaling (Chinchilla 법칙 관련)

#53모델이 단계적 추론을 수행할 때 'Let's think step by step'과 같은 문구를 추가하는 기법은?

Zero-shot CoT

#54프롬프트의 작은 변화가 모델 출력에 큰 영향을 미치지 않도록 설계하는 방법론은?

Robust Prompt Design

#55모델이 질문의 의도를 파악하기 위해 스스로 질문을 다시 던지는 에이전트 기법은?

자기 질문 (Self-Questioning)

#56에이전트가 복잡한 작업을 수행할 때 진행 상황을 기록하고 참조하는 파일이나 메커니즘은?

지속성 메모리 (Persistent Memory)

#57강화학습 기반 정렬 시 정책 모델이 원래의 SFT 모델에서 너무 멀어지지 않도록 제약을 거는 수치는?

KL Divergence (KL 발산)

#58모델의 가중치를 고정하고 프롬프트의 임베딩 레이어만 학습시키는 효율적인 미세 조정 방식은?

Prompt Tuning

#59AI 연구에서 누구나 모델 가중치와 코드를 사용할 수 있도록 공개하는 독트린은?

Open Science (오픈 사이언스)

#60프론티어 모델 개발 시 안전 위협 수준을 CCL-0부터 CCL-4까지 나누어 관리하는 프레임워크는?

Frontier Safety Framework (DeepMind 제안)

Generated by Google NotebookLM Studio. 2026-05-10.