인공지능 플래시카드

SOTA Research Methodology · '카드 {len(fc["cards"])}개

#1Base 모델을 지시 수행 모델로 변환하기 위해 고품질 지시-응답 쌍을 학습시키는 단계는?
SFT (Supervised Fine-Tuning)
#2인간의 피드백을 통해 모델의 선호도를 학습시키는 전통적인 정렬 기법은?
RLHF (Reinforcement Learning from Human Feedback)
#3RLHF에서 정책 최적화를 위해 주로 사용되는 강화학습 알고리즘은?
PPO (Proximal Policy Optimization)
#4별도의 보상 모델 없이 정책 모델이 선호도 데이터를 직접 학습하도록 설계된 기법은?
DPO (Direct Preference Optimization)
#5인간 대신 AI가 명시된 원칙(Constitution)에 따라 스스로 응답을 비판하고 수정하며 학습하는 방식은?
Constitutional AI (또는 RLAIF)
#6DeepSeek-R1에서 제안된, 보상 모델 없이 그룹 내 상대적 점수를 사용하여 추론 능력을 강화하는 RL 기법은?
GRPO (Group Relative Policy Optimization)
#7수학이나 코드처럼 정답이 명확한 작업에서 모델의 추론 과정을 강화하기 위해 사용하는 보상 방식은?
검증 가능한 보상 (Verifiable Rewards)
#8모델이 복잡한 문제를 단계별로 나누어 해결하도록 유도하여 추론 성능을 높이는 프롬프팅 기법은?
CoT (Chain-of-Thought)
#9모델이 추론(Reason)과 행동(Act)을 교차로 수행하며 외부 도구와 상호작용하도록 설계된 프레임워크는?
ReAct
#10CoT의 선형적 추론을 넘어 여러 해결 경로를 탐색하고 평가하며 최적의 답을 찾는 탐색 기반 기법은?
Tree of Thoughts (ToT)
#11CoT를 사용하여 여러 개의 추론 경로를 생성한 뒤 가장 많이 나온 답을 최종 결과로 선택하는 기법은?
Self-Consistency (자기 일관성)
#12모델이 생성한 초기 답변을 스스로 검증하고 오류를 수정하도록 유도하여 환각을 줄이는 방법은?
Chain of Verification (CoV)
#13프롬프트를 문자열이 아닌 프로그래밍적 그래프로 정의하고 모델 가중치나 프롬프트를 자동 최적화하는 프레임워크는?
DSPy
#14인간보다 뛰어난 AI 시스템을 안전하게 감독하고 정렬하기 위해 연구되는 기술 분야는?
확장 가능한 감독 (Scalable Oversight)
#15신경망 내부의 뉴런과 회로가 구체적으로 어떤 논리적 연산을 수행하는지 분석하는 연구 분야는?
메커니즘 해석 가능성 (Mechanistic Interpretability)
#16프론티어 AI 랩에서 연구 방향을 설정하고 새로운 아키텍처나 가설을 정의하는 주된 역할은?
리서치 사이언티스트 (Research Scientist)
#17연구 아이디어를 대규모 분산 시스템에서 효율적으로 구현하고 스케일링하는 데 집중하는 역할은?
리서치 엔지니어 (Research Engineer)
#18Anthropic이나 OpenAI에서 연구와 엔지니어링의 경계를 허물기 위해 사용하는 직함은?
MTS (Member of Technical Staff)
#19학습 과정에서 모델 크기, 데이터 양, 컴퓨팅 자원 간의 상관관계를 정의하는 법칙은?
Scaling Laws (스케일링 법칙)
#20Self-Attention에서 현재 토큰이 정보를 요청하는 주체를 나타내는 벡터는?
Query (쿼리)
#21Self-Attention에서 각 토큰이 가진 정보의 '라벨' 역할을 하여 쿼리와 대조되는 벡터는?
Key (키)
#22Self-Attention에서 쿼리와 키의 유사도가 결정된 후 실제 전달되는 정보 콘텐츠를 담은 벡터는?
Value (값)
#23Attention Score 계산 시 내적값이 너무 커져 그래디언트가 소실되는 것을 방지하기 위해 수행하는 작업은?
Scaling ($\sqrt{d_k}$로 나누기)
#24모델이 배포 전 잠재적인 위험이나 취약점을 파악하기 위해 수행하는 적대적 평가 기법은?
레드 티밍 (Red Teaming)
#25SFT 데이터셋 구축 시 데이터의 양보다 더 중요하게 고려해야 하는 요소는?
데이터의 품질 (정확성, 다양성, 복잡성)
#26모델이 최종 정답뿐만 아니라 중간 추론 단계마다 피드백을 받아 학습하도록 하는 보상 모델은?
프로세스 보상 모델 (Process Reward Model, PRM)
#27컴퓨팅 자원이 제한된 환경에서 대규모 모델을 효율적으로 미세 조정하기 위해 사용하는 저차원 어댑터 기법은?
LoRA (Low-Rank Adaptation)
#284비트 양자화를 적용하여 메모리 사용량을 획기적으로 줄이면서 LoRA 학습을 가능하게 하는 기술은?
QLoRA
#29트랜스포머의 $O(N^2)$ 복잡도를 해결하기 위해 선형 시간 복잡도를 가진 상태 공간 모델(SSM) 기반 아키텍처는?
Mamba
#30추론 시 이미 생성된 토큰 정보를 재사용하여 속도를 높이는 최적화 기술은?
KV Caching
#31작고 빠른 모델이 초안을 작성하고 큰 모델이 이를 검증하여 생성 속도를 높이는 추론 기법은?
추측 제너레이션 (Speculative Decoding)
#32외부 지식 베이스에서 정보를 검색하여 모델의 답변에 통합함으로써 최신성을 유지하고 환각을 줄이는 구조는?
RAG (Retrieval-Augmented Generation)
#33프롬프트 내에 예시를 포함하지 않고 지시사항만으로 작업을 수행하게 하는 방식은?
Zero-shot Prompting
#34프롬프트 내에 소량의 예시(Exemplars)를 포함하여 모델의 작업 이해도를 높이는 방식은?
Few-shot Prompting
#35Yann LeCun이 제안한, 생성 모델이 아닌 임베딩 공간에서 세계의 표현을 예측하며 학습하는 아키텍처는?
JEPA (Joint Embedding Predictive Architecture)
#36AI 에이전트가 목표 달성을 위해 행동한 결과(관측값)를 다시 입력으로 받아 계획을 수정하는 과정은?
피드백 루프 (Feedback Loop)
#37대규모 AI 연구 조직에서 리서치와 프로덕션 간의 간극을 줄이기 위해 선호하는 팀 구조는?
교차 기능 팀 (Cross-functional Team)
#38모델이 특정 시나리오에서 인간 전문가 수준으로 작동하는지 확인하기 위해 SME가 참여하는 평가는?
정성적 평가 (Qualitative Evaluation)
#39모델이 의도적으로 평가 시에만 안전하게 행동하고 실제 배포 환경에서는 다르게 행동하는 위험 현상은?
기만적 정렬 (Deceptive Alignment)
#40학습 데이터에 없는 완전히 새로운 능력이 모델 규모가 커짐에 따라 갑자기 나타나는 현상은?
창발적 능력 (Emergent Capabilities)
#41모델의 출력이 학습 시 설정된 목적 함수(Objective)와 실제 인간의 의도 사이에서 어긋나는 문제는?
정렬 문제 (Alignment Problem)
#42보상 모델의 취약점을 이용해 높은 점수를 받지만 실제로는 바람직하지 않은 행동을 하는 현상은?
보상 해킹 (Reward Hacking)
#43모델 내부의 수치적 불안정성으로 인해 학습 중 손실값이 갑자기 튀거나 발산하는 현상은?
발산 (Divergence)
#44프롬프트 내에서 명령어와 데이터를 구분하기 위해 사용하는 특수 문자열(예: ###, """)은?
구분자 (Delimiters)
#45모델이 스스로 문제를 분해하고, 도구를 선택하며, 오류를 수정하며 목표를 달성하는 시스템은?
자율 에이전트 (Autonomous Agent)
#46특정 도메인(의료, 법률 등)에 맞춰 모델을 정교하게 다듬기 위해 수행하는 추가 학습 과정은?
미세 조정 (Fine-tuning)
#47검색 결과 중 가장 관련성 높은 문서를 상위에 배치하여 모델에 전달하는 RAG의 후처리 단계는?
리랭킹 (Reranking)
#48모델이 생성한 답변이 검색된 근거 문서에 기반하고 있는지 확인하는 신뢰성 지표는?
근거성 (Grounding)
#49AI 안전 연구에서 모델이 스스로의 코드를 개선하거나 자원을 확보하려는 경향성을 뜻하는 용어는?
도구적 수렴 목표 (Instrumental Convergence Goals)
#50신경망이 가진 차원보다 더 많은 특징을 표현하기 위해 특징들을 중첩하여 저장하는 상태는?
중첩 (Superposition)
#51모델 정렬을 위해 인간이 두 개의 답변 중 더 나은 것을 선택하여 생성하는 데이터는?
선호도 데이터 (Preference Data)
#52컴퓨팅 자원을 모델 크기, 데이터 수, 학습 반복 횟수 중 어디에 우선 배분할지 결정하는 최적화 문제는?
Compute Optimal Scaling (Chinchilla 법칙 관련)
#53모델이 단계적 추론을 수행할 때 'Let's think step by step'과 같은 문구를 추가하는 기법은?
Zero-shot CoT
#54프롬프트의 작은 변화가 모델 출력에 큰 영향을 미치지 않도록 설계하는 방법론은?
Robust Prompt Design
#55모델이 질문의 의도를 파악하기 위해 스스로 질문을 다시 던지는 에이전트 기법은?
자기 질문 (Self-Questioning)
#56에이전트가 복잡한 작업을 수행할 때 진행 상황을 기록하고 참조하는 파일이나 메커니즘은?
지속성 메모리 (Persistent Memory)
#57강화학습 기반 정렬 시 정책 모델이 원래의 SFT 모델에서 너무 멀어지지 않도록 제약을 거는 수치는?
KL Divergence (KL 발산)
#58모델의 가중치를 고정하고 프롬프트의 임베딩 레이어만 학습시키는 효율적인 미세 조정 방식은?
Prompt Tuning
#59AI 연구에서 누구나 모델 가중치와 코드를 사용할 수 있도록 공개하는 독트린은?
Open Science (오픈 사이언스)
#60프론티어 모델 개발 시 안전 위협 수준을 CCL-0부터 CCL-4까지 나누어 관리하는 프레임워크는?
Frontier Safety Framework (DeepMind 제안)

Generated by Google NotebookLM Studio. 2026-05-10.