P1 보고서 해설：회전곡선에서 약한 중력렌즈까지: EFT의 평균 중력 응답을 어떻게 검증할 것인가

《P1_RC_GGL: 은하 동역학과 약한 중력렌즈의 엄격한 폐합 검정(v1.1)》에 기반한 대중 해설판

원 보고서 저자: Guanglin Tu｜버전 기반: P1 v1.1｜해설의 성격: 대중 설명 원고 / 동료심사 논문 아님
관련 아카이브: 보고서 DOI 10.5281/zenodo.18526334 ｜ 재현 패키지 DOI 10.5281/zenodo.18526286

원본 평가 보고서를 확인해 보세요:

1. ChatGPT: https://chatgpt.com/share/6a00cd62-6e34-83eb-b165-6ec09e3519cc

2. Gemini: https://gemini.google.com/share/773ec96d75a0

3. Grok: https://grok.com/share/bGVnYWN5LWNvcHk_c0b4fa65-0e86-4adb-9b58-5617d616dc04

4. Qwen: https://chat.qwen.ai/s/22ab9336-671f-420a-a7fa-43e24774bb2a?fev=0.2.46

5. DeepSeek: https://chat.deepseek.com/share/tj6k7hb5owtoldg2bm

6. Doubao: https://www.doubao.com/thread/w166b207d7345e46a

읽기 안내

이 글은 “해설판”이지 또 하나의 학술 보고서가 아니다. 원 P1 보고서를 바탕으로 핵심 도표를 유지하면서, 각 중요한 단계마다 “이것이 무엇을 의미하는가”에 대한 대중적 설명을 덧붙인다.

본 글은 P1이 정해진 데이터셋, 파라미터 장부, 통계 프로토콜 아래에서 얻은 결론만 해설한다. 즉 은하 회전곡선(RC)과 은하-은하 약한 중력렌즈(GGL)의 공동 검정에서, EFT의 평균 중력 응답 모델이 본 글에서 시험한 최소 DM_RAZOR 기준선을 뚜렷하게 앞섰다는 결론이다.

본 글은 P1을 “암흑물질을 뒤집었다”는 결론으로 해석하지 않는다. P1은 P 시리즈 실험의 첫 단계일 뿐이며, 검정하는 것은 EFT 안의 “평균 중력 기반”이라는 하나의 관측 가능한 층위이지 EFT 전체 이론의 전부가 아니다.

0｜먼저 5분 만에 P1 이해하기: 이것은 도대체 무엇을 하는가?

P1은 “서로 다른 탐침 사이에서 진위를 맞춰 보는” 실험으로 생각할 수 있다. 어떤 모델이 한 데이터셋에 적합될 수 있는지만 묻는 것이 아니라, 전혀 다른 두 종류의 중력 판독값을 같은 감사대 위에 올린다. 회전곡선(RC)은 은하 원반 안의 동역학을 읽고, 은하-은하 약한 중력렌즈(GGL)는 더 큰 스케일의 투영 중력 응답을 읽는다.

RC는 “속도계”와 같다. 은하 원반 안의 가스와 별이 서로 다른 반지름에서 얼마나 빠르게 도는지를 알려 준다.
GGL은 “체중계”와 같다. 배경빛이 전경 은하에 의해 아주 약하게 휘어지는 정도를 통해, 은하 주변의 더 큰 스케일에서 평균 중력/질량 분포를 역추정한다.
P1의 핵심 질문은 이것이다. 같은 모델이 먼저 RC에서 규칙성을 배운 뒤, 그 규칙성을 GGL로 옮겨도 여전히 말이 되는가?

P1의 가장 핵심적인 한 문장

P1은 비교의 문턱을 “단독으로 잘 적합되는가”에서 “탐침을 넘어 폐합될 수 있는가”로 끌어올린다. 올바른 매핑에서는 잘 작동하고, 매핑을 흐트러뜨리면 신호가 붕괴할 때에야 그 모델이 RC와 GGL 사이에 공유되는 중력 구조를 포착했을 가능성이 더 높다고 말할 수 있다.

표 0｜P1의 핵심 숫자와 일반 독자를 위한 읽는 법

지표	P1 / P1A에서의 읽는 법	일반 독자는 어떻게 이해하면 되는가
공동 적합 ΔlogL_total	본문의 주 비교에서 EFT는 DM_RAZOR 대비 1155–1337	두 데이터셋을 합친 총점 차이이며, 클수록 전체 설명력이 더 좋다는 뜻이다.
폐합 강도 ΔlogL_closure	본문의 주 비교에서 EFT는 172–281, DM_RAZOR는 127	RC만으로 추론한 뒤 GGL을 예측할 수 있는 능력이며, 클수록 “탐침 간 자기일관성”이 더 강하다.
음성대조 shuffle	RC-bin→GGL-bin을 흐트러뜨리면 EFT 폐합 신호가 6–23으로 낮아짐	올바른 대응관계가 깨지면 우위는 사라져야 한다. 사라짐이 뚜렷할수록 가짜 신호를 배제하기 쉽다.
P1A 다중 DM 압력 테스트	DM 7+1 + DM_STD, 그리고 EFT_BIN 대조 유지	P1A는 최소 DM_RAZOR만 보는 것이 아니라, 여러 개의 저차원·감사 가능한 DM 강화 분기를 같은 폐합 프로토콜 안에 넣는다.

1｜왜 P1을 해야 하는가: 현재 은하 스케일 우주론은 어디에서 막혀 있는가?

은하 스케일 문제가 오랫동안 풀기 어려운 이유는 “추가 중력/질량 요구”가 단순한 회전곡선 현상만이 아니기 때문이다. 많은 관측은 은하 안의 보이는 중입자 물질과 실제 동역학/렌즈 판독값 사이에 매우 긴밀한 연결이 있음을 보여 준다. 암흑물질 노선에서는 이것이 암흑 헤일로, 중입자 피드백, 은하 형성 이력, 관측 계통오차가 매우 정교하게 조율되어야 함을 뜻한다. 비암흑물질 중력 노선에서는 모델이 RC에서만 그럴듯해서는 안 되며, 약한 중력렌즈, 집단 스케일링 법칙, 음성대조에서도 계속 성립해야 함을 뜻한다.

이것이 바로 P1의 동기이다. P1은 “암흑물질이 틀렸다”거나 “EFT가 반드시 맞다”는 데서 출발하지 않는다. 검정 가능한 명제 하나를 꺼내 심사대에 올린다. 즉 EFT의 평균 중력 응답이 RC→GGL의 탐침 간 폐합에서 재현 가능하고 이전 가능한 신호를 남길 수 있는가를 묻는다.

외부 문헌 배경: 왜 RC+GGL이라는 창이 중요한가?

McGaugh, Lelli, Schombert가 2016년에 제시한 방사형 가속도 관계(RAR)는 회전곡선이 추적하는 관측 가속도와 중입자 물질이 예측하는 가속도 사이에 긴밀한 상관이 있으며 산포도 작다는 사실을 보여 주었다. 이로써 “중입자-중력 응답 결합”은 은하 스케일 이론이 피할 수 없는 문제가 되었다.

Brouwer 등은 2021년에 KiDS-1000 약한 중력렌즈를 이용해 RAR을 더 낮은 가속도와 더 큰 반지름 영역으로 확장하고, MOND, Verlinde emergent gravity, LambdaCDM 모델을 비교했다. 동시에 그들은 조기형/후기형 은하의 차이, 가스 헤일로, 은하-헤일로 연결이 여전히 핵심 설명 문제라고 지적했다.

Mistele 등은 2024년에 약한 중력렌즈로 고립 은하의 원형 속도곡선을 역추정했고, 그것이 수백 kpc에서 약 1 Mpc 스케일까지도 뚜렷하게 하강하지 않으며 BTFR과도 부합한다고 보고했다. 이는 약한 중력렌즈가 은하 스케일 중력 응답을 검증하는 중요한 외부 판독값이 되어 가고 있음을 보여 준다.

따라서 P1의 가치는 “RC와 GGL을 처음 함께 논의했다”는 데 있지 않다. 그 가치는 이들을 고정 매핑, 파라미터 장부, RC-only→GGL 폐합, shuffle 음성대조, P1A 다중 DM 압력 테스트로 구성된 감사 가능한 프로토콜 안에 넣었다는 데 있다.

2｜P1에서 EFT는 무엇을 뜻하는가? Effective Field Theory가 아니다

여기서 EFT는 물리학에서 흔히 말하는 Effective Field Theory(유효장 이론)가 아니라 에너지 필라멘트 이론(Energy Filament Theory, EFT)을 가리킨다. P1 기술 보고서에서 EFT의 사용은 매우 절제되어 있다. 완전한 궁극 이론의 형태로 경쟁에 참여하는 것이 아니라, 먼저 관측 가능하고 적합 가능하며 반박 가능한 “평균 중력 응답” 파라미터화로 압축된다.

평범한 말로 바꾸면 이렇다. P1은 추가 중력의 모든 미시적 기원을 먼저 논하지 않고, EFT 전체를 한 번에 증명하려 하지도 않는다. 더 좁고 더 단단한 질문 하나만 묻는다. 은하 스케일에 어떤 평균적 추가 중력 응답이 존재한다면, 그것이 먼저 RC를 설명하고 이어서 GGL을 이전 예측할 수 있는가?

P1은 EFT의 어느 부분을 붙잡고 있는가?

P1이 붙잡고 있는 것은 “평균 중력 기반”(mean gravity floor)이다. 이는 통계적으로 안정적이고 표본을 넘어 이전 가능한 평균 기여를 뜻한다.

P1은 일단 “노이즈 기반”(stochastic / noise floor)을 다루지 않는다. 즉 더 미시적인 요동 과정이 가져올 수 있는 무작위 항, 개체별 차이, 추가 산포는 다루지 않는다.

P1은 완전한 미시 메커니즘, 존재량, 수명, 우주론적 전역 제약도 논하지 않는다. 이것은 P 시리즈 실험의 첫걸음이지 최종 판결이 아니다.

3｜P1 시리즈 계획: 왜 첫걸음을 “평균 기반”에서 시작하는가?

P 시리즈는 EFT의 관측 검색 계획으로 이해할 수 있다. 모든 명제를 한 번에 펼쳐 놓는 것이 아니라, 먼저 공공 데이터로 가장 검증하기 쉬운 한 부분을 따로 꺼낸다. P1의 전략은 평균항을 먼저 시험하는 것이다. 평균 중력 응답조차 RC→GGL에서 폐합되지 못한다면, 더 복잡한 노이즈 항이나 미시 메커니즘을 계속 논의할 입구가 부족해진다.

표 1｜P 시리즈의 계층적 위치

계층	물어야 할 질문	P1에서의 위치
P1	평균 중력 응답은 RC→GGL에서 폐합될 수 있는가?	현재 보고서의 주된 문제
P1A	DM 쪽을 조금 더 강하게 만들면 결론은 여전히 안정적인가?	부록 B: DM 7+1 + DM_STD 압력 테스트
후속 P 시리즈	더 많은 데이터, 더 많은 탐침, 더 복잡한 계통오차로 확장될 수 있는가?	후속 작업 방향
더 깊은 층위의 문제	평균항, 노이즈 항, 미시 메커니즘은 어떻게 연결되는가?	P1의 결론 범위에 속하지 않음

4｜데이터란 무엇인가? RC와 GGL은 각각 무엇을 알려 주는가?

4.1 회전곡선 RC: 은하 원반 안의 “회전 속도 자”

회전곡선이 기록하는 것은 은하 중심에서 서로 다른 반지름에 있는 가스와 별이 중심 주위를 얼마나 빠르게 도는가이다. 더 빠르게 돈다는 것은 그 반지름에서 더 강한 구심력, 곧 더 강한 유효 중력이 필요하다는 뜻이다. P1은 SPARC 데이터베이스를 사용했으며, 전처리 뒤 104개 은하와 2295개의 속도 데이터점을 포함하고 이를 20개의 RC-bin으로 나누었다.

4.2 약한 중력렌즈 GGL: 더 큰 스케일의 “중력 체중계”

은하-은하 약한 중력렌즈는 전경 은하가 배경 은하의 빛을 어떻게 약하게 휘게 하는지를 측정한다. 이는 더 큰 스케일, 헤일로 스케일의 투영 중력 응답에 해당하며 은하 가스 동역학의 세부 사항에 의존하지 않는다. P1은 KiDS-1000 / Brouwer 등 2021의 공개 GGL 데이터를 사용한다. 항성질량 bin 4개, 각 bin당 반지름점 15개, 총 60개 데이터점이며 완전 공분산을 사용한다.

4.3 고정 매핑: 왜 20개의 RC-bin → 4개의 GGL-bin이 중요한가?

P1은 20개의 RC-bin과 4개의 GGL-bin을 고정 규칙으로 연결한다. 각 GGL-bin은 5개의 RC-bin에 대응하고, 은하 수 가중치로 가중 평균된다. 이 매핑은 모든 모델에 대해 변하지 않으며, 폐합 검정과 공정 비교의 단단한 제약이다.

왜 사후에 매핑을 조정하면 안 되는가?

사후에 “어떤 RC-bin이 어떤 GGL-bin에 대응하는가”를 선택할 수 있다면, 모델은 대응관계를 조정해 폐합을 만들어 낼 수 있다. P1이 20→4 매핑을 미리 고정하고 shuffle 음성대조로 일부러 깨뜨리는 이유는, 폐합 신호가 정말로 물리적으로 타당한 대응관계에 의존하는지를 판단하기 위해서다.

5｜모델과 방법: P1은 결국 “무엇을 비교하는가”?

5.1 EFT 쪽: 저차원 평균 중력 응답

EFT 쪽은 평균 중력 응답을 설명하기 위해 저차원의 추가 속도항을 사용한다. 추가항의 형태는 무차원 핵함수 f(r/ℓ)가 제어하고, ℓ는 전역 스케일이며, 진폭은 RC-bin별로 주어진다. 서로 다른 핵함수는 서로 다른 초기 기울기, 전이 속도, 장거리 꼬리를 나타내며, 견고성 압력 테스트에 사용된다.

5.2 DM 쪽: 본문 주 비교와 부록 P1A는 반드시 나누어 읽어야 한다

본문의 주 비교에 쓰인 DM_RAZOR는 최소화되고 감사 가능한 NFW 기준선이다. c–M 관계를 고정하고, halo-to-halo scatter, 단열 수축, feedback core, 비구형성 또는 환경항을 포함하지 않는다. 이 설계의 장점은 자유도가 통제되고 재현하기 쉽다는 점이며, 단점은 모든 LambdaCDM 또는 모든 암흑물질 헤일로 모델을 대표할 수 없다는 점이다.

따라서 부록 B(P1A)에서는 DM 쪽을 하나의 “표준화 압력 테스트” 묶음으로 만든다. 공유 매핑과 폐합 프로토콜을 바꾸지 않는 전제 아래, SCAT, AC, FB, HIER_CMSCAT, CORE1P, lensing m, 조합 기준선 DM_STD 같은 저차원 강화 분기를 단계적으로 넣고, EFT_BIN을 대조로 유지한다. P1A는 하나의 최소 DM 기준선만 비교하는 것이 아니라, 흔하고 감사 가능한 DM 메커니즘 묶음을 같은 “폐합 자”에 넣어 재는 것으로 이해할 수 있다.

본 글이 채택하는 정확한 결론 문구

본문: EFT 계열은 주 비교에서 최소 DM_RAZOR보다 뚜렷하게 우수하다.

부록 B / P1A: 여러 저차원·감사 가능한 DM 강화 분기와 DM_STD 압력 테스트 아래에서 DM의 일부 공동 적합은 개선될 수 있지만, 폐합 강도는 EFT_BIN의 우위를 없애지 못했다.

따라서 가장 신중한 표현은 이렇다. P1/P1A의 데이터, 매핑, 파라미터 장부, 폐합 프로토콜 범위 안에서 EFT 평균 중력 응답은 더 강한 데이터 간 일관성을 보인다. 이것이 모든 암흑물질 모델을 배제한다는 뜻은 아니다.

5.3 폐합 검정: P1에서 가장 중요한 실험 문법

1. RC만으로 적합해 한 묶음의 RC-only 사후 샘플을 얻는다.

2. GGL로 다시 파라미터를 조정하지 못하게 하고, RC 사후분포를 그대로 사용해 GGL을 예측한다.

3. 완전 공분산을 사용해 올바른 매핑 아래의 GGL 예측 점수 logL_true를 계산한다.

4. RC-bin→GGL-bin 대응관계를 무작위로 치환해 음성대조 logL_perm을 계산한다.

5. 둘을 빼서 폐합 강도를 얻는다: ΔlogL_closure = <logL_true> − <logL_perm>.

쉬운 비유

폐합 검정은 시험장을 바꿔 치르는 재시험과 같다. 모델은 먼저 RC 시험장에서 규칙을 배우고, 이어 GGL 시험장에 가서 답한다. 정말로 배운 것이 지역적 요령이 아니라 공유 규칙이라면 시험장을 바꿔도 여전히 잘 답해야 한다. 시험장 대응관계를 일부러 흐트러뜨리면 우위는 사라져야 한다.

5.4 기술 표를 읽기 전에: 네 가지 입구를 먼저 잡기

표 5.4｜다음 가로형 기술 표 묶음의 읽기 경로

입구	무엇을 보는가	왜 중요한가
표 S1a	RC+GGL 공동 적합 총점	“두 데이터셋을 함께 볼 때 누구의 전체 설명력이 더 강한가”에 답한다.
표 S1b	폐합 강도, shuffle, 견고성 스캔	“RC가 배운 것을 GGL로 옮길 수 있는가”에 답한다.
표 B0	P1A 안의 여러 DM 강화 분기 정의	P1을 “최소 DM_RAZOR와만 비교했다”로 단순화하지 않게 한다.
표 B1	P1A의 폐합 및 공동 scoreboard	DM을 강화한 뒤 폐합 우위가 사라지는지 점검한다.

편집 설명

다음 쪽부터 가로 방향 페이지를 사용하는 것은 원 보고서의 넓은 표를 온전히 보존하고, 열을 삭제하거나 읽기 어려울 정도로 압축하지 않기 위해서다. 본문 해설은 이미 일반 독자용 읽는 법을 먼저 제시했다. 가로형 기술 표는 수치와 모델 분기를 확인해야 하는 사람을 위한 것이다.

그림 0.1｜한 장으로 이해하는 P1의 폐합 검정 흐름

설명: 위쪽 체인은 “폐합 검정”(RC만으로 적합 → RC 사후분포로 GGL 예측)이고, 아래쪽 체인은 “공동 적합”(RC+GGL을 함께 채점)이다. 오른쪽에서는 실제 매핑과 흐트러뜨린 매핑을 비교해 폐합 강도 ΔlogL을 얻는다.

6｜핵심 기술 표: 원 보고서 주 표와 P1A 표

표 S1a｜공동 적합 주 비교 지표(RC+GGL, Strict; 원 보고서에서 보존)

모델(workspace)	W 핵	k	공동 logL_total(best)	ΔlogL_total vs DM	AICc	BIC
DM_RAZOR	none	20	-16927.763	0.0	33895.885	34010.811
EFT_BIN	none	21	-15590.552	1337.21	31223.501	31344.155
EFT_WEXP	exponential	21	-15668.83	1258.932	31380.057	31500.711
EFT_WYUK	yukawa	21	-15772.936	1154.827	31588.268	31708.922
EFT_WPOW	powerlaw_tail	21	-15633.321	1294.442	31309.038	31429.692

표 S1b｜폐합 및 견고성 지표(Strict; 원 보고서에서 보존)

모델(workspace)	폐합 ΔlogL(true-perm)	음성대조 shuffle 후 ΔlogL	σ_int 스캔 ΔlogL 범위	R_min 스캔 ΔlogL 범위	cov-shrink 스캔 ΔlogL 범위
DM_RAZOR	126.678	22.725	—	—	—
EFT_BIN	231.611	14.984	459–1548	1243–1289	1337–1351
EFT_WEXP	171.977	6.04	408–1471	1169–1207	1259–1277
EFT_WYUK	179.808	14.688	380–1341	1065–1099	1155–1166
EFT_WPOW	280.513	6.672	457–1500	1203–1247	1294–1308

표 B0｜P1A 안의 DM 강화 분기 정의(원 보고서 부록 B에서 보존)

Workspace	dm_model	새 파라미터(≤1)	물리적 동기(핵심)	구현 원칙(감사 친화적)
DM_RAZOR	NFW (fixed c–M, no scatter)	—	최소화되고 감사 가능한 LambdaCDM 헤일로 기준선; EFT와 엄격히 대조하는 데 사용	공유 매핑 고정; 파라미터 장부 엄격; baseline으로서 상대 비교에만 사용
DM_RAZOR_SCAT	NFW + c–M scatter（legacy）	σ_logc	c–M 관계에 산포가 존재함; 단일 파라미터 log-normal scatter로 근사	새 파라미터 ≤1; 공유 매핑을 계속 사용; 폐합 이득을 수용 기준으로 삼음
DM_RAZOR_AC	NFW + Adiabatic Contraction（legacy）	α_AC	중입자 유입이 헤일로 단열 수축을 유발할 수 있음; 단일 파라미터 강도로 근사	새 파라미터 ≤1; 매핑 변경 없음; AICc/BIC 변화와 폐합 이득 보고
DM_RAZOR_FB	NFW + feedback core（legacy）	log r_core	피드백이 내부 영역에 core를 형성할 수 있음; 단일 파라미터 core 스케일로 근사	새 파라미터 ≤1; 폐합/음성대조는 같은 기준; RC-only 개선을 유일한 목표로 삼지 않음
DM_HIER_CMSCAT	Hierarchical c–M scatter + prior	σ_logc（hier）	더 표준적인 계층화 c_i∼logN(c(M_i),σ_logc); RC와 GGL 공동 사후분포에 동시에 영향	명시적 사전분포; latent c_i 주변화; 여전히 저차원·감사 가능 상태 유지
DM_CORE1P	1‑parameter core proxy (coreNFW/DC14‑inspired)	log r_core	단일 파라미터 core로 baryonic feedback의 주효과를 대리하여 고차원 별 형성 세부사항을 피함	표준 문헌 인용; 새 파라미터 ≤1; 폐합 검정과 묶음
DM_RAZOR_M	NFW + lensing shear‑calibration nuisance	m_shear（GGL）	약한 중력렌즈 쪽의 핵심 계통오차를 유효 파라미터로 흡수해 “계통오차를 물리로 오인하는” 위험을 낮춤	nuisance를 명확히 장부화; RC에 역방향 영향을 허용하지 않음; 결과는 폐합 견고성을 중심으로 함
DM_STD	Standardized DM baseline (HIER_CMSCAT + CORE1P + m)	σ_logc + log r_core (+ m_shear)	가장 흔한 세 가지 의문을 여전히 저차원인 표준 기준선 안에 동시에 포함	파라미터 장부+정보 기준을 함께 보고; 폐합을 주 지표로 삼음; 가장 강한 DM 방어 대조로 사용

표 B1｜P1A scoreboard(클수록 좋음; 원 보고서 부록 B에서 보존)

모델 분기(workspace)	Δk	RC-only best logL_RC (Δ)	폐합 강도 ΔlogL_closure (Δ)	Joint best logL_total (Δ)
DM_RAZOR	0	-15702.654 (+0.000)	122.205 (+0.000)	-27347.068 (+0.000)
DM_RAZOR_SCAT	1	-15702.294 (+0.361)	121.236 (-0.969)	-23153.311 (+4193.758)
DM_RAZOR_AC	1	-15703.689 (-1.035)	121.531 (-0.674)	-23982.557 (+3364.511)
DM_RAZOR_FB	1	-15496.046 (+206.609)	129.454 (+7.249)	-27478.531 (-131.463)
DM_HIER_CMSCAT	1	-15702.644 (+0.010)	121.978 (-0.227)	-23153.160 (+4193.908)
DM_CORE1P	1	-15723.158 (-20.504)	122.056 (-0.149)	-27336.258 (+10.810)
DM_RAZOR_M	0 (+m)	-15702.654 (+0.000)	122.205 (+0.000)	-27340.451 (+6.617)
DM_STD	2 (+m)	-15832.203 (-129.549)	105.690 (-16.515)	-22984.445 (+4362.623)
EFT_BIN	1	-14631.537 (+1071.117)	204.620 (+82.415)	-19001.142 (+8345.926)

표 B1(P1A scoreboard)을 읽는 법

• Δk: 새 자유도(클수록 모델이 더 복잡하다는 뜻이며, 더 복잡하다고 더 좋은 것은 아니다).

• 두 열을 중점적으로 본다. 폐합 강도 ΔlogL_closure(Δ)(클수록 “이전 자기일관성”이 강함)와 Joint best logL_total(Δ)(공동 적합 총점)이다.

• 괄호 안의 (Δ)는 DM_RAZOR에 대한 차이를 나타내며 직접 비교를 쉽게 한다.

• 이 표가 가장 답하고 싶은 질문은 DM 기준선이 “합리적으로 강화”된 뒤 폐합 우위가 사라지는가이다.

• 읽기 힌트: DM_STD의 공동 점수 향상은 매우 뚜렷하지만 폐합 강도는 오히려 낮아진다. EFT_BIN은 폐합 강도에서 여전히 더 높은 값을 유지한다.

한 문장으로 요약하면, 이 저차원·감사 가능한 DM 강화 범위 안에서는 공동 적합의 향상이 자동으로 더 강한 폐합을 가져오지 않는다. 폐합(이전 가능성)은 여전히 핵심 판정 기준이다.

7｜주요 결과는 어떻게 읽는가?

7.1 공동 적합: 두 데이터셋을 함께 보면 EFT 주 비교 점수가 더 높다

표 S1a와 그림 S4는 같은 데이터, 같은 공유 매핑, 거의 같은 파라미터 규모 아래에서 EFT 계열의 DM_RAZOR 대비 공동 ΔlogL_total이 1155–1337임을 보여 준다. 일반 독자는 RC와 GGL 두 데이터셋을 합친 같은 채점 규칙 아래에서 EFT 주 비교 모델의 총점이 더 높다고 이해하면 된다.

7.2 폐합 검정: P1이 가장 강조하려는 것은 “이전 가능성”이다

폐합 강도가 높다는 것은 모델이 RC만으로 추론한 파라미터를 사용하고 GGL을 다시 보지 않아도 GGL을 더 잘 예측할 수 있다는 뜻이다. P1 보고서에서 EFT의 ΔlogL_closure는 172–281이고, DM_RAZOR는 127이다. 이 결과는 “각각의 적합이 괜찮다”는 것보다 더 중요하다. 두 번째 데이터셋에서 모델의 자유도를 제한하기 때문이다.

7.3 음성대조: 왜 “신호 붕괴”가 오히려 좋은 일인가?

P1이 RC-bin→GGL-bin의 분류 대응관계를 무작위로 흐트러뜨리자 EFT의 폐합 신호는 6–23 수준으로 낮아졌다. 일반 독자에게 이 단계는 “부정행위 방지”에 해당한다. 폐합 우위가 코드, 단위, 공분산, 또는 적합상의 우연 때문이라면 대응관계를 흐트러뜨려도 여전히 우위가 나올 수 있다. 그러나 실제 결과는 우위가 붕괴했다. 이는 그 우위가 올바른 매핑에 의존함을 보여 준다.

그림 S3｜폐합 강도(클수록 좋음): RC-only → GGL 예측의 평균 로그우도 우위.

이 그림을 해석하는 법

이 그림은 P1의 핵심이다. 막대가 높을수록 모델이 RC에서 배운 정보가 GGL로 더 잘 이전된다는 뜻이다.

EFT 계열은 전체적으로 DM_RAZOR보다 높다. 이는 “먼저 RC를 배우고, 그다음 GGL을 예측하는” 실험에서 EFT의 탐침 간 폐합이 더 강하다는 뜻이다.

그림 S4｜공동 적합 우위(클수록 좋음): RC+GGL의 best logL_total, DM_RAZOR 대비.

이 그림을 해석하는 법

이 그림은 RC와 GGL을 결합한 뒤의 총점을 본다.

EFT 계열은 모두 0보다 뚜렷하게 높다. 이는 주 비교에서 EFT의 우위가 어떤 단일 지점의 국소 현상이 아니라 공동 분석의 전체적 표현임을 뜻한다.

그림 R1｜음성대조: shuffle 분류 뒤 폐합 신호가 뚜렷하게 낮아짐.

이 그림을 해석하는 법

이 그림은 올바른 RC↔GGL bin 관계를 흐트러뜨리면 폐합 신호가 뚜렷하게 낮아진다는 것을 보여 준다.

이 때문에 P1 결과는 아무 매핑에서나 얻어지는 수치적 우연이 아니라, 데이터 간 매핑 속의 실제 일관성에 더 가까워진다.

8｜견고성과 대조: P1은 어떻게 “그저 파라미터 조정으로 보기 좋게 만든 것”을 피하는가?

기술 보고서에서 가장 쉽게 의심받는 지점은 우위가 어떤 노이즈 설정, 특정 중심부 데이터 구간, 특정 공분산 처리, 또는 과적합에서 온 것은 아닌가 하는 점이다. P1은 여러 압력 테스트로 이 질문에 답한다.

표 2｜P1의 견고성과 음성대조 읽는 법

테스트	어떤 의문을 배제하려는가	읽는 법
σ_int 스캔	RC에 추가적인 미지 산포가 있다면 결론은 여전히 안정적인가?	RC 오차를 완화한 뒤에도 EFT의 순위와 우위 규모는 안정적으로 유지된다.
R_min 스캔	은하 중심부를 완전히 신뢰하지 않는다면 결론은 여전히 안정적인가?	중심부를 잘라낸 뒤에도 EFT는 여전히 양의 우위를 유지한다.
cov-shrink 스캔	GGL 공분산 추정에 불확실성이 있다면 결론은 여전히 안정적인가?	공분산을 대각행렬 쪽으로 수축해도 우위는 민감하게 변하지 않는다.
소거 단계	EFT가 불필요한 복잡도로 억지 적합하는가?	완전한 EFT_BIN은 정보 기준상 필요성을 가진다.
LOO 제외 예측	모델이 이미 본 데이터만 설명할 수 있는가?	GGL bin을 제외한 뒤에도 강한 일반화 성능을 보인다.
RC-bin shuffle	폐합은 실제 매핑에서 오는가?	분류를 흐트러뜨리면 폐합이 낮아져 매핑 의존성을 지지한다.

그림 R2｜σ_int 스캔에서 ΔlogL_total의 범위(클수록 좋음).

이 그림을 해석하는 법

RC 내재 산포 설정이 바뀐 뒤에도 EFT의 앞섬이 남아 있는지 검정한다.

그림 R3｜R_min 스캔에서 ΔlogL_total의 범위(클수록 좋음).

이 그림을 해석하는 법

복잡한 중심부를 잘라낸 뒤에도 EFT의 우위가 여전히 안정적인지 검정한다.

그림 R4｜cov-shrink 스캔에서 ΔlogL_total의 범위(클수록 좋음).

이 그림을 해석하는 법

약한 중력렌즈 공분산 처리 변화 뒤 순위가 민감한지 검정한다.

그림 R5｜EFT_BIN의 소거 단계(AICc, 작을수록 좋음).

이 그림을 해석하는 법

완전한 EFT_BIN이 단지 파라미터를 헛되이 더한 것이 아니라 데이터 설명에서 필요성을 가지는지 검정한다.

그림 R6｜LOO: 제외 bin의 로그우도 분포.

이 그림을 해석하는 법

모델이 보지 못한 GGL bin에서도 예측 성능을 가지는지 검정한다.

그림 R7｜음성대조: shuffle 매핑으로 폐합 mean logL_true가 뚜렷하게 낮아짐.

이 그림을 해석하는 법

mean logL_true의 관점에서도 폐합이 올바른 데이터 간 매핑에 의존함을 추가로 보여 준다.

9｜P1A: 왜 “부록에 여러 DM 모델이 있다”는 점이 핵심 수정인가?

이 절이 답하려는 질문은 “EFT가 최소 DM_RAZOR 하나만 이긴 것인가?”가 아니다. 저차원·재현 가능·파라미터 장부가 명확한 범위에서 DM 기준선을 강화하면(P1A), 폐합 검정과 공동 적합의 결론이 다시 쓰이는가를 묻는다. 다시 말해 P1A의 목표는 “너무 약한 DM 기준선을 골랐을 뿐”이라는 의심을 낮추고, 논의를 “감사 가능한 DM 강화 묶음 아래에서도 폐합 성능의 차이가 여전히 존재하는가”로 밀고 가는 것이다.

P1A의 설계는 모든 LambdaCDM 헤일로 모델링 가능성을 다 소진하려는 것도 아니고, DM 쪽을 고차원·감사 불가능한 적합기로 바꾸려는 것도 아니다. 선택한 것은 저차원·재현 가능·파라미터 장부가 명확한 강화들이다. 농도 산란, 단열 수축, feedback core, 계층적 c–M scatter prior, 단일 파라미터 core 대리, 약한 중력렌즈 shear-calibration nuisance, 그리고 조합형 DM_STD이다.

P1A의 주요 읽는 법

legacy 세 분기 중 feedback/core만 폐합 강도에 작은 순증가를 가져온다. SCAT와 AC는 순 폐합 향상을 가져오지 않았다.

DM_HIER_CMSCAT, DM_RAZOR_M, DM_CORE1P는 폐합 강도에 미치는 영향이 매우 작거나 뚜렷한 순증가를 보이지 않았다.

DM_STD는 joint logL을 뚜렷하게 개선할 수 있지만 폐합 강도는 낮아진다. 이는 그것이 주로 공동 적합의 유연성을 높일 뿐, RC→GGL의 이전 예측력을 높이는 것은 아님을 시사한다.

EFT_BIN은 P1A 표 B1에서 여전히 더 높은 폐합 강도와 공동 적합 우위를 유지한다. 따라서 P1의 핵심 주장은 “최소 DM_RAZOR만 이겼다”로 단순화되어서는 안 된다.

그림 B1｜P1A scoreboard: 폐합과 공동의 ΔlogL, baseline 대비(클수록 좋음).

이 그림을 해석하는 법

이 그림은 여러 DM 강화 분기가 기준선에 대해 어떻게 보이는지 보여 준다.

그 의미는 “모든 DM을 배제한다”가 아니라, P1A가 선택한 저차원·감사 가능한 DM 강화 범위 안에서 DM을 강화해도 EFT_BIN의 폐합 우위가 사라지지 않았음을 보여 준다는 데 있다.

10｜P1 실험의 의미: 왜 이 일을 할 가치가 있는가?

10.1 방법론적 의미: “탐침 간 폐합”을 “단일 탐침 적합”보다 더 높은 위치에 놓기

은하 스케일 이론이 가장 쉽게 빠지는 논쟁은 어떤 모델이 특정 회전곡선 묶음에 적합될 수 있는가이다. P1은 문제를 한 층 끌어올린다. RC에서 배운 파라미터로 GGL을 다시 조정하지 않고 약한 중력렌즈를 예측할 수 있는가? 이로써 P1은 “적합 경쟁”에서 “이전 예측 검정”으로 바뀐다.

10.2 투명성의 의미: 재검증 가능한 사슬을 결과의 일부로 삼기

P1의 중요한 기여 중 하나는 데이터, 표와 그림, 실행 태그, 음성대조, 재현 패키지, 감사 사슬을 함께 공개했다는 점이다. 지지자와 반대자 모두에게 이것은 중요하다. 논의가 구호 비교에 머무르지 않고, 같은 공개 데이터, 같은 매핑, 같은 스크립트, 같은 지표로 돌아갈 수 있기 때문이다.

10.3 물리적 의미: “비암흑물질 중력” 방향에 강한 압력 테스트를 제공한다

비암흑물질 중력 방향에서는 많은 모델이 회전곡선이나 RAR의 일부를 설명할 수 있다. 하지만 더 어려운 것은 동시에 약한 중력렌즈 판독값을 통과하고, 음성대조 아래에서 신호가 올바른 매핑에 의존함을 보이는 것이다. P1의 의미는 EFT 평균 중력 응답을 일종의 “외부 시험” 프로토콜에 넣었다는 데 있다. RC는 훈련장, GGL은 이전장, shuffle은 부정행위 방지장이다.

10.4 이것은 “비암흑물질 중력 분야”의 중요한 실험인가?

신중하게 말하면, P1의 데이터 처리, 재현 패키지, 폐합 프로토콜이 외부 재검토 뒤에도 여전히 성립한다면, 그것은 비암흑물질 중력 / 수정 중력 방향에서 진지하게 다룰 만한 RC+GGL 폐합 실험으로 볼 수 있다. 그 중요성은 “암흑물질을 뒤집었다”는 한마디에 있지 않고, 복제할 수 있고, 도전할 수 있으며, 확장할 수 있는 탐침 간 판정 기준을 제시했다는 데 있다.

이미 같은 수준의 RC+GGL 예측 폐합 프레임워크가 있는가?

관련 프레임워크와 관측 전통은 이미 존재한다. MOND/RAR은 많은 회전곡선 현상을 잘 조직할 수 있고, KiDS-1000 약한 중력렌즈 RAR 연구도 MOND, Verlinde emergent gravity, LambdaCDM 모델을 비교했다. LambdaCDM 또한 은하-헤일로 연결, 가스 헤일로, 피드백 모델링을 통해 약한 중력렌즈/동역학 현상의 일부를 설명할 수 있다.

하지만 P1의 정확한 주장은 “세상에 RC+GGL을 설명할 수 있는 다른 프레임워크가 없다”가 아니다. P1이 자체 공개한 고정 매핑, RC-only→GGL 폐합, shuffle 음성대조, 파라미터 장부, P1A 다중 DM 압력 테스트 프로토콜 아래에서 EFT가 더 강한 폐합 성능을 보고했다는 것이다.

다시 말해 P1이 외부에서 가장 검증할 가치가 있는 지점은 구체적이고 재현 가능한 비교 프로토콜을 제시했다는 점이다. 앞으로 MOND/RAR, LambdaCDM/HOD, hydrodynamical simulation 또는 다른 수정 중력 프레임워크가 같은 프로토콜 아래에서 같거나 더 높은 폐합 점수에 도달할 수 있는지 확인하는 것은 매우 가치 있는 다음 단계다.

11｜P1에서 무엇을 도출할 수 있고, 무엇은 도출할 수 없는가?

표 3｜P1의 결론 경계

도출할 수 있음	P1의 RC+GGL 데이터, 고정 매핑, 주 비교 프로토콜 아래에서 EFT 계열은 최소 DM_RAZOR보다 더 높은 공동 적합과 폐합 강도를 가진다.
도출할 수 있음	P1A의 저차원·감사 가능한 DM 강화 범위 안에서 여러 DM 강화는 EFT_BIN의 폐합 우위를 없애지 못했다.
도출할 수 있음	shuffle 음성대조는 폐합 신호가 올바른 데이터 간 매핑에 의존하며 아무 매핑에서나 얻을 수 있는 것이 아님을 보여 준다.
도출할 수 없음	P1이 모든 암흑물질 모델을 이미 뒤집었다고 말할 수는 없다. P1A는 여전히 비구형성, 환경 의존성, 복잡한 은하-헤일로 연결, 고차원 피드백, 완전한 우주론 시뮬레이션을 모두 포괄하지 않는다.
도출할 수 없음	EFT의 완전한 이론이 제1원리로 증명되었다고 말할 수는 없다. P1은 평균 중력 응답이라는 현상론적 층위만 검정한다.
도출할 수 없음	모든 계통오차가 배제되었다고 말할 수는 없다. P1은 이미 열거한 압력 테스트와 감사 범위 안에서만 견고성 증거를 제시한다.

12｜자주 묻는 질문: 일반 독자가 가장 쉽게 묻는 몇 가지 질문

Q1: 이것은 “암흑물질이 존재하지 않는다”는 말인가?

아니다. P1의 결론은 반드시 본 글의 데이터, 프로토콜, 대조 모델 범위 안으로 한정되어야 한다. P1A는 최소 DM_RAZOR보다 한 걸음 더 나아갔지만, 여전히 가능한 모든 암흑물질 모델을 대표하지 않는다.

Q2: 이것은 “EFT가 이미 증명되었다”는 말인가?

그것도 아니다. P1은 EFT를 평균 중력 응답 파라미터화로 검정하며, 그것이 RC→GGL 폐합에서 더 강한 성능을 보임을 보여 준다. 미시 메커니즘과 완전한 이론은 P1의 결론이 아니다.

Q3: 왜 유의성 σ 값을 직접 말하지 않는가?

P1이 사용하는 것은 통일된 우도 점수, 정보 기준, 폐합 차이이다. ΔlogL은 같은 채점 규칙 아래에서의 상대적 우위이며, 단일 σ 값과 같지 않다.

Q4: 왜 RC-bin→GGL-bin을 흐트러뜨리는가?

이것은 음성대조다. 진짜 탐침 간 신호는 올바른 매핑에 의존해야 한다. 흐트러뜨린 뒤에도 여전히 같은 강도라면 오히려 구현 편향이나 통계적 가짜 신호 가능성을 시사한다.

Q5: P1이 다음에 가장 먼저 해야 할 일은 무엇인가?

같은 프로토콜을 더 많은 데이터, 더 많은 DM 대조, 더 복잡한 계통오차, 더 많은 수정 중력 프레임워크로 확장하는 것이다. 특히 외부 팀이 같은 폐합 지표 아래에서 재검증할 수 있게 해야 한다.

13｜작은 용어 사전

표 4｜작은 용어 사전

용어	한 문장 설명
회전곡선(RC)	은하 원반 안의 반지름-회전속도 관계로, 원반면 안의 유효 중력을 역추정하는 데 사용된다.
약한 중력렌즈(GGL)	배경 은하 형상의 통계적 왜곡을 통해 전경 은하 주변의 평균 중력/질량 분포를 측정한다.
폐합 검정	RC 사후분포로 GGL을 예측하고, 매핑을 흐트러뜨린 음성대조와 비교한다.
음성대조	핵심 구조를 일부러 깨뜨려 신호가 사라지는지 본다. 가짜 신호를 배제하는 데 사용된다.
NFW 헤일로	차가운 암흑물질 모델에서 흔히 사용하는 암흑물질 헤일로 밀도 프로파일이다.
c–M 관계	암흑물질 헤일로 농도 c와 질량 M의 관계이다. 산포를 허용하는지는 모델의 유연성에 영향을 준다.
DM_STD	P1A에서 여러 저차원 DM 강화와 렌즈 nuisance를 조합한 표준화 DM 압력 테스트 분기이다.
ΔlogL	두 모델을 같은 채점 규칙 아래에서 비교한 로그우도 차이이다. 양수는 전자가 더 우수함을 뜻한다.
공분산	데이터점 사이의 상관성을 행렬로 설명한 것이다. 약한 중력렌즈 데이터는 일반적으로 완전 공분산을 사용해야 한다.

14｜권장 읽기 경로와 인용 입구

1. 먼저 본문 0–2절을 읽어 P1의 문제의식과 P1 안에서 EFT가 갖는 절제된 위치를 세운다.

2. 그다음 그림 S3, 그림 S4, 표 S1a/S1b를 보며 폐합 강도, 공동 적합, 음성대조를 이해한다.

3. “DM 기준선이 너무 약한가”가 궁금하다면 9절과 표 B1 / 그림 B1을 직접 본다.

4. 기술적 재검토가 필요하다면 P1 기술 보고서 v1.1, Tables & Figures Supplement, full_fit_runpack으로 돌아간다.

주요 아카이브 입구

P1 기술 보고서(공개급, Concept DOI): 10.5281/zenodo.18526334

P1 전체 재현 패키지(Concept DOI): 10.5281/zenodo.18526286

EFT 구조화 지식베이스(선택, Concept DOI): 10.5281/zenodo.18853200

라이선스 안내: 기술 보고서는 CC BY-NC-ND 4.0을 사용하고, 전체 재현 패키지는 CC BY 4.0을 사용한다(기술 보고서와 Zenodo 아카이브를 기준으로 함).

15｜참고문헌과 외부 배경

McGaugh, S. S., Lelli, F., & Schombert, J. M. (2016). The Radial Acceleration Relation in Rotationally Supported Galaxies. Physical Review Letters, 117, 201101. DOI: 10.1103/PhysRevLett.117.201101.

Famaey, B., & McGaugh, S. S. (2012). Modified Newtonian Dynamics (MOND): Observational Phenomenology and Relativistic Extensions. Living Reviews in Relativity, 15, 10. DOI: 10.12942/lrr-2012-10.

Brouwer, M. M., Oman, K. A., Valentijn, E. A., et al. (2021). The weak lensing radial acceleration relation: Constraining modified gravity and cold dark matter theories with KiDS-1000. Astronomy & Astrophysics, 650, A113. DOI: 10.1051/0004-6361/202040108.

Mistele, T., McGaugh, S., Lelli, F., Schombert, J., & Li, P. (2024). Indefinitely Flat Circular Velocities and the Baryonic Tully-Fisher Relation from Weak Lensing. The Astrophysical Journal Letters, 969, L3 / arXiv:2406.09685.

Bullock, J. S., & Boylan-Kolchin, M. (2017). Small-Scale Challenges to the LambdaCDM Paradigm. Annual Review of Astronomy and Astrophysics, 55, 343–387. DOI: 10.1146/annurev-astro-091916-055313.

Lelli, F., McGaugh, S. S., & Schombert, J. M. (2016). SPARC: Mass Models for 175 Disk Galaxies with Spitzer Photometry and Accurate Rotation Curves. The Astronomical Journal, 152, 157. DOI: 10.3847/0004-6256/152/6/157.

Navarro, J. F., Frenk, C. S., & White, S. D. M. (1997). A Universal Density Profile from Hierarchical Clustering. Astrophysical Journal, 490, 493.

Dutton, A. A., & Macciò, A. V. (2014). Cold dark matter haloes in the Planck era: evolution of structural parameters for NFW haloes. Monthly Notices of the Royal Astronomical Society, 441, 3359–3374.