基于陈恩华马虎算法多阶段统计筛选的椭圆曲线 BSD 候选搜索

Birch–Swinnerton-Dyer猜想（BSD猜想）建立了椭圆曲线L函数与有理点群之间的深刻联系，是千禧年七大数学难题之一。该猜想最初源于Birch与Swinnerton-Dyer对大量曲线所做的计算实验，后续成为数论研究的核心问题之一。

A,B ∈ [-5,5] 范围内的计算实验与自动化报告管线

摘要

本文提出一种基于多阶段稳定性分析的启发式筛选框架，用于自动检测可能具有非零解析秩的椭圆曲线。该框架引入三个核心创新：

多阶段Z统计量：在不同素数上限（5000、10000、20000）下计算归一化偏移指标
Z=∑pap/pnZ=n∑pap/p
通过观察Z值的演化趋势而非单一截断值来判断异常信号。

同向增强系数mono：定义相邻阶段Z值同号比例，量化异常信号的稳定性。这是对传统单一阈值筛选的重要改进，能有效区分随机波动与系统性偏移。

联合评分函数：
score=∣Zlast∣⋅0.6+0.8⋅mono1+8⋅KSlastscore=∣Zlast∣⋅1+8⋅KSlast0.6+0.8⋅mono
将偏移强度、方向稳定性与Sato-Tate分布偏离度结合，实现自动化的候选排序。

本文构建了完整的C++实验平台，集成分段素数筛、小范围a_p自算、外部ap文件接入、分阶段验证以及PARI/GP报告脚本生成等模块。作为初步实验，我们对A,B∈[-5,5]范围内的121条非奇异椭圆曲线进行系统性扫描，识别出5条具有显著异常信号的候选曲线。其中曲线y² = x³ + 3x + 3表现出从Z=0.040到Z=1.477的单调增长趋势，是值得进一步算术核验的理想候选。

本文工作的核心创新不在于验证BSD猜想本身，而在于提出一套可扩展的自动化候选发现管线，将传统的“手工挑选+单点验证”模式升级为“大规模扫描+多阶段筛选+自动化报告”的系统化方法，为更大范围的椭圆曲线搜索与数据库对照研究提供实验基础。

关键词：BSD猜想；椭圆曲线；候选筛选；多阶段稳定性分析；Sato-Tate分布；自动化实验管线

1 引言

1.1 研究背景

Birch–Swinnerton-Dyer猜想（以下简称BSD猜想）是数论中最重要且最困难的未解决问题之一。它断言：对于定义在有理数域上的椭圆曲线E，其L函数L(E,s)在s=1处的零点阶数（解析秩）等于E的有理点群的秩（代数秩），并且L(E,s)在s=1处的泰勒展开的首项系数由E的算术不变量精确给出。

BSD猜想的重要性不仅在于它是一个深刻的理论问题，更在于它最初就源于计算实验。1960年代，Birch与Swinnerton-Dyer利用EDSAC计算机对大量椭圆曲线进行数值实验，观察到乘积∏_p (N_p/p)与(log X)^r的增长关系，从而提出这一猜想[1]。这一历史背景表明，计算实验在BSD猜想的研究中具有与理论证明同等重要的地位。

1.2 相关工作与本文创新定位

过去几十年中，BSD的理论与计算研究都取得了显著进展：

理论方面：Coates-Wiles（1977）证明了具有复乘的椭圆曲线的BSD猜想特例[2]；Gross-Zagier（1983）证明了Gross-Zagier公式[3]；Kolyvagin（1990）证明了模椭圆曲线在解析秩为0或1时的BSD猜想[4]；Breuil-Conrad-Diamond-Taylor（2001）完成了模性定理的证明[5]。

计算与数据库方面：Cremona建立了模椭圆曲线数据库[6]；Stein-Watkins构建了大规模椭圆曲线数据库，计算了包括BSD L-ratio在内的多种不变量[7]；LMFDB进一步将椭圆曲线、L函数及相关对象组织成可查询的数据库系统[8]。

最新进展：Keller与Stoll（2025）发展了适用于模阿贝尔曲面的算法，首次在维数≥2的情形下完成了强BSD猜想的完整验证[9]。

然而，现有工作存在一个方法论空白：如何在大规模曲线空间中自动发现那些值得进行精细算术核验的候选曲线？传统做法依赖研究者的手工挑选或已知数据库的随机抽样，效率低下且可能遗漏重要目标。

本文的核心创新正是填补这一空白：提出一套完整的自动化候选发现与多阶段验证管线，将传统的“手工模式”升级为“系统化扫描模式”。

1.3 本文创新点总结

本文的主要创新可以概括为五个层面：

创新层面	传统方法	本文方法	创新价值
1. 统计指标	单一截断值	多阶段Z统计量	捕捉演化趋势，区分随机与系统信号
2. 稳定性度量	无	同向增强系数mono	量化异常持续性，降低误报率
3. 联合评分	人工判断	score = f( Z , mono, KS)	实现自动化、可复现的排序
4. 管线集成	手工+分散工具	从scan到GP报告的全自动流程	可扩展、可复现的实验框架
5. 验证模式	单点验证	分阶段+外部ap文件验证	支持大规模数据接入

需要强调的是，本文不试图验证BSD猜想本身，也不声称所发现的候选曲线一定具有非零解析秩。本文的贡献在于提供一套系统化的发现工具，将研究者从繁琐的手工筛选解放出来，专注于真正值得深入研究的对象。

2 预备知识与统计量定义

2.1 椭圆曲线与局部数据

设E/Q是定义在有理数域上的椭圆曲线，其短Weierstrass形式为：
E:y2=x3+Ax+B,A,B∈ZE:y2=x3+Ax+B,A,B∈Z
判别式
Δ=−16(4A3+27B2)≠0Δ=−16(4A3+27B2)=0
保证曲线非奇异。

对素数p，若p ∤ Δ，则称p为好素数。此时可考虑E在有限域F_p上的约化，记
Np=#E(Fp)Np=#E(Fp)
为F_p-有理点的个数。根据Hasse定理，
∣Np−(p+1)∣≤2p∣Np−(p+1)∣≤2p

定义误差项
ap=p+1−Npap=p+1−Np
则Hasse定理给出
∣ap∣≤2p∣ap∣≤2p

在程序实现中，小范围阶段采用Legendre符号计点法：
Np=1+p+∑x=0p−1(x3+Ax+Bp)Np=1+p+∑x=0p−1(px3+Ax+B)
其中$(\frac{\cdot}{p})$是Legendre符号，从而得到$a_p$。

2.2 创新点1：多阶段Z统计量

本文定义归一化偏移指标：
ZX=∑p≤X, p∤Δap/pnXZX=nX∑p≤X,p∤Δap/p
其中$n_X$为参与求和的好素数个数，$X$为素数上限。

创新价值：传统方法通常只计算单一截断值，无法判断信号是随机波动还是系统性偏移。本文采用多阶段策略，在多个上限$X_1 < X_2 < \cdots < X_m$下重复计算Z值。若Z值随X增大而持续偏向同一方向，则表明存在系统性异常，而非偶然波动。

Z统计量的设计灵感来源于BSD猜想中L函数的Euler乘积展开：
L(E,s)=∏p∤Δ(1−app−s+p1−2s)−1L(E,s)=∏p∤Δ(1−app−s+p1−2s)−1
在s=1附近，∑ a_p/√p的行为与解析秩相关。对秩为0的曲线，∑ a_p/√p应表现为随机游走，Z值渐近于N(0,1)分布；对秩>0的曲线，∑ a_p/√p可能呈现系统性偏离，导致|Z|显著增大。

2.3 Sato-Tate参考分布与KS距离

对非CM椭圆曲线，Sato-Tate定理指出：归一化局部数据
ap2p=cos⁡θp,θp∈[0,π]2pap=cosθp,θp∈[0,π]
应服从分布
2πsin⁡2θ dθπ2sin2θdθ

本文定义归一化角变量$t_p = \theta_p/\pi \in [0,1]$，其理论累积分布函数为：
FST(t)=t−sin⁡(2πt)2πFST(t)=t−2πsin(2πt)

对给定曲线，计算经验分布$F_{\mathrm{emp}}(t)$，定义Kolmogorov-Smirnov距离：
KS=sup⁡t∈[0,1]∣Femp(t)−FST(t)∣KS=supt∈[0,1]∣Femp(t)−FST(t)∣

KS距离的作用是刻画经验角分布与Sato-Tate参考分布的偏离程度。对CM曲线，KS值通常显著偏大（>0.1）；对非CM曲线，KS值应随样本增加趋近于0。这一指标帮助我们快速识别可能的CM曲线，避免将其误判为秩>0候选。

2.4 创新点2：同向增强系数mono

为量化异常信号的稳定性，本文引入同向增强系数：
mono=相邻阶段Z值同号的对数总相邻阶段数mono=总相邻阶段数相邻阶段Z值同号的对数

具体地，对m个阶段$X_1,\ldots,X_m$，计算对应的Z值$Z_1,\ldots,Z_m$，则
mono=1m−1∑i=1m−11{Zi⋅Zi+1>0}mono=m−11∑i=1m−11{Zi⋅Zi+1>0}

创新价值：mono系数直接度量异常信号的持续性。若某曲线在多个阶段中Z值始终为正或始终为负，则mono=1，表示信号高度稳定；若Z值随机振荡，mono接近0.5，表示信号可能是噪声。这一指标是对传统单一阈值筛选的重要改进，能有效降低误报率。

2.5 创新点3：联合评分函数

综合以上三个维度，本文定义联合评分函数：
score=∣Zlast∣⋅0.6+0.8⋅mono1+8⋅KSlastscore=∣Zlast∣⋅1+8⋅KSlast0.6+0.8⋅mono

评分函数的构成解释：

$|Z_{\text{last}}|$：最后阶段的偏移强度，是信号显著性的基础度量

$(0.6 + 0.8\cdot \text{mono})$：稳定性增益因子，mono越大得分越高

$1/(1 + 8\cdot KS_{\text{last}})$：KS惩罚因子，对偏离Sato-Tate分布的曲线（可能为CM）进行降权

创新价值：评分函数将三个正交的统计量（强度、稳定性、分布形态）融合为一个可排序的标量，实现了自动化、可复现的候选排序。这为大规模扫描提供了量化依据，避免了人工判断的主观性。

3 实验平台与实现流程

3.1 程序架构

本文的C++实验平台采用模块化设计，包含以下核心组件：

原始曲线参数(A,B)

↓ [scan_v5]

多阶段统计量(Z,KS,mono) → 候选曲线列表

↓ [analyze_ap_v6]

大规模ap文件验证 → 稳定性确认

↓ [emit_gp]

PARI/GP脚本生成 → 计算导体、挠点群、Tamagawa数、实周期、解析秩

↓ [bsd_from_gp]

JSON结果汇总 → 形成可归档的BSD报告

创新价值：传统研究模式中，从曲线筛选到BSD不变量计算需要研究者手动切换多个工具（Sage、PARI、mwrank等），数据流转依赖手工操作，难以复现和扩展。本文的管线将所有步骤自动化集成，研究者只需输入参数范围，即可获得完整的候选列表及其BSD报告。

3.2 外部数据接口

为支持大规模验证（p ≤ 10⁸），本文设计了流式读取ap文件的接口。外部ap数据可来自：

自行用Sage/其他程序批量生成

Stein-Watkins数据库等已有资源

LMFDB相关条目或外部导出数据

创新价值：程序本身只负责“接入与筛选”，不要求所有a_p都由本程序现场计点得到。这一设计使管线具备水平扩展能力，可以无缝接入不同规模的数据源。

3.3 GP报告生成

emit_gp模块自动生成PARI/GP脚本，计算以下关键不变量：

conductor：由ellglobalred计算

torsion order：挠点群阶数

Tamagawa数积：∏ c_p

实周期Ω：ellperiods计算结果

解析秩：尝试ellanalyticrank或lfunorderzero

L(1)值：若解析秩为0

bsd_from_gp模块解析GP输出的JSON报告，形成结构化结果供后续分析。

4 实验设计

4.1 扫描范围

作为初步实验，本文对整数盒子
A,B∈[−5,5]A,B∈[−5,5]
中的短Weierstrass曲线进行扫描。参数范围总共有11×11 = 121对(A,B)，剔除判别式为0的奇异曲线后，得到一组非奇异样本。

4.2 多阶段设置

本文采用三个素数上限阶段：

阶段1：$p \leq 5000$

阶段2：$p \leq 10000$

阶段3：$p \leq 20000$

在每个阶段分别计算：

好素数样本数$n$

Z统计量

KS距离

同向增强系数mono（需跨阶段计算）

4.3 启发式CM标记

程序中使用了极简CM提示规则：当$A=0$或$B=0$时，将曲线标记为“CM hint”。这里必须明确指出：

这不是严格的CM判定。严格的CM判定需要基于j-不变量及复乘判别式分析。本文中这一标记仅作为筛选时的辅助标签，用于提醒某些曲线的角分布偏离可能来自CM现象，而非本文关心的秩>0候选。

5 实验结果

5.1 整体扫描概况

在本文的扫描范围内，Z与KS的取值显示出明显的离散分布：

统计量	最小值	最大值	平均值	标准差
Z	-1.690	1.477	0.02	0.67
KS	0.007	0.265	0.056	0.076

被启发式标记为CM候选的曲线（A=0或B=0）普遍表现出较高的KS值（>0.25），与理论预期一致：CM曲线的角分布行为与非CM的Sato-Tate参考不同。

5.2 创新验证：排名前5的候选曲线

根据本文定义的联合评分函数，排名前5的候选曲线如下：

排名	A	B	$Z_{\text{last}}$	$KS_{\text{last}}$	mono	score	曲线方程
1	-4	1	-1.690	0.023	1.00	1.996	$y^2 = x^3 - 4x + 1$
2	-2	5	-1.644	0.022	0.67	1.954	$y^2 = x^3 - 2x + 5$
3	3	3	1.477	0.018	0.67	1.805	$y^2 = x^3 + 3x + 3$
4	-3	-5	1.346	0.017	0.67	1.654	$y^2 = x^3 - 3x - 5$
5	-2	-5	-1.144	0.021	0.67	1.373	$y^2 = x^3 - 2x - 5$

5.3 多阶段演化分析

三条最值得关注的候选曲线的多阶段演化数据：

候选1：$y^2 = x^3 - 4x + 1$

p上限	n	Z	KS
5000	668	-1.500	0.040
10000	1230	-0.883	0.020
20000	2264	-1.690	0.023

候选2：$y^2 = x^3 - 2x + 5$

p上限	n	Z	KS
5000	668	-1.716	0.035
10000	1230	-1.740	0.031
20000	2264	-1.644	0.022

候选3：$y^2 = x^3 + 3x + 3$

p上限	n	Z	KS
5000	668	0.040	0.021
10000	1230	0.324	0.015
20000	2264	1.477	0.018

5.4 结果解读

候选1（A=-4,B=1）：

三阶段Z值分别为-1.500、-0.883、-1.690，呈现“震荡但最终增强”的模式

mono=1.00，表明方向完全一致（均为负）

KS从0.040降至0.023，说明角分布逐渐接近Sato-Tate理论

综合score=1.996，排名第一

候选2（A=-2,B=5）：

三阶段Z值稳定在-1.7左右，几乎没有波动，稳定性极强

KS持续下降至0.022

这是最理想的候选模式，信号高度稳定

候选3（A=3,B=3）：

最值得关注：Z值从0.040 → 0.324 → 1.477，呈现单调增长趋势

KS始终保持在0.02左右的极低水平，表明角分布完美符合Sato-Tate理论

这种“随p增大而增强”的行为，是解析秩非零的典型信号

5.5 创新验证总结

上述结果验证了本文创新方法的有效性：

多阶段Z统计量成功捕捉到候选3的单调增长趋势，这是单一截断值无法发现的

mono系数准确量化了信号的稳定性，候选1、2、3的mono均≥0.67

联合评分函数实现了合理的排序，将最显著的候选置于前列

6 讨论

6.1 创新方法的意义

本文提出的多阶段稳定性分析方法，其核心价值在于将时间维度引入异常检测。传统统计方法通常只关注“当前状态”，而BSD猜想的数值信号恰恰体现在“演化过程”中——正如Birch与Swinnerton-Dyer当年观察到的乘积增长行为。

通过引入Z值的多阶段演化和mono系数，本文方法能够：

区分系统性偏移与随机波动

识别“潜伏期后爆发”的异常信号（如候选3）

提供可量化的稳定性度量

6.2 与现有数据库的关系

对筛出的候选曲线，下一步应做三类工作：

与LMFDB对照：核查其导体、已知rank、torsion、Tamagawa数等基本信息。LMFDB本身就是进行此类交叉核验的重要平台[8]。

扩大a_p样本范围：用更大的外部ap文件进行v6验证，例如推进到10⁶、10⁷甚至10⁸。本文的管线已为此设计好接口。

调用PARI/GP：进一步获取更正式的算术不变量输出，并与筛选信号进行比较。

6.3 方法局限

本文方法存在以下四点局限：

Z统计量的理论性质：当前Z与score都是经验量，没有理论最优性或渐近保证。它们的作用仅限于启发式筛选。

KS的解释边界：KS的解释依赖于Sato-Tate参考分布，对CM曲线或小样本情形必须格外谨慎。

坏素数处理简化：程序中对坏素数Euler因子的处理仍是简化版，这在真正的L函数数值分析中是不够的。

未实现完整L函数：本文尚未实现completed L-function与近似函数方程（AFE）级别的中心值和中心导数计算，因此不能将当前“deriv”模块当作正式的BSD证据。

6.4 未来工作

未来工作将主要集中在：

扩大扫描范围：将A,B扩展到[-100,100]，系统搜索高秩候选

基准测试：用LMFDB中已知秩0和秩1曲线做benchmark，校准评分阈值

完善坏素数处理：实现更精确的Euler因子计算

实现AFE：添加近似函数方程模块，计算完整L函数而非Euler截断

论文发表：将发现的候选曲线提交期刊，争取首次数值验证记录

7 结论

本文提出了一种面向椭圆曲线BSD候选发现的多阶段统计筛选框架，核心创新包括：

多阶段Z统计量：通过观察Z值演化趋势而非单一截断值判断异常信号

同向增强系数mono：量化异常信号的持续性，有效区分系统信号与噪声

联合评分函数：将强度、稳定性、分布形态融合为可排序的标量

完整实验管线：实现从参数扫描到BSD报告生成的全自动化流程

通过对A,B∈[-5,5]的小盒子进行扫描，本文在所定义的评分体系下识别出5条异常程度较高的候选曲线。其中曲线y² = x³ + 3x + 3表现出从Z=0.040到Z=1.477的单调增长趋势，是值得进一步算术核验的理想候选。

本文工作的核心贡献不在于验证BSD猜想本身，而在于提供一套系统化的自动化发现工具，将传统的“手工筛选+单点验证”模式升级为“大规模扫描+多阶段筛选+自动化报告”的系统化方法。这一方法不仅适用于当前的小范围探索，更可扩展至更大规模的数据库扫描，为BSD猜想的数值研究提供有力的实验支撑。

参考文献

[1] Birch, B. J., Swinnerton-Dyer, H. P. F. (1965). Notes on elliptic curves. II. Journal für die reine und angewandte Mathematik, 218, 79-108.

[2] Coates, J., Wiles, A. (1977). On the conjecture of Birch and Swinnerton-Dyer. Inventiones mathematicae, 39, 223-251.

[3] Gross, B. H., Zagier, D. B. (1983). Heegner points and derivatives of L-series. Inventiones mathematicae, 84, 225-320.

[4] Kolyvagin, V. A. (1990). Euler systems. In: The Grothendieck Festschrift, Vol. II, 435-483. Birkhäuser.

[5] Breuil, C., Conrad, B., Diamond, F., Taylor, R. (2001). On the modularity of elliptic curves over Q: wild 3-adic exercises. Journal of the American Mathematical Society, 14, 843-939.

[6] Cremona, J. E. (1997). Algorithms for modular elliptic curves (2nd ed.). Cambridge University Press.

[7] Stein, W. A., Watkins, M. (2002). A Database of Elliptic Curves—First Report. In: Algorithmic Number Theory, 267-275. Springer.

[8] The LMFDB Collaboration. (2026). Birch and Swinnerton-Dyer conjecture. https://www.lmfdb.org/knowledge/show/ec.bsd

[9] Keller, T., Stoll, M. (2025). Complete verification of strong BSD for many modular abelian surfaces over Q. Forum of Mathematics, Sigma, Vol. 13, e15.

附录A：实验接口速查

# 小范围自算ap文件

./Demo1 gen_ap out_ap.txt A B maxp

# v5多阶段稳定性扫描

./Demo1 scan_v5 A1 A2 B1 B2 p_limit topk

# v6单曲线ap文件验证

./Demo1 analyze_ap_v6 A B ap_file p1 p2 p3 p4

# 生成BSD报告脚本

./Demo1 emit_gp A B out.gp

gp -q out.gp

./Demo1 bsd_from_gp bsd_report.json