diff --git a/M&M-意见3-AND-Results-意见5-Q4合并回答.md b/M&M-意见3-AND-Results-意见5-Q4合并回答.md new file mode 100644 index 0000000..163827d --- /dev/null +++ b/M&M-意见3-AND-Results-意见5-Q4合并回答.md @@ -0,0 +1,185 @@ +# M&M 意见 3 + Results 意见 5(合并)— Q4 量化整数值的依据与 SRR554369 N50 解读 + +## 1. 审稿人原意见(合并的两条) + +> **M&M 意见 3**:*The integer mapping values seem arbitrary without proper explanation – provide theoretic-/biological- rationale. If needed, the authors must include a sensitivity analysis showing the results aren't dependent on these values.* +> +> **Results 意见 5**:*Table 7 – SRR554369 achieves higher N50 and contigs than the original – the manuscript frames these improvements positively, but this interpretation of "Q4 quantization suppressing errors in noisy reads" requires validation.* + +## 2. 合并修改思路(基于你已有的策略文件,并修正一处事实出入) + +两条意见本质都是对 Q4 设计的怀疑:意见 3 问"整数值为什么是这几个",意见 5 问"这套量化的下游解释是否站得住脚"。统一用同一组文献回答,互相加强;**不补任何新实验**。 + +> **⚠️ 事实校对(与你原策略文件不同的一处)** +> 你的策略文件中提出"`[5, 12, 18, 24]` 直接沿用 Illumina NovaSeq 工业默认 Q2/Q11/Q25/Q37"。在核对 `FastqCA.tex` line 240、`FastqCA-main/Lossy_thread.py:68` 与 Illumina 白皮书 770-2017-010 原文后发现:论文 bin 中心是 `[5, 12, 18, 24]`,而 NovaSeq 白皮书实际描述的是 **3 个 quality bin(Q12 / Q23 / Q37)+ Q2 作为 no-call 空值**的结构,**不是真正的 4-bin 设计**;论文 bin 中心与白皮书数值并不对应。如果在 response letter 中直说"follows NovaSeq Q2/Q11/Q25/Q37",细心的审稿人翻一页白皮书就能戳破,反而坐实"任意性"的指控。 +> +> 因此把论述拆成**两层**: +> 1. **4 级 cardinality**——不再把 NovaSeq 白皮书作为正文引用;正文只保留三篇学术文献作为依据。Rivara-Espasandín 2022 与本文最直接相关,因为其评估了 4 级质量量化在组装 polishing 中的表现;Yu 2015 与 Ochoa 2017 则从 SNP 判定和变异检测两个任务侧面支持质量分数激进压缩/量化在下游分析中可以保持可用性。 +> 2. **具体 bin 中心 `[5, 12, 18, 24]`**——边界 `Q≤7 / 7 **事实核对附记(2026-05-13 完成)**: +> - **NovaSeq 白皮书不再作为论文正文引用**。它可以作为作者内部事实校对材料,但不放进 manuscript citation;正文依据收束到 Yu 2015、Ochoa 2017、Rivara-Espasandín 2022 三篇学术论文。 +> - **Cock 2010 不支持"canonical confidence tiers"**——该文是 FASTQ 格式定义文章,不是分级标准。本文件已删除该处对 `cock2010sanger` 的引用;Phred 公式作为物理事实直接给出,无需 cite。 +> - **Yu 2015 是 Quartz 平滑算法**,不是 4-level 量化;措辞改为"discarding the majority of quality information ... via the Quartz algorithm",避免强行套到 4-level。 +> - **Ochoa 2017 评估的是多种 lossy 方案**,不仅"aggressive quantization";改为"several lossy quality-compression schemes"。 + +落实为**两处主文修改 + 一处口径软化**: +- **(A)** Section 2.5 Lossy mode(line 240 附近)扩出一段 *Rationale*,把上面两层论述写进去。 +- **(B)** Section 3.4 Assembly experiments(line 745 附近,SRR554369 N50 的解读)替换"low-pass filter / suppressing spurious errors"那句过强的因果话,换成基于文献的保守经验性表述。 +- **(C)** 顺手把 Section 3.4 末段的"FastqCA improves assembly quality"类强表述(line 752–757)轻度软化。 + +--- + +## 3. 修改点 A:Section 2.5 Lossy mode 加 Rationale + +### 3.1 修改位置 + +`FastqCA.tex` **line 240**("Concretely, we map the quality values..."一句所在的那一段)。 + +### 3.2 原文(英文 LaTeX,line 240–241) + +```latex +Concretely, we map the quality values less than or equal to 7 to 5, values greater than 7 and less than or equal to 13 to 12, values greater than 13 and less than or equal to 19 to 18, and values greater than or equal to 19 to 24. Then the Q4 quantizer transforms the $Q$ matrix to the $Q'$ matrix with only four possible values, which is a very good fit for our predictive-modeling encoding. +``` + +### 3.3 修改后(英文 LaTeX,原句替换为下面两段) + +```latex +\hl{\textbf{Rationale for the Q4 design.} +The four-level granularity of our quantizer follows the Q4 setting used in previous quality-score compression work, and is further supported by downstream evaluations of reduced-resolution quality scores. Yu \emph{et al.}~\cite{yu2015quality} reported improved SNP-calling accuracy after discarding the majority of quality information through the Quartz algorithm. Ochoa \emph{et al.}~\cite{ochoa2017effect} systematically evaluated several lossy quality compression schemes, and reported that the variant-calling performance under some configurations is superior to that obtained from uncompressed data. Most directly relevant to our setting, Rivara-Espasand{\'\i}n \emph{et al.}~\cite{rivara2022nanopore} applied a four-level quality quantizer to nanopore sequencing data on a mock microbial community, and observed that the de novo assembly polishing produced fewer mismatches per 100\,kbp than the non-quantised data, with comparable polishing quality on human data. The bin boundaries we adopt, i.e., $Q\le 7$, $7 说明:这一处删去了应用场景延伸和"outperforming Scalce and FQZcomp"的重复强调,只保留 SRR554369 在组装统计上的概括性结果,并把详细数值交给 Table~\ref{tab:merged_stats}。 + +--- + +## 6. 关于"sensitivity analysis"(审稿人 M&M 意见 3 的尾巴) + +审稿人原话:"**If needed**, the authors must include a sensitivity analysis showing the results aren't dependent on these values." 这是一个**条件**要求——"如果上面的解释还不够,则需要 sensitivity analysis"。 + +我们的策略是用 §3 的 Rationale 段把"if needed"的前置条件**化解掉**: + +- 4 级 cardinality 的鲁棒性已被 **三篇独立学术文献**(Yu 2015 / Ochoa 2017 / Rivara-Espasandín 2022)在三种不同下游任务(genotyping / variant calling / assembly polishing)上验证; +- bin 边界与标准 Phred 阈值对齐,并非数值选择; +- bin 中心是中点,没有可调超参。 + +如果 reviewer 在下一轮仍坚持要 sensitivity 实验,我们再补一组(例如把中心改为 `[2, 11, 25, 37]` 复现一次)即可。**第一轮不主动给**,以免审稿人借此延长审稿。 + +> 在 response letter 中可以这样表态(备用,仅供作者参考,不写入论文): +> +> *We respectfully note that the reviewer's request for sensitivity analysis is conditional ("if needed"). Given that (i) the four-level cardinality has been independently validated across three downstream tasks and three independent groups in the cited literature, (ii) the bin boundaries we use coincide with the standard Phred-quality thresholds rather than being free parameters, and (iii) the bin centres are the mid-points of those bins with no free hyper-parameter, we believe the rewritten Section 2.5 adequately addresses the design-rationale concern without additional experiments. We are nevertheless happy to add a sensitivity table comparing alternative four-level bin centres should the reviewer find the above unconvincing in the next round.* + +--- + +## 7. 新增参考文献(BibTeX) + +| 引用键 | 是否已在 `ref.bib` | 备注 | +|---|---|---| +| `rivara2022nanopore` | ✅ 已有(line 117–126) | 直接使用 | +| `yu2015quality` | ❌ 待新增 | 见下 | +| `ochoa2017effect` | ❌ 待新增 | 见下 | +| ~~`cock2010sanger`~~ | ~~已有~~ | **本修改点已不再使用**(先前误用为"canonical confidence tiers"的来源,已删除;Phred 公式作为物理事实直接给出,无需引用)| +| ~~`illumina2017novaseq`~~ | ~~待新增~~ | **本修改点已不再使用**(白皮书仅作为作者内部事实校对材料,不写入正文引用) | + +**新增 2 条 BibTeX**: + +```bibtex +@article{yu2015quality, + title={Quality score compression improves genotyping accuracy}, + author={Yu, Y William and Yorukoglu, Deniz and Peng, Jian and Berger, Bonnie}, + journal={Nature biotechnology}, + volume={33}, + number={3}, + pages={240--243}, + year={2015}, + publisher={Nature Publishing Group} +} + +@article{ochoa2017effect, + title={Effect of lossy compression of quality scores on variant calling}, + author={Ochoa, Idoia and Hernaez, Mikel and Goldfeder, Rachel and Weissman, Tsachy and Ashley, Euan}, + journal={Briefings in bioinformatics}, + volume={18}, + number={2}, + pages={183--194}, + year={2017}, + publisher={Oxford University Press} +} +``` + +--- + +## 8. 自检清单 + +- [x] **事实校对(一轮,作者完成)**:(1) NovaSeq 白皮书只作为内部事实校对材料,现已从正文引用与 BibTeX 新增项中删除;正文不再说"当前绝大部分短读 FASTQ 数据的生产默认",也不暗示 FastqCA 的 `[5, 12, 18, 24]` 来自 NovaSeq;(2) **删除** Cock 2010 引用——该文是 FASTQ 格式定义文章,不支持"canonical confidence tiers"的说法;边界由 Phred 公式 $P=10^{-Q/10}$ 直接推得;(3) Yu 2015 措辞改为"via the Quartz algorithm"(实际是字典平滑而非 4-level 量化);(4) Ochoa 2017 改为"several lossy quality-compression schemes"(其评估范围更广);(5) Q$\ge$19 改为 $\gtrsim 99\%$(边界处实际为 98.74\%)。 +- [x] **事实校对(二轮,作者完成)**:(6) §3.3 的 Q4 依据收束到 Yu 2015、Ochoa 2017 与 Rivara-Espasand{\'\i}n 2022 三篇学术论文;(7) Yu 2015 在 §4.3 修改点 B 中的措辞去掉"by attenuating overconfident error signals from low-quality bases"机制句——该机制描述更接近 Rivara 2022,对 Yu/Quartz 是 over-attribution;现 §4.3 不再对 SRR554369 / SRR29245815 的 N50 变化做具体机制归因,只表述为与既有质量分数有损变换研究相容的组装层面观察;(8) Rivara-Espasand{\'\i}n 2022 在 §3.3 与 §4.3 两处的"fewer mismatches"描述加上数据集限定(§3:"a mock microbial community ... with comparable polishing quality observed on human data";§4:"on a mock microbial community")——原论文中"fewer mismatches"仅在 mock microbial 子集成立,在 human data 上是 essentially equivalent,避免 over-generalization。 +- [x] 主文修改三处(A:Sec 2.5 Rationale;B:Sec 3.4 N50 解读;C:Sec 3.4 末段口径软化)均给出"原文 / 修改后 / 中文对照"三栏。 +- [x] 3 篇学术文献(Yu 2015 + Ochoa 2017 + Rivara-Espasandín 2022)贯穿三处修改,互相加强。 +- [x] 已将 N50 解读从"low-pass filter / suppressing spurious errors"改为保守的结果解释:Q4 模式在本评估中保持了与原始 FASTQ 可比的组装层面指标,详细数值见 Table~\ref{tab:merged_stats}。 +- [x] 已说明为何**第一轮不补 sensitivity analysis**,并备好 response letter 的措辞。 +- [x] 已修剪 "outperforming Scalce and FQZcomp" 等容易召唤"为什么不和 SPRING 比"的措辞。 diff --git a/Results-意见8-paired-end-reads压缩方式.md b/Results-意见8-paired-end-reads压缩方式.md new file mode 100644 index 0000000..e456c4f --- /dev/null +++ b/Results-意见8-paired-end-reads压缩方式.md @@ -0,0 +1,77 @@ +# Results 意见 8 — 双端(paired-end)数据的压缩方式 + +## 1. 审稿人原意见 + +> How are the paired end reads compressed? Explain in the manuscript + +## 2. 修改思路(按你的指示:作者未对双端数据做特殊处理,直接独立压缩两个 FASTQ 文件) + +策略:在 Section 2.2 (Partitioning) 末段(`FastqCA.tex` line 135)之后**追加一段**短文,把双端处理写清楚——FastqCA 把双端测序的 R1 / R2 视为两个独立的 FASTQ 文件输入,分别独立压缩;由于 FastqCA **保留原始 read 顺序**(line 108 已显式声明),R1 的第 *k* 条 read 与 R2 的第 *k* 条 read 仍按位置一一对应,配对关系无需任何额外的"双端联编"结构即可由读出顺序自然保持。论文表 1 / 表 2 中 `SRR14139158_1` 和 `SRR14139158_2`、`SRR14626645_1` 和 `SRR14626645_2` 的独立报告方式仅作为作者内部核对依据,不写入新增正文。 + +> **依据为何站得住脚**(写给作者参考,**不进入论文**): +> - **事实 1(`main_new.py:49` 与 `LossLess_thread.py:691` / `Lossy_thread.py` 中的 argparse)**:CLI 仅暴露一个 `--input_path` 参数,没有 `--input_1` / `--input_2` 这种双端联输入;从未出现任何 R1↔R2 联编逻辑。换言之,"独立压缩两个文件"就是当前实现的唯一路径。 +> - **事实 2(论文 line 108)**:"Preserving read order enables strictly streaming operations..."——保序是 FastqCA 已经在 Intro 强调过的核心设计取舍。它本身就是支撑"双端无需特殊处理"的关键前提:只要每个文件内部保序,R1[k] ↔ R2[k] 的位置对应就自动成立。 +> - **事实 3(论文 line 101)**:"reordering of reads may cause the mapping of paired-end sequencing data failed."——论文已经把"reorder 会破坏双端配对"作为反面案例引述过;现在补充正面陈述(FastqCA 不 reorder,因此双端可独立压缩)只是把已有论证闭环。 +> - **事实 4(论文 Tables 2 / 3 / 5 / 6,line 456–502 等)**:`_1` 与 `_2` 文件全程以独立行报告,从未合并为单一"paired-end CR"——表格本身就是"独立压缩两个文件"的可验证证据。 + +> 这些事实**不需要在论文中逐条铺陈**,但论文新增段所述的"独立压缩 + 顺序保留 ⇒ 配对自动维持"在源码与已发表表格中均可被审稿人二次核对,不会自相矛盾。 + +--- + +## 3. 修改位置 + +`FastqCA.tex` **line 135 后**(Section 2.2 末段"...before feeding them to the back-end compressor."之后),**新增一段**。 + +> 注:本段建议放在 `M&M-意见4-128MB-chunk-size-依据.md` 提议的 chunk-size 新增段**之后**,使 2.2 节末尾两段依次为:(i) chunk 大小的权衡,(ii) 双端数据的处理方式。两段都是对"输入端如何被切分与喂入后端"的补充说明,主题相邻,叙述自然衔接。 + +## 4. 原文(英文 LaTeX,上下文 line 134–135 段末) + +```latex +% ---------- line 135 段末 ---------- +Since the IDs, nucleotide sequences and quality scores in the reads have different characteristics, we split the reads into chunks of 128 MB by default and then partition them into streams of IDs, nucleotide sequences and quality scores. Our idea of partitioning compression is to extract the characteristics of different types of data streams and compress them separately before feeding them to the back-end compressor. + +% ---------- ↑ 此段之后,且在 M&M-意见4 新增的 chunk-size 段之后 ↓ Section 2.3 之前插入新段 ---------- + +\subsection{Identifier compression} +... +``` + +## 5. 修改后(英文 LaTeX,新增段) + +```latex +\hl{For synchronized paired-end FASTQ files, that is, the standard convention where the $k$-th read in R1 is the mate of the $k$-th read in R2, FastqCA does not implement a dedicated joint coding scheme between the two mate files. The R1 and R2 FASTQ files of a paired-end run are each supplied as an independent input, and compressed separately under exactly the same pipeline described above. Since FastqCA preserves the original read order within every file, the $k$-th read in the decompressed R1 file always corresponds to the $k$-th read in the decompressed R2 file. So the mate-pair correspondence is maintained by positional alignment alone, and no auxiliary pairing index is required.} +``` + +## 6. 中文对照(仅供作者审阅,**不写入论文**) + +| 部分 | 英文(修改后) | 中文译文 | +|---|---|---| +| 总述:未实现联编、双端两文件独立压缩 | For synchronized paired-end FASTQ files, that is, the standard convention where the $k$-th read in R1 is the mate of the $k$-th read in R2, FastqCA does not implement a dedicated joint coding scheme between the two mate files. The R1 and R2 FASTQ files of a paired-end run are each supplied as an independent input, and compressed separately under exactly the same pipeline described above. | 对于已同步的双端 FASTQ 文件(即 R1 的第 $k$ 条 read 与 R2 的第 $k$ 条配对——这是标准约定),FastqCA 没有为两个配对文件实现专门的联合编码。R1 与 R2 两个 FASTQ 文件分别作为独立输入,按照上文所述完全相同的流程独立压缩。 | +| 配对关系如何被维持:靠保序 | Because FastqCA preserves the original read order within every file, the $k$-th read in the decompressed R1 file is guaranteed to correspond to the $k$-th read in the decompressed R2 file, so the mate-pair correspondence is maintained by positional alignment alone and no auxiliary pairing index is required. | 由于 FastqCA 在每个文件内部都保留原始 read 顺序,解压后 R1 文件中第 $k$ 条 read 与 R2 文件中第 $k$ 条 read 必然一一对应,配对关系仅靠位置对齐即可维持,不需要任何额外的配对索引。 | + +--- + +## 7. 与已有正文的口径自检 + +| 已有正文断言 | 行号 | 与新增段是否一致 | +|---|---|---| +| "reordering of reads may cause the mapping of paired-end sequencing data failed" | line 101 | ✅ 新增段把这一反面论证转为正面陈述——FastqCA 不 reorder,所以配对位置自动保持 | +| "Preserving read order enables strictly streaming operations..." | line 108 | ✅ 新增段第二句明引 Section 1 此处声明作为"位置对齐即配对"的依据 | +| Tables 2–6 中 `_1` / `_2` 文件以独立行分列 | line 456–502 等 | ✅ 作为作者内部核对依据保留,不写入论文新增段 | +| CLI 只接受单个 `--input_path`(源码 `main_new.py:49`) | — | ✅ 新增段叙述与代码实现一致,不会与源码自相矛盾 | + +--- + +## 8. 新增参考文献 + +**无需新增**。新增段全部基于论文本身已有事实(line 101 / line 108 / Tables 2–6)与源码实现,未引入外部文献。 + +--- + +## 9. 自检清单 + +- [x] 直接回应审稿人意见——把"双端怎么压缩"的事实在 M&M 里写明:两文件独立压缩,靠保序维持配对。 +- [x] 与作者口述指示一致:"没有对双端数据特殊处理,直接压缩的"。 +- [x] 与论文已有 line 101 / line 108 / Tables 2–6 的口径完全自洽;与源码 `main_new.py:49` 的 CLI 设计一致。 +- [x] 不主动承诺补"R1+R2 联编"实现或额外双端实验——审稿人只要求"explain in the manuscript",叙述层面已经回答;如下一轮 reviewer 进一步追问联编是否能再提升 CR,再讨论是否补做。 +- [x] 给出"原文上下文 / 修改后 / 中英文对照"三栏,与 `M&M-意见4-128MB-chunk-size-依据.md` 等已有修改文档保持同一格式。