Contamination Analysis and Tempering-An Automated Online Platform for Plasma Proteomics

Welcome to CAT-APP

This interactive tool allows you to analyze and correct for contamination in plasma proteomics data.

Key features:

Multi-dimensional contamination assessment and adaptive contamination indexing
Mathematic model-based contamination correction
Data recovery evaluation with visualization

How to use:

Upload your protein expression data and group information
Check data quality and select contamination markers
Run correction for selected contamination types
Perform differential expression analysis

CAT-APP is developed by R shiny (Version 1.11.1), and is free and open to all users with no login requirement. For any questions or feedback, please contact us via email: zhangdong_0121@foxmail.com

No data uploaded. Please upload your data or use example data to explore.

Data File Preview

Group Information Preview

Data Quality Assessment

Contamination Summary

QC(Pre-correction)

Contamination Marker Expression

Relevance of contamination markers

Download Corrected Data

Contamination Levels(Pre-correction)

Correction Outcomes

QC(Post-correction)

Contamination Levels(Post-correction)

Post-correction Data Matrix

Download Post-correction Data

Pre-correction Results
Post-correction Results

Download Pre-correction DE Results

Download Post-correction DE Results

User Manual

1. Tool Overview

This tool is designed for plasma proteomics data analysis and provides the following core functions:

Multi-dimensional contamination assessment and adaptive contamination indexing
Mathematic model-based contamination correction
Data recovery evaluation with visualization

2. User Guide

2.1 Data Input

Data source selection: Choose example data for reference or upload CSV files (gene expression matrix and group information)
File format requirements:
- Expression matrix: First column contains protein names, columns represent samples. Requires missing value imputation. Do NOT perform log2 transformation (software will automatically apply log2 transformation)
- Group information: Must contain id (matching expression matrix column names) and group columns
Parameter settings: Select comparison groups, set correlation coefficient threshold (default: 0.9)

2.2 Contamination Assessment

Quality assessment: View quality control plots including PCA, heatmap, correlation coefficient distribution
Marker selection:
- Select contamination panels with high CV values from contamination type list
- Filter effective markers through correlation analysis and differential expression
Contamination level:

2.3 Data Correction

Correction type: Select contamination types to correct (RBC, platelets, coagulation system). Do not select types without available markers
Constraint factor: Adjust correction strength using slider (recommended range: 0.8-1.2, default: 1)
Quality control: Compare quality metrics pre/post correction: PCA, contaminant marker CV changes

2.4 Differential Analysis

Analysis method: Differential expression analysis based on limma
Result interpretation:
- Compare overlapping differential proteins pre/post correction using Venn diagrams
- Visualize significant differential proteins via volcano plots
Data export: Download results in CSV format

3. Important Notes

Data preprocessing: Perform missing value imputation before uploading
Marker validation: Ensure selected contamination markers show stable expression in the dataset.
Parameter optimization: Adjust constraint factor using CV distribution, correlation plots and PCA results. Default values suffice for most cases
Result validation: Post-correction should show: Significant reduction in CV values of contaminant markers and decreased high-correlation distribution
Technical support: please contact us via email: zhangdong_0121@foxmail.com

4. Frequently Asked Questions

Q1: Why do negative values appear after correction? A: This is normal and may occur with extremely small values due to automatic log2 transformation
Q2: How to determine optimal correlation coefficient threshold? A: Default 0.9 works for most cases. Lower threshold if insufficient markers are identified
Q3: What are Contamination Levels? How are they calculated? A: Contamination Levels are values calculated by CAT-APP for each sample, derived from the average expression of markers that are highly correlated within the dataset and show no significant differences between biological groups.
Q4: Is significant change in differential proteins post-correction normal? A: Yes. Removed proteins typically associate with contamination pathways, while new differential proteins often relate to biological pathways