Лист за преговор: Biostatistics for Biological Data Analysis

Biological Data & Statistical Principles Revision Sheet

1. 📌 Essentials

Statistics: Science of analyzing numerical data to infer biological phenomena.
Biostatistics: Application of statistical methods to biological and medical data.
Population: Entire set of units; Sample: Subset used for inference.
Variables: Qualitative (nominal, ordinal); Quantitative (discrete, continuous).
Data Organization: Data matrices, classification, frequency distributions.
Descriptive Stats: Mean, median, mode (central tendency); variance, SD, IQR (dispersion).
Probability: Likelihood of an event; values between 0 and 1.
Normal Distribution: Symmetric bell curve; 68-95-99.7 rule.
Correlation (r): Measures linear association; ranges from -1 to +1.
Regression: Predicts one variable from another; Y = a + bX.
Hypothesis Testing: Null vs. alternative; p-value indicates significance.
Outliers & Skewness: Outliers are points outside 1.5×IQR; skewness indicates asymmetry.
Causality: Requires cause-effect relationship, not just correlation.

2. 🧩 Key Structures & Components

Population — Entire set of units under study.
Sample — Subset drawn for analysis.
Variables — Characteristics measured:
- Qualitative: Nominal (categories), Ordinal (ordered).
- Quantitative: Discrete (counts), Continuous (measurements).
Data matrix — Organized data in rows (units) and columns (variables).
Frequency distribution — Counts or proportions of variable values.
Probability — P(event) = number of favorable outcomes / total outcomes.
Normal distribution — Bell-shaped, symmetric curve.
Pearson’s r — Measures linear correlation.
Regression line — Y = a + bX, models relationship.
Hypothesis testing framework — Null hypothesis (H0), alternative (HA).

3. 🔬 Functions, Mechanisms & Relationships

Data collection → Population or sample.
Variables are measured and organized into data matrices.
Descriptive statistics summarize central tendency and variability.
Probability quantifies likelihood of events, guiding inference.
Normal distribution models many biological variables; 68-95-99.7 rule describes data spread.
Correlation (r) indicates strength/direction of linear association.
Regression predicts dependent variable (Y) from independent variable (X).
Hypothesis testing assesses if observed data significantly differ from null expectations.
Outliers/skewness influence data interpretation; must be identified and considered.
Causality involves establishing cause-effect, not just association.

4. 📊 Comparative Table

Item	Key Features	Notes / Differences
Population	Entire set of units; basis for data collection	Census vs. sample
Sample	Subset for inference; should be representative	Randomization improves validity
Qualitative Variables	Nominal: categories; Ordinal: ordered categories	No numeric meaning
Quantitative Variables	Discrete: countable; Continuous: measurable quantities	e.g., number of cells vs. weight
Distribution Shape	Symmetric (normal) vs. skewed (positive/negative skew)	Affects analysis and modeling

5. 🗂️ Hierarchical Diagram

Statistics
 ├─ Data Collection
 │   ├─ Population
 │   └─ Sample
 ├─ Variables
 │   ├─ Qualitative
 │   │    ├─ Nominal
 │   │    └─ Ordinal
 │   └─ Quantitative
 │        ├─ Discrete
 │        └─ Continuous
 ├─ Data Organization
 │   └─ Frequency tables
 ├─ Data Visualization
 │   ├─ Bar, Pie, Histogram, Scatter, Boxplot
 ├─ Descriptive Statistics
 │   ├─ Central: Mean, Median, Mode
 │   └─ Dispersion: Range, Variance, SD, IQR
 ├─ Probability
 │   ├─ Event, P(event)
 │   └─ Venn diagrams, independence
 ├─ Correlation
 │   └─ Pearson’s r
 ├─ Regression
 │   └─ Y = a + bX
 ├─ Hypothesis Testing
 │   ├─ Null (H0), Alternative (HA)
 │   └─ p-value, significance level
 └─ Distribution
     ├─ Normal (Gaussian)
     └─ Parameters: μ, σ, IQR

6. ⚠️ High-Yield Pitfalls & Confusions

Confusing correlation with causation; correlation does not imply causality.
Overlooking outliers, which can distort mean and SD.
Misinterpreting skewness as data symmetry.
Assuming normality without verification; many biological data are skewed.
Using parametric tests on non-normal data.
Ignoring confounders in causal inference.
Misapplying p-value thresholds; significance does not imply practical importance.
Over-reliance on mean in skewed distributions; median may be better.
Neglecting to check for independence in statistical tests.

7. ✅ Final Exam Checklist

Understand the difference between population and sample.
Identify and classify variables (qualitative vs. quantitative).
Organize data into frequency tables and visualizations.
Calculate and interpret measures of central tendency and dispersion.
Recognize the properties of the normal distribution.
Compute and interpret Pearson’s correlation coefficient.
Develop regression equations and interpret slope/intercept.
Formulate null and alternative hypotheses.
Calculate p-values and determine significance.
Detect outliers and assess skewness.
Understand the concepts of dependence, causality, and confounding.
Know the parameters of distributions: μ, σ, IQR.
Recognize the importance of data distribution shape in analysis.
Avoid common pitfalls: mistaking correlation for causation, ignoring outliers, assuming normality without verification.

End of Revision Sheet

1. 📌 Essentials

2. 🧩 Key Structures & Components

3. 🔬 Functions, Mechanisms & Relationships

4. 📊 Comparative Table

5. 🗂️ Hierarchical Diagram

6. ⚠️ High-Yield Pitfalls & Confusions

7. ✅ Final Exam Checklist

Тествайте знанията си

Прегледайте с флашкарти

Similar courses

Introduction aux suites numériques

Les transformations sociales et professionnelles

Introduction à la mobilité sociale et ses déterminants

Maîtrise des équations et fonctions du second degré

Introduction à la datation géologique

Principes et méthodes de datation géochronologique

Създайте свои собствени листове за преговор