其他分享
首页 > 其他分享> > USYD悉尼大学DATA 2002 Module 1: Categorical data 学习笔记(week1-week3)

USYD悉尼大学DATA 2002 Module 1: Categorical data 学习笔记(week1-week3)

作者:互联网

DATA2002 lecture 01 02 03


前言

系列博客是主要讲lecture里的重要知识点,这里面包括了data visualisation、data collection、 Chi-square test、 goodness of fit tests、 measure of performance 、 measure of risk 、 testing for homogeneity 、 testing for independent 和 testing in small sample。都是比较基础的知识点,掌握好,了解它。有的知识点讲的不够详细,后期会补上,现在把重点放在final内容。


Week 1

1.1 Data visualisation 数据可视化

我们要了解Palmer penguins数据集,并且要可视化。
这里不做过多讲解,基础代码部分自己对照lecture在Rstudio里运行

# install.packages("palmerpenguins")
library(palmerpenguins)

了解Palmer penguins数据集的更多信息。

help(penguins, package = "palmerpenguins")
# or more simply
?penguins

快速查看数据集的基本信息。

library(dplyr)
dplyr::glimpse(penguins) # glimpse the structure of the penguins data frame

使用ggplot2包将数据集可视化。

ggplot(data = penguins) + aes(x = species, fill = sex) + 
  geom_bar(position = "fill") + 
  labs(x = "", y = "Proportion of penguins", fill = "Sex") + 
  scale_y_continuous(labels = scales::percent_format()) + 
  facet_grid(cols = vars(island), scales = "free_x", space = "free_x") +
  theme_linedraw(base_size = 22)

这个part更多知识点参考其他博客里讲述ggplot绘图部分。

1.2 Data collection 数据收集

Sample and Population 样本和人口

为什么要用sample的方法,而不收集完整的Population来观察数据。

为什么要sample?

sample的定义

Sampling is the process of selecting a subset of observations from an entire population of interest so that characteristics from the subset (sample) can be used to draw conclusion or making inference about the entire population.(抽样是从整个感兴趣的总体中选择观察子集的过程,以便可以使用子集(样本)中的特征对整个总体得出结论或进行推断。)

Bias 偏见

Bias is any factor that favours certain outcomes or responses, or influences an individual’s responses. Bias may be unintentional (accidental), or intentional (to achieve certain results).
偏见是有利于某些结果或反应或影响个人反应的任何因素,偏见可能是无意的,也可能是故意的。

1.3 Controlled experiments 对照实验

Randomised controlled double-blind trials 随机对照双盲试验
在这里插入图片描述

为什么选择Randomised controlled double-blind trials?

Observational studies 观察性研究

观察性研究的必要性

为什么要Observational studies?和Controlled experiments有什么不同?

Misleading hidden confounders 误导性隐藏的混杂因素

Simpsons paradox 辛普森悖论

百度百科:辛普森悖论
知乎:辛普森悖论

1.4 Chi-squared tests 卡方检验

任何的 Hypothesis Testing都要经过这三个步骤:

  1. 清楚地了解实验是第一步,也是最重要的一步,然后设置research 问题
    set hypotheses: H0 VS H1

  2. 计算evidence
    set test statistic T
    set assumptions
    Select a critical value(α):Common values are 5% and 1%

  3. 得出conclusion
    Calculate p-value
    reject the null hypothesis or not reject it

link:Hypothesis Testing in 3 steps

Chi-squared tests

通常使用2种方法来进行,第一种是Goodness of Fit 第二种是Independence
下个小结进行详细讲解

Hypothesis 假设

分为null hypothesis和alternative hypothesis.
null hypothesis: The statement against which you search for evidence is called the null hypothesis, and is denoted by H0. It is generally a “no difference” statement.(您搜索证据所依据的陈述称为原假设,用 H0 表示。它通常是“无差异”陈述。)

alternative hypothesis: The statement you claim is called the alternative hypothesis, and is denoted by H1 (or sometimes you’ll see HA)(您声称的陈述称为备择假设,用 H1 表示(或者有时您会看到 HA))

Assumptions 假设

Test statistic

公式:
在这里插入图片描述

Decision

Week 2

2.1 goodness of fit tests 拟合优度检验

两种distributions
goodness of fit tests中,有两种distributions分布。分别是discrete distributioncontinuous distribution

Poisson distribution 泊松分布

A Poisson random variable represents the probability of a given number of events occurring in a fixed interval (e.g. number of events in a fixed period of time) if these event occur independently with some known average rate λ per unit time(.泊松随机变量表示给定数量的事件在固定间隔内发生的概率(例如,在固定时间段内的事件数量),如果这些事件以每单位时间某个已知的平均速率 λ 独立发生。)

在这里插入图片描述

Chi-squared tests for discrete distributions 离散分布的卡方检验

在这里插入图片描述
在这里插入图片描述

2.2 Measures of performance 绩效衡量标准

Types of errors 重点知识:

在这里插入图片描述
记住每个的位置,基本大概率不会变。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 Measures of risk 风险措施

Prospective and retrospective studies前瞻性和回顾性研究

Estimating population proportions 估计人口比例

在这里插入图片描述

Relative risk 相对风险

在这里插入图片描述
The relative risk is the ratio of the probability of having the disease in the group with the risk factor to the probability of having the disease in the group without the risk factor.
在这里插入图片描述

Odds ratio 优势比

在这里插入图片描述

Standard errors and confidence intervals for odds ratios 优势比的标准误和置信区间

在这里插入图片描述

Week 3

3.1 Testing for homogeneity

Chi-squared test of homogeneity

With our observed counts and expected counts in each cell, we can construct a chi-squared test for homogeneity,
在这里插入图片描述
The expected cell counts are
在这里插入图片描述

Testing for homogeneity in general tables

在这里插入图片描述

3.2 Testing for independence

Testing for independence in 2×2 tables

在这里插入图片描述

Independence

在这里插入图片描述

Test statistic

在这里插入图片描述

3.3 Testing in small samples

Fisher’s exact test

在这里插入图片描述

Yates’ chi-squared test

在这里插入图片描述

总结

有很多地方知识点总计的不够完善,final期末考试的重点是后面的内容,会把很多精力放在后面,这些内容后期会慢慢的补上。如果觉得哪里需要改进可以联系我。谢谢,请谅解。

标签:risk,Categorical,Testing,Module,sample,hypothesis,statistic,test,data
来源: https://blog.csdn.net/weixin_43773228/article/details/119781309