当前位置: 首页> 游戏> 网游 > 毕业论文网页设计需求_企业邮箱在哪里申请_做营销型网站的公司_百度app下载最新版本

毕业论文网页设计需求_企业邮箱在哪里申请_做营销型网站的公司_百度app下载最新版本

时间:2025/7/12 4:42:39来源:https://blog.csdn.net/AdamCY888/article/details/146486392 浏览次数:1次
毕业论文网页设计需求_企业邮箱在哪里申请_做营销型网站的公司_百度app下载最新版本

列联表及其边缘分布的详细解释

一、列联表的定义

列联表(Contingency Table) 是一种用于表示 多个分类变量联合分布 的表格。其核心是通过多维数组记录不同属性组合的频次。以下是关键点:

  1. 分类属性

    • 设有 k k k 个分类属性 A 1 , A 2 , … , A k A_1, A_2, \dots, A_k A1,A2,,Ak,每个属性 A j A_j Aj 的取值范围为 I j = { 1 , 2 , … , I j } \mathcal{I}_j = \{1, 2, \dots, I_j\} Ij={1,2,,Ij}
    • 示例:若 k = 3 k=3 k=3,属性可能为性别( A 1 ∈ { 男 , 女 } A_1 \in \{男, 女\} A1{,})、年龄段( A 2 ∈ { 0 − 10 , 11 − 20 } A_2 \in \{0-10, 11-20\} A2{010,1120})、地区( A 3 ∈ { 城市 , 农村 } A_3 \in \{城市, 农村\} A3{城市,农村}})。
  2. 多维数组表示

    • 每个单元格 x ( i 1 , i 2 , … , i k ) x(i_1, i_2, \dots, i_k) x(i1,i2,,ik) 表示属性组合 ( A 1 = i 1 , A 2 = i 2 , … , A k = i k ) (A_1=i_1, A_2=i_2, \dots, A_k=i_k) (A1=i1,A2=i2,,Ak=ik) 的频次。
    • 示例 x ( 1 , 2 , 1 ) x(1, 2, 1) x(1,2,1) 表示“男性、11-20岁、城市”的人口数。
  3. 向量化表示

    • 通过字典序函数 Ψ \Psi Ψ,将多维索引 ( i 1 , i 2 , … , i k ) (i_1, i_2, \dots, i_k) (i1,i2,,ik) 映射为一维索引 i ∈ { 1 , 2 , … , n } i \in \{1, 2, \dots, n\} i{1,2,,n},其中 n = ∏ j = 1 k I j n = \prod_{j=1}^k I_j n=j=1kIj
    • 示例:若 k = 2 k=2 k=2 I 1 = { 1 , 2 } \mathcal{I}_1=\{1,2\} I1={1,2} I 2 = { 1 , 2 } \mathcal{I}_2=\{1,2\} I2={1,2},则:
      • Ψ ( 1 , 1 ) = 1 \Psi(1,1)=1 Ψ(1,1)=1 Ψ ( 1 , 2 ) = 2 \Psi(1,2)=2 Ψ(1,2)=2 Ψ ( 2 , 1 ) = 3 \Psi(2,1)=3 Ψ(2,1)=3 Ψ ( 2 , 2 ) = 4 \Psi(2,2)=4 Ψ(2,2)=4,向量 x = ( x 1 , x 2 , x 3 , x 4 ) \mathbf{x} = (x_{1}, x_{2}, x_{3}, x_{4}) x=(x1,x2,x3,x4)
二、边缘分布的计算

边缘分布(Marginal Distribution) 是通过对某些属性求和得到的简化分布。其目的是观察部分属性的联合频次。

  1. 属性子集 B ⊆ K B \subseteq K BK

    • 选择需要保留的属性集合(如 B = { A 1 , A 3 } B = \{A_1, A_3\} B={A1,A3})。
    • 投影操作:将多维索引 ( i 1 , i 2 , … , i k ) (i_1, i_2, \dots, i_k) (i1,i2,,ik) 投影到 B B B 上,得到 ( i j 1 , i j 2 , … , i j b ) (i_{j_1}, i_{j_2}, \dots, i_{j_b}) (ij1,ij2,,ijb),其中 j 1 , j 2 , … , j b ∈ B j_1, j_2, \dots, j_b \in B j1,j2,,jbB
  2. 边缘分布公式
    对于固定的 b ∈ I B b \in \mathcal{I}_B bIB(即 B B B 中属性的某个取值组合),其边缘计数为:
    m ( b ) = ∑ j ∈ K ∖ B x ( b , j ) , \mathfrak{m}(b) = \sum_{j \in K \setminus B} x(b, j), m(b)=jKBx(b,j),
    其中 x ( b , j ) x(b, j) x(b,j) 表示在固定 B B B 的取值为 b b b 时,对所有其他属性( K ∖ B K \setminus B KB)的可能取值求和。

    示例

    • k = 3 k=3 k=3 B = { A 1 , A 3 } B = \{A_1, A_3\} B={A1,A3} b = ( 男 , 城市 ) b = (男, 城市) b=(,城市),则:
      m ( b ) = x ( 男 , 0 − 10 , 城市 ) + x ( 男 , 11 − 20 , 城市 ) . \mathfrak{m}(b) = x(男, 0-10, 城市) + x(男, 11-20, 城市). m(b)=x(,010,城市)+x(,1120,城市).
三、边缘分布的线性约束

边缘分布 m ( b ) \mathfrak{m}(b) m(b) 可以表示为列联表向量 x \mathbf{x} x 上的线性约束。

  1. 系数向量 a \mathbf{a} a 的构造

    • 对于每个一维索引 i ∈ { 1 , 2 , … , n } i \in \{1, 2, \dots, n\} i{1,2,,n},检查其对应的多维索引 Ψ − 1 ( i ) \Psi^{-1}(i) Ψ1(i) B B B 上的投影是否为 b b b
    • 如果是,则 a i = 1 a_i = 1 ai=1,否则 a i = 0 a_i = 0 ai=0
    • 数学定义
      a i = { 1 , if  proj B ( Ψ − 1 ( i ) ) = b , 0 , otherwise . a_i = \begin{cases} 1, & \text{if } \text{proj}_B(\Psi^{-1}(i)) = b, \\ 0, & \text{otherwise}. \end{cases} ai={1,0,if projB(Ψ1(i))=b,otherwise.
  2. 约束方程
    边缘计数 m ( b ) \mathfrak{m}(b) m(b) 对应的线性约束为:
    ∑ i = 1 n a i x i = m ( b ) . \sum_{i=1}^n a_i x_i = \mathfrak{m}(b). i=1naixi=m(b).
    本质:将满足 B B B 取值为 b b b 的所有单元格的频次相加。

四、具体案例解释

1. 场景设定

  • 属性: A 1 A_1 A1(性别, I 1 = 2 I_1=2 I1=2), A 2 A_2 A2(年龄段, I 2 = 2 I_2=2 I2=2)。
  • 列联表为 2x2 二维数组,向量化为 x = ( x 1 , x 2 , x 3 , x 4 ) \mathbf{x} = (x_{1}, x_{2}, x_{3}, x_{4}) x=(x1,x2,x3,x4),其中:
    • x 1 = x ( 男 , 0 − 10 ) x_1 = x(男, 0-10) x1=x(,010) x 2 = x ( 男 , 11 − 20 ) x_2 = x(男, 11-20) x2=x(,1120)
    • x 3 = x ( 女 , 0 − 10 ) x_3 = x(女, 0-10) x3=x(,010) x 4 = x ( 女 , 11 − 20 ) x_4 = x(女, 11-20) x4=x(,1120)

2. 计算边缘分布

  • 选择子集 B = { A 1 } B = \{A_1\} B={A1}(仅保留性别):
    • I B = { 男 , 女 } \mathcal{I}_B = \{男, 女\} IB={,}
    • 对每个 b ∈ I B b \in \mathcal{I}_B bIB,计算边缘分布:
      • b = 男 b = 男 b= m ( 男 ) = x 1 + x 2 \mathfrak{m}(男) = x_1 + x_2 m()=x1+x2
      • b = 女 b = 女 b= m ( 女 ) = x 3 + x 4 \mathfrak{m}(女) = x_3 + x_4 m()=x3+x4

3. 线性约束表示

  • 对于 b = 男 b = 男 b=,系数向量 a = ( 1 , 1 , 0 , 0 ) \mathbf{a} = (1, 1, 0, 0) a=(1,1,0,0),约束方程为:
    1 ⋅ x 1 + 1 ⋅ x 2 + 0 ⋅ x 3 + 0 ⋅ x 4 = m ( 男 ) . 1 \cdot x_1 + 1 \cdot x_2 + 0 \cdot x_3 + 0 \cdot x_4 = \mathfrak{m}(男). 1x1+1x2+0x3+0x4=m().
五、后处理的目标

给定含噪声的列联表 x ~ \widetilde{\mathbf{x}} x 和真实的边缘分布 m ( B ) \mathfrak{m}(B) m(B),后处理的目标是找到一个修正后的表 x ‾ \overline{\mathbf{x}} x,使得:

  1. 满足所有边缘约束:对每个 b ∈ I B b \in \mathcal{I}_B bIB ∑ a i x ‾ i = m ( b ) \sum a_i \overline{x}_i = \mathfrak{m}(b) aixi=m(b)
  2. 非负性 x ‾ i ≥ 0 \overline{x}_i \geq 0 xi0
  3. 最小化误差 x ‾ \overline{\mathbf{x}} x x ~ \widetilde{\mathbf{x}} x 尽可能接近(如最小化 ∥ x ‾ − x ~ ∥ 2 2 \|\overline{\mathbf{x}} - \widetilde{\mathbf{x}}\|_2^2 xx 22)。
六、总结
  • 列联表:多维分类数据的频次表格,可向量化为 x ∈ N n \mathbf{x} \in \mathbb{N}^n xNn
  • 边缘分布:通过投影和求和操作,提取部分属性的联合频次。
  • 线性约束:每个边缘分布对应一个系数为 0/1 的线性方程,用于保证数据一致性。
  • 应用:在差分隐私中,通过后处理修复噪声数据,使其满足原始数据的统计结构。
关键字:毕业论文网页设计需求_企业邮箱在哪里申请_做营销型网站的公司_百度app下载最新版本

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: