由于工作很忙,一直没有时间静下心来好好整理文档。文档的功夫不仅反映了一个人对相关知识的掌握,也可以发现不足之处,从而提高自己,增加自己的内功。希望从这篇开始,日积月累,成为一个优秀的程序员。
本文的stmmac驱动以linux内核5.15为参考。
stmmac驱动用于支持synopsys ip的系列网卡芯片,包括xgmac,以及gmac。xgmac对应的是10G网卡芯片,gmac对应的则是千兆网卡芯片。我将从三个方面进行网卡驱动的分析,分别是网卡驱动架构,link方式,以及收发包流程。
1.网卡驱动架构
xgmac 网卡主要有两种应用场景,分别是Local xgmac和PCIe xgmac 应用场景。Local xgmac方式下,cpu通过内部高速总线访问xgmac,而PCIe xgmac则通过PCIe总线与host主机相连。stmmac目录中,dwmac-intel-plat对应着Local xgmac方式,而dwmac-intel.c,stmmac_pci.c则对应这PCIe xgmac的方式。stmmac_main.c包括对xgamc硬件进行操作,调用dwxgmac_core.c,dwxgamc_desc.c,dwxgmac_dma.c,以及提供各种网卡接口feature,包括mmc软硬件计数,ethtool,ptp,以及xdp等。
本文主要以PCIe方式即以stmmac_pci.c进行说明。
static struct pci_driver stmmac_pci_driver = {.name = STMMAC_RESOURCE_NAME,.id_table = stmmac_id_table,.probe = stmmac_pci_probe,.remove = stmmac_pci_remove,.driver = {.pm = &stmmac_pm_ops,},
};
利用stmmac_id_table的device_id以及vendor_id进行driver和devcie的匹配,匹配成功后调用stmmac_pci_probe函数。stmmac_pci_probe函数流程为
1.分配plat、plat->mdio_bus_data、plat->dma_cfg结构体,plat结构体提供硬件以及ndev的一些基本参数,mdio_bus_data主要与mdio相关,dma_cfg配置xgmac dma 通路,比如rxpbl,txpbl等等。
plat = devm_kzalloc(&pdev->dev, sizeof(*plat), GFP_KERNEL);
plat->mdio_bus_data = devm_kzalloc(&pdev->dev,sizeof(*plat->mdio_bus_data), GFP_KERNEL);
plat->dma_cfg = devm_kzalloc(&pdev->dev, sizeof(*plat->dma_cfg),GFP_KERNEL);
plat->safety_feat_cfg = devm_kzalloc(&pdev->dev,sizeof(*plat->safety_feat_cfg),GFP_KERNEL);
2.由于PCIe xgmac下,网卡是一个PCIe设备,既然是PCIe设备,则必须对网卡的bar空间进行初始化。包括使能pci设备,获取网卡设备的bar空间机制,并对bar空间进行映射。
pcim_enable_device(pdev);
for(i=0; i<6; i++)ret = pcim_iomap_regions(pdev, BIT(i), pci_name(pdev));
pci_set_master(pdev);
3.赋值一些必要信息,中断初始化(msi或者msix),处理完毕后进入stmmac_dvr_probe函数。
4.进入stmmac_dvr_probe函数后,就是申请网卡设备net_device和私有数据stmmac_priv,网卡设备和私有数据紧紧挨在一起:网卡设备+私有数据结构,通过netdev_pri获取私有数据结构。
5.dwxgmac2_core.c,dwxgmac2_dma.c,dwxgmac2_desc.c实现了xgmac 的操作接口,那么如何将xgmac的操作接口与netdev或者priv强绑定呢,stmmac的做法是根据网卡芯片的型号(xgmac以及gmac芯片的型号都不一样),去绑定不同的操作接口的回调函数。hwif.c中的stmmac_hw数组来进行注册管理。
// dwxgmac210_ops mac相关操作接口注册如下const struct stmmac_ops dwxgmac210_ops = {.core_init = dwxgmac2_core_init,.set_mac = dwxgmac2_set_mac,.rx_ipc = dwxgmac2_rx_ipc,.rx_queue_enable = dwxgmac2_rx_queue_enable,.rx_queue_prio = dwxgmac2_rx_queue_prio,.tx_queue_prio = dwxgmac2_tx_queue_prio,......
}
// dwxgmac210_ops dma 相关操作接口注册如下
const struct stmmac_dma_ops dwxgmac210_dma_ops = {.start_tx = dwxgmac2_dma_start_tx,.stop_tx = dwxgmac2_dma_stop_tx,.start_rx = dwxgmac2_dma_start_rx,.stop_rx = dwxgmac2_dma_stop_rx,......
}
const struct stmmac_desc_ops ndesc_ops = {.tx_status = ndesc_get_tx_status,.rx_status = ndesc_get_rx_status,.get_tx_len = ndesc_get_tx_len,.init_rx_desc = ndesc_init_rx_desc,.init_tx_desc = ndesc_init_tx_desc,.get_tx_owner = ndesc_get_tx_owner,......
}static const struct stmmac_hwif_entry {bool gmac;bool gmac4;bool xgmac;......const void *desc;const void *dma;const void *mac;const void *hwtimestamp;const void *mode;const void *tc;const void *mmc;int (*setup)(struct stmmac_priv *priv);int (*quirks)(struct stmmac_priv *priv);
} stmmac_hw[] = {{.gmac = false,.gmac4 = false,.xgmac = true,.......desc = &dwxgmac210_desc_ops,.dma = &dwxgmac210_dma_ops,.mac = &dwxgmac210_ops,.hwtimestamp = &stmmac_ptp,.mode = NULL,.tc = &dwmac510_tc_ops,.mmc = &dwxgmac_mmc_ops,.setup = dwxgmac2_setup,.quirks = NULL,},..... // .gmac = true,}
6.stmmac_dvr_probe函数主要作用是申请netdev结构体和priv结构体,并对结构体进行赋值,包括将各个接口的回调函数赋给priv结构体。而stmmac_open 函数则对应着上层的命令(ifconfig eth up),通过调用stmmac_open函数,网卡真正能工作起来,即可以开始收发包。
stmmac_open
|--- stmmac_hw_setup(dev, true)|---stmmac_init_dma_engine(priv) /* DMA initialization and SW reset */|---stmmac_core_init(priv, priv->hw, dev) /* Initialize the MAC Core */|---stmmac_mtl_configuration(priv) /* Initialize MTL*/|---stmmac_mac_set(priv, priv->ioaddr, true) /* Enable the MAC Rx/Tx */|---stmmac_set_rings_length(priv) /* set TX and RX rings length */|---stmmac_start_all_dma(priv) /* Start the ball rolling... */|---stmmac_start_rx_dma(priv, chan)|---stmmac_start_rx(priv, priv->ioaddr, chan)|---stmmac_start_tx_dma(priv, chan)|---stmmac_start_tx(priv, priv->ioaddr, chan)|---stmmac_do_void_callback(__priv, dma, start_tx, __args)//#define stmmac_do_void_callback(__priv, __module, __cname, __arg0, __args...)// (__priv)->hw->__module->__cname((__arg0), ##__args);|--- __priv->hw->dam->start_tx((__arg0), ##__args);|---dwxgmac2_dma_start_tx
2.link架构
stmmac支持两种形式的phy,一种是外置phy,phy单独存在,通过mdio总线与xgmac相连,另一种是内置phy,即pcs。xpcs作为xgmac的一部分,访问时不再需要通过mdio访问,而是将xpcs相关寄存器映射到一段bar空间上,直接通过读写寄存器的方式访问。在5.15内核,stmmac驱动的link架构依赖于phylink模块。phylink层是一个软件层面的中间层,它没有对应的硬件,主要功能是连接phy_device和mac层以及phy层的状态。
对于外置phy的方式,phylink工作方式如下:
当phy_device的状态改变时,mac层能及时作出改变。phy_device层和phylink层均采用了定时器轮询的方式,phy_device层通过phy_state_machine()函数获取phy的状态,当状态改变时,将信息通过phylink_phy_change()函数传递给phylink.phylink层也采用了轮询的方式,利用phylink_resolve()函数将信息传给mac层。
对于内置phy即xpcs的方式,phylink的工作方式如下:
phylink层维护了1s钟轮询一次的定时器,通过该定时器,会定期去查看xpcs的link状态,如果xpcs是linkup的,则会配置xgmac的mac层,使其linkup。
phylink_resolve函数的核心逻辑如下
static void phylink_resolve(struct work_struct *w)
{...bool mac_config = false;bool retrigger = false;bool cur_link_state;if (pl->netdev) //得到当前的link状态cur_link_state = netif_carrier_ok(ndev);elsecur_link_state = pl->old_link_state;if (pl->phylink_disable_state) { //判断当前状态phylink_disable_state和mac_link_dropped状态pl->mac_link_dropped = false;link_state.link = false;} else if (pl->mac_link_dropped) {link_state.link = false;retrigger = true;} else { //其他情况switch (pl->cur_link_an_mode) {...case MLO_AN_INBAND:/*获取当前的link_state*/phylink_mac_pcs_get_state(pl, &link_state);if (!link_state.link) {if (cur_link_state)retrigger = true;elsephylink_mac_pcs_get_state(pl,&link_state);}phylink_apply_manual_flow(pl, &link_state);break;}}.../*这里我的理解是如果link_state的link不等于当前状态的link,那么如果link=0,实际是link的,所以需要link up;如果link=1,那么实际是没link,所以需要link down.如果两者都为0和1就不需要动作了*/if (link_state.link != cur_link_state) {pl->old_link_state = link_state.link;if (!link_state.link)phylink_link_down(pl);elsephylink_link_up(pl, link_state);}if (!link_state.link && retrigger) { //如果link为0,并且需要马上retrigger,那么就重新调度resolve函数pl->mac_link_dropped = false;queue_work(system_power_efficient_wq, &pl->resolve);}mutex_unlock(&pl->state_mutex);
}
对于外置phy,其与xgmac通信的总线为mdio。这里主要说明以下mdio总线的注册流程。要用到mdio读写寄存器的方式对phy进行配置,一般读写方式有两种,分别是c45和c22.
对于xpcs的方式,主要需要获取xpcs的型号从而执行不同的硬件操作函数。
pcs是物理编码子层,位于协调子层(通过GMII)和物理介入接入层(PMA)子层之间。pcs子层完成将经过完善定义的以太网MAC功能映射到现存的编码和物理层信号系统的功能上去、pcs子层和上层MAC的接口由MII提供,与下层PMA接口使用PMA服务接口。而XPCS顾名思义,则是支持更高速率的pcs层。
不同厂家的xpcs不大相同,以stmmac源码为参考,pcs_xpcs的初始化位置位于stmmac_main.c的stmmac_dvr_probe函数下的stmmac_xpcs_setup函数中,该函数流程为利用从0到32的phy地址进行循环遍历的方式进行mdio设备以及xpcs的创建,如果phy地址不正确,那么xpcs则无法正确创建。若xpcs成功创建,将xpcs_create函数返回的xpcs结构体给priv->hw->xpcs。
for (addr = 0; addr < PHY_MAX_ADDR; addr++) {mdiodev = mdio_device_create(bus, addr);if (IS_ERR(mdiodev))continue;xpcs = xpcs_create(mdiodev, mode);if (IS_ERR_OR_NULL(xpcs)) {mdio_device_free(mdiodev);continue;}priv->hw->xpcs = xpcs;break;}
与前面xgmac的硬件操作函数一致,xpcs也需要根据不同的型号来执行不同操作函数。
//关键结构体数组
xpc_id_list[] = {{.id = SYNOPSYS_XPCS_ID,.mask = SYNOPSYS_XPCS_MASK,.compat = synopsys_xpcs_compat,}, {.id = NXP_SJA1105_XPCS_ID,.mask = SYNOPSYS_XPCS_MASK,.compat = nxp_sja1105_xpcs_compat,}, {.id = NXP_SJA1110_XPCS_ID,.mask = SYNOPSYS_XPCS_MASK,.compat = nxp_sja1110_xpcs_compat,},
};
//赋值后的xpcs结构体
struct dw_xpcs {struct mdio_device *mdiodev;const struct xpcs_id *id;struct phylink_pcs pcs;
}xpcs;
xpcs.mdiodev=mdiodev;
xpcs->id=&xpcs_id_list[i]; //根据id匹配得到
xpcs->pcs.ops =&xpcs_phylink_ops;
xpcs->pcs.poll = true;
3.收发包流程
Stmmac 以太网收发包驱动,核心是两个函数,一个是 stmmac_xmit, 用于将协议栈发送的数据包映射出DMA地址给硬读取; 另一个是 stmmac_rx,用于将硬件写入内存的数据,组织成 skb 并传递给协议层。
TX方向的流程如上图所示:
-
网络设备层_qdisc_run 函数调用 驱动注册的 stmmac_xmit 函数进行发送数据包
-
Stmmac_xmit 对skb->data进行dma_map_single流式映射,获取dma物理地址,供网卡芯片 DMA 获取数据报文
-
stammac_xmit 将 skb映射后的dma 物理地址 更新到 TX Ring 的描述符中,然后更新描述符队列的 cur_tx
-
stammac_xmit 将当前生产的数据包位置 写入 XGMAC 的doorbell寄存器,同时flush 描述符,并开启软件定时器,进行tx方向的中断聚合
-
硬件DMA 读取数据报文,传递给 MAC 层之后,根据描述符的IC值判断是否发送硬中断给CPU
-
CPU 执行硬中断处理函数 stmmac_msi_intr_tx
-
硬中断处理函数 调用 napi_schedule(tx_napi)
-
Linux 内核对应当前CPU 核心的软中断线程 Ksoftirqd/N 通过net_rx_action, 调用驱动注册软中断处理函数stmmac_napi_poll_tx
-
Poll tx 调用 stmmac_tx_clean 清理 tx 描述符,tx skb buffer,tx dma mpping 等
RX方向的流程如上图所示:
-
网卡收到数据后,产生rx中断,并发送给CPU;
-
CPU执行硬中断处理函数stmmac_msi_intr_rx
-
硬中断处理函数调用napi_schedule(rx_napi)
-
执行netif_napi_add中绑定的stmmac_napi_poll_rx函数
-
进入驱动层的stmmac_rx;
-
调用dma_sync_single_for_cpu,确保在读取rx buffer数据之前,dma操作已经完成,申请skb,将rx buffer的数据copy到skb中,并更新描述符 cur_rx。
-
将skb通过napi_gro_receive 上送到协议栈。