当前位置: 首页> 健康> 美食 > 广东网站建设方案_网页版微信消息撤回_软文有哪几种类型_aso排名优化

广东网站建设方案_网页版微信消息撤回_软文有哪几种类型_aso排名优化

时间:2025/8/27 1:06:05来源:https://blog.csdn.net/qq_45156060/article/details/143615394 浏览次数:0次
广东网站建设方案_网页版微信消息撤回_软文有哪几种类型_aso排名优化

        本文主要是以招投标文件信息作为基础,通过GLM-4的高效信息处理能力,实现招投标文件中关键数据的自动化提取。后情提示:这里文章中推荐使用的大模型是glm-air,不过作者在实际业务中测试glm4-flash,在经过多轮prompt优化验证准确率也是可以到达94%左右,性价比超高

跟着大厂学AI | 智谱AI文本数据提取实践(大模型实战篇)-CSDN博客文章浏览阅读71次。智谱glm4大模型文本数据抽取教程,实体抽取,实体识别,llm数据处理实践https://blog.csdn.net/qq_45156060/article/details/143615815?spm=1001.2014.3001.5501

方案概述

    招投标文件包含大量复杂的信息,包括项目名称、投标方信息、资格要求、技术规范、价格清单、合同条款等。传统人工处理或基于简单规则的自动化工具可能难以快速、准确地从这些文件中提取关键数据。大语言模型(如GLM-4)能够对海量文本进行理解和解析,具备强大的信息提取能力。

本文档详细描述如何从工程化的角度构建一个借助大语言模型进行关键数据提取的方案,包括整体架构设计、数据预处理、Prompt工程、批量处理API、后处理与校验等各个环节。

方案架构

图片

方案详情

输入模块设计

    用于处理各种格式的文档输入,包括PDF、Word、Excel、网页等,转换成可解析的结构化文本。

  • 多种文件格式支持:

    • 需要支持从多种格式(PDF、Word、Excel、TXT等)中提取文本。对于图片,可以借助OCR工具进行文本提取,(开放平台工具:文档内容提取)。

    • 网页可以使用网页爬虫工具(如Scrapy、BeautifulSoup、Selenium)抓取网页中的文本和表格数据。通过解析HTML的DOM结构,提取目标数据。(平台暂无工具)

  • 参考代码

from pathlib import Path
from zhipuai import ZhipuAIclient = ZhipuAI(api_key="您的API Key",base_url="https://open.bigmodel.cn/api/paas/v4"
)# 用于上传文件
# 格式限制:.PDF .DOCX .DOC .XLS .XLSX .PPT .PPTX .PNG .JPG .JPEG .CSV .PY .TXT .MD .BMP .GIF
# 文件大小不超过50M,图片大小不超过5M
file_object = client.files.create(file=Path("本地文件地址"), purpose="file-extract")# 文件内容抽取
file_content = client.files.content(file_id=file_object.id).content.decode()
print(file_content)

预处理模块设计

    预处理模块的设计是整个数据处理流程的基础,直接影响到大语言模型后续处理的效果。通过文本清洗、文本规范化、分段分块、表格解析、上下文维护等功能,预处理模块能够将复杂的、多格式的数据源处理成统一、规范的输入数据,确保数据在转换过程中不失真,并为后续模型处理提供高质量的输入。数据的语义、结构以及相关性得以保留,特别是在处理复杂的文档结构、特殊符号、嵌套表格等数据。

  • 去除噪音信息:常见的噪音信息包括页眉、页脚、版权声明等,这些信息对关键数据提取无关紧要,可以在预处理时过滤掉。

  • 规范化文本:处理文本中的特殊符号、空白字符、异常换行等问题,确保输入给模型的文本格式整洁。

    • 日期格式统一:文档中可能会有多种日期表示方式,例如“2024年10月10日”、“10/10/2024”、“10-Oct-2024”。需要通过正则表达式或日期识别工具将所有的日期格式统一转换为标准的ISO格式(如“YYYY-MM-DD”)。

    • 方法:使用正则表达式匹配不同格式的日期,并将其标准化。例如:

  • 参考代码


import re
from datetime import datetimedef normalize_date(text):patterns = [r'\d{1,2}\/\d{1,2}\/\d{4}',       # "MM/DD/YYYY"r'\d{1,2}-\w{3}-\d{4}',           # "DD-MMM-YYYY"r'\d{4}年\d{1,2}月\d{1,2}日',     # "YYYY年MM月DD日"]for pattern in patterns:text = re.sub(pattern, lambda x: datetime.strptime(x.group(), '%Y年%m月%d日').strftime('%Y-%m-%d'), text)return text
  • 货币与金额格式化:货币和金额在招投标文件中非常常见,可能以不同的符号、单位或表示方法出现。例如:“$1,000”、“1000美元”、“壹仟元整”。需要统一这些金额表示,确保货币单位和金额数字的格式标准化。

  • 方法:通过正则表达式匹配货币符号或中文大写金额,并转换为标准形式。例如将“壹仟元”转换为“1000 CNY”,或将“$1,000”转换为“1000 USD”。

  • 特殊符号处理:招投标文件中可能有特殊符号(如版权符号、数学符号、货币符号等),这些符号如果不加处理,可能在后续的 模型输入中失去原意或导致模型误解。因此,预处理模块需要对这些符号进行规范化处理。

  • 表格数据处理:表格提取工具:对于PDF或Word文档中的表格,可以使用表格解析工具(如pdfplumber或python-docx)提取表格的结构和数据。提取后的表格数据可以转化为CSV或JSON格式,方便后续处理。

  • 合并单元格处理:如果表格包含合并单元格,预处理模块需要将合并单元格的数据平铺展开,确保每个单元格都包含完整的信息。例如,将合并的表头信息扩展到所有相应列的单元格中。

  • 方法:表格数据的结构化转换时,可以转换为Markdown和 HTML 格式能很好地保留表格的结构,并方便LLM理解。在实践中,建议使用HTML表示复杂表格,例如:


| 项目     | 金额       | 说明     |
|----------|------------|----------|
| 项目A    | 1000       | 材料费   |
| 项目B    | 2000       |          |
|          |            | 人工费   |
<table><tr><th>项目</th><th>金额</th><th>说明</th></tr><tr><td>项目A</td><td colspan="2">1000(包含材料费和人工费)</td></tr><tr><td>项目B</td><td>500</td><td>材料费</td></tr><tr><td>项目B</td><td>1500</td><td>人工费</td></tr>
</table>

👇点击关注AI疯人院获取

更多技术信息~

                

图片

关键字:广东网站建设方案_网页版微信消息撤回_软文有哪几种类型_aso排名优化

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: