当前位置: 首页> 娱乐> 明星 > 遵义网_广州公司名称大全_足球进球排行榜_会计培训机构排名前十

遵义网_广州公司名称大全_足球进球排行榜_会计培训机构排名前十

时间:2025/7/9 7:50:54来源:https://blog.csdn.net/m0_55045698/article/details/142594756 浏览次数:0次
遵义网_广州公司名称大全_足球进球排行榜_会计培训机构排名前十

官网:https://scrapegraph-ai.readthedocs.io/en/latest/

from flask import Flask, request, jsonify
from scrapegraphai.graphs import SmartScraperGraphapp = Flask(__name__)openai_key = "sk-xxxxxxxxxxxxxxxxxxxx"graph_config = {"llm": {"api_key": openai_key,"model": "openai/gpt-4o",},
}@app.route('/scrape', methods=['POST'])
def scrape():data = request.jsonsource_url = data.get('source')if not source_url:return jsonify({"error": "No source URL provided"}), 400smart_scraper_graph = SmartScraperGraph(prompt="""请执行以下步骤:1. 仔细分析网页结构,识别并提取主要正文内容。2. 排除所有非正文元素,包括但不限于:导航菜单、侧边栏、页脚、广告、评论区、相关文章推荐等。3. 如果提取的正文内容超过14000个标记,请进行适当的总结,保留核心信息和主要观点。4. 直接返回处理后的正文内容或总结,不要添加任何额外的说明、标题或格式化。请确保返回的内容仅包含网页的实质性正文部分。""",source=source_url,config=graph_config)try:result = smart_scraper_graph.run()return jsonify({"result": result})except Exception as e:return jsonify({"error": str(e)}), 500if __name__ == '__main__':app.run(host='0.0.0.0', port=5000, debug=True)

代码参考的官网示例,比较好用,不过3.5经常会因为文章超长而报错,即使我提示词中写明了超过14000则总结也经常出错,因此用4o是个不错的选择,牺牲小部分速度,换来高准度

关键字:遵义网_广州公司名称大全_足球进球排行榜_会计培训机构排名前十

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

责任编辑: