第一部分 关于python
1.什么是python?
python是一门面向对象(万物皆为对象)的解释型高级编程语言。
2.什么是解释型语言或者说解释型语言有什么特点?
使用专门的解释器对源码程序逐行(从上而下)解释成特定平台机器,并立即执行,是代码在执行时才被解释器一行行动态翻译和执行,而不是在执行之前就完成了翻译。(解释型语言在执行的过程当中边执行便翻译)。
3.什么是编译型语言或者编译型语言有什么特点?
使用专门的编译器,针对特定平台,将高级语言源代码一次性的编译成可执行的机器码,并包装成该平台所能识别的可执行程序的格式。
4.编译型语言与解释型语言有什么区别?
编译型语言:1.相比较解释型语言而言,代码比较多,比较繁杂。
2.编译型语言运行速度比较快。
解释型语言:1.相较于编译型语言而言,代码比较简洁。
2.解释型语言的运行速度比较慢。
第二部分 关于网络爬虫
1.什么是网络爬虫?
网络爬虫(又称为网络蜘蛛或者网络机器人),是一种按照一定的规则,自动地抓取互联网信息的程序或者说脚本。
2.网络爬虫的分类是什么?
网络爬虫按照系统结构和实现技术,大致可以分为以下几类:通用型爬虫,聚焦网络爬虫,增量式网络爬虫,深层网络网络爬虫。
通用型爬虫:爬行对象主要为URL,也可以扩充到整个互联网,主要为门户站点搜索引擎和大型web运营商采集数据。
聚焦型网络爬虫:又称为主题网络爬虫,是指选择性地爬取那些与预设主题相关页面的网络爬虫。
聚焦网络爬虫和通用型网络爬虫有什么区别?
聚焦型网络爬虫在数据采集的时候比较有目标性和针对性,只爬取与与设置主题相关的页面,极大地节省了硬件和网络资源,保存的页面也由于数量少而更新快,能更好地服务特定人群或者特定的领域。
增量式网络爬虫:是指对一下载的网页采取增量式更新和只爬取新产生的或者发生变化的页面的网络爬虫,它能够在一定程度上保证爬取的页面尽可能是新页面。
深层网络爬虫:web页面分为表层页面和深层页面,深层网络爬虫是为了爬取深层页面上的数据。
3.通用型网络爬虫和聚焦型网络爬虫细分特点:
通用型网络爬虫:爬取的网站数量是没有上限的。
比较常见的通用型网络爬虫:搜素引擎。
聚焦型网络爬虫:爬取的网站数量是有上限的,并且有明确的目标。
比较常见的聚焦型网络爬虫:投票/抢票/。
第三部分 关于网络通信
1.网络通信的步骤:
输入我们要访问的网址,按下回车键,访问我们目标网址。
电脑浏览器打开网址(URL):www.baidu.com
DNS服务器:ip地址标注的服务器,将域名转换为地址。
DNS会返回“www.baidu.com”的ip地址给浏览器
服务器返回给我们响应的数据。(数据就包含图片、文字等)
网络通信的原理:一个请求只能对应一个数据包。
2.请求的组成部分:
请求URL--request URL(www.baidu.com)
请求方法--request method
请求头 --request hearder(伪装作用:伪装成正常人类,访问网址)
请求体--request body(位于请求头之后,向目标服务器发送数据)
3.爬虫爬取数据的过程:
(伪装成人类)发送请求--获取到响应的数据--面对数据进行分析,剔除不需要的数据--将最终的结果呈现给用户。
第四部分 python实战
1.python官网:
www.python.org
2.环境变量的配置。
右键点击此电脑--属性--高级系统设置--环境变量--系统变量--path--编辑--新建--将python的地址复制进去--确定
python3.3之后的版本,安装包支持自动配置环境变量。
勾选add python 3.7 to path
set was sucess
3.检查python是否安装成功的方法
方法一:左下角windows菜单--找到python软件
IDLE:python集成开发环境
方法二:通过命令提示符:
输入where python--C:\Users\Administrator\AppData\Local\Programs\Python\Python37\python.exe
D:\anaconda3\python.exe这就说明python安装成功了
代码:python -V:查看当前电脑上的python版本
4.python代码的编辑(print输出)
1.方法一:在cmd命令提示符里面去写
输入python--
2.方法二:需要打开后缀名扩展
左键此电脑--左上角查看--勾选文件扩展名选项
用txt文档写完之后,改成py结尾命名的文件
cd c:/--c:\>看到这个说明进入成功
py XXXX.py
c:\>py py01.py
helloworld
输出结果