信息
是世界中与物质
/能量
并列的三个基本组成要素之一.信息太过宽泛,包括了可能用来定义的信息本身以至于无法定义。
1. Define Information
结合香农的信息论,对个人而言,信息有两个关键特征:
- 带来感性的
美
- 赋予消除未来
不确定性
的可能
第二点在偏理性的现实世界里大行其道.智能社会,信息在芯片/半导体中被计算处理,被操作系统/软件决策规划与调度,同时互相传输与接受信息。
世界正在整体向信息世界迁移,在信息的世界里,人类可以尽可能的消除遗憾.在这个世界也有王国,像各大平台方,包括国家确立的主权信息,也有基础设施,像基站与通信芯片,
2. Transfer entity to data
因为系统熵增
的绝对性,人类必须不断摄取信息,并运用知识
来排除噪音
,通过践行
来达到熵减
.信息被人摄取处理诞生了学习观
,而因为信息的海量,信息也必须借助计算机来摄取处理从而诞生了CS
.为了让现实世界中的具体事物产生的信息可以利用计算机处理,人们常常把现实世界抽象为信息世界,然后将信息世界转换为机器世界.也即先把现实世界中的客观对象抽象为某一种信息结构,完成从现实世界到概念模型的转换,这其中涉及到信息世界的一些概念:
------ 实体entity
:客观存在并相互区别的事物
---------- 属性attribute
:实体所具有的某一特性
----- 码key
:唯一标识实体的属性
---- 实体型entity type
:具有相同属性的实体必然具有共同的特征和性质.用实体名及其属性名来抽象和刻画同类实体,称为实体型
---- 实体集entity set
:同一类型实体的集合
— 联系relationship
:通常是指不同实体集之间的联系,一对多乃至多对多
之后再从概念模型到逻辑模型进行转换,最后由设计好的计算机系统完成从逻辑模型到物理模型的转换,而到达机器的世界.物理模型正是对数据最底层的抽象,它描述数据在系统内部的表示方式和存取方法,或在磁盘或磁带上的存储方式和存取方法.
从另一更具体的方面来描述,则是信息在Controler
的控制下,通过Input Device
以数据
的形式输入,在Internal Memory
中存储,在Arithmetic-logic Unit
中被执行逻辑运算,这中如果有需要将会通过Internet
调用其他计算机的信息或资源,之后进入内存,内存资源分配不足时进入外部存储,处理后的信息将被Output device
输出或者通过Internet
被调用.这里,在互联网中提供调用者为Server
,调用者为Client
.
3. The available communication between Client and Server
围绕着C/S之间的有效通信,综合成本和效率的考虑,将有效通信逻辑划分为七步,即Open Systems Interconnection Reference Model
,实践中又将OSI/RM演进为TCP/IP五步体系.It is worth mentioning that Tranport Control Protocol
与Internet Protocol
是TCP/IP协议簇
中上百个协议中的其中最重要的两个,因此以这两个协议命名协议簇,同时以它们命名了为使用TCP/IP协议的广域计算机网络而开发的协议体系结构,即TCP/IP体系结构
.
为了解释一端到另一端有效通信,不妨以在浏览器中输入url后主机返回页面的过程为例:
至少目的地,和自身序列化.
3.1. Physical level
这样两者之间就得有实际的通信线路,如双绞线,光缆以及无线电波等,也即Physical Level
,比特流0与1在其中以高低电平的脉冲形式传输并被识别.
3.2. Data Link Level
但是是否发现了什么问题?这样0,1组合的传送毫无规则的话,计算机是解读不了的.因此,我们需要制定一套规则来进行0,1的传送,例如多少个电信号为一组啊,一组的开始与结束在哪啊,每一组信号应该如何标识啊,这才能让计算机读懂,这就诞生了以太网协议
.以太网协议规定,一组电信号构成一个数据包-帧
,每一个帧由标头Head
和数据Data
两部分组成.帧的大小有一个范围,假如需要传送的数据很大的话,就分成多个帧来进行传送.因为需要这个帧是谁发送,要发送给谁,就把这些说明数据放在了Head
里.Head部分的长度固定是18个字节,为什么呢?因为假如不是固定的,每个帧都是单独发的,就不知道标头是几个字节了.因为计算机要区分谁是谁,所以就把进入网络的每一个计算机都有的网卡接口标识唯一的地址,由48byte组成,够大才能做到全世界的机器都是唯一,称为MAC
地址.
那么A是怎么知道B的MAC地址的呢?我们先考虑一下我们有什么条件,计算机A本身是知道要发送给B这个信息的,所以A其实是知道的什么?我们能想到也应该是一个具有标识能力的东西-它被称作域名
或IP地址
.那么为什么不直接是B的MAC地址呢?因为身处局域网
中接入Internet的计算机前提正是申请并获得IP地址,IP地址正是由IP协议定义的地址,用以区分不同的网络或者在同一个网络集合中的主机.而MAC地址是计算机网卡自带的,在自己没有动作的情况下不会被其他主机知道的.自然地,A之所以能知道B的MAC地址,也是B自己告诉的A.这便是ARP协议
发挥作用的时候:
A知道B的IP地址用广播
的方式发送包含着B的IP地址的数据包,同时包里面的信息表示自己是与B初次聊天,只是想获得B的MAC地址,并给出自己的MAC地址以便对方回复;当B接受到这样的确是发送给自己的数据包后它会回复一个数据包给A,用同样的方式就可以把自己的MAC地址告诉A了.
那么A怎么能按B的MAC地址给B帧呢?同样地,A可以先向所有计算机喊话,B听到了自然就会答应.所以实际过程是,同一个子网
中的计算机都会收到广播的数据包,然后所有计算机都会把数据包中的MAC地址拿来和自身的比对,如果相同则接受这个包,否则丢弃.
所以数据链路层正是负责节点与节点之间的网络分段中数据传输.
3.3. Network level
上面提到了”同一个网络集合”与”子网”这样的关键词,实际上我们所处的网络是由无数的子网构成的,广播的时候也只有同一个子网里的计算机能收到(要不然机机都发信息个对方,不炸了?)假如不是同一个子网,计算机就会把数据发给网关,让网关进行转发.那么我们是如何区分子网的呢?这里就用到了IP协议
,它主要分为两版,IPv4与IPv6版本.因为原本IPv4地址的耗尽,继而开发了IPv6地址.IPv4划分了32位的IP地址,并且分出了几位来表示网络部分,另一部分代表主机部分.按理说有网络部分就可以判断它们是否处于同一子网,可是为了充分利用IP地址资源,网络部分和主机部分所占用的二进制位数是不固定的,这就引申出了另一个关键词—子网掩码.子网掩码和IP地址一样也是32位二进制数,不过它的网络部分规定全部为1,主机部分规定全部为0.这样,我们只需要把IP地址与它的子网掩码做&
运算,然后把各自的结果进行比较就行了.如果比较的结果相同,则代表是同一个子网,否则不是.这里大家可能发现我们平常输入到地址栏的是类似于www.baidu.com
的被称作域名的东西.其实当我们输入这个域名时,会有一个叫做DNS服务器的家伙来帮我们解析这个域名,然后返回这个域名对应的IP给计算机.
Internet是一种分层网络互连群体的复杂结构:底层网络接入中间层网,国内其他网络接入国家级互连网络,国家级互连网络接入中国到美国的国际线路,而其他国家也是如此.这么复杂的网络空间,自然需要IP地址作为地址来标识分配空间资源.路由器作为网络中最重要的设备,正是为了实现Internet中各种异构网络的互连,并提供最佳路径选择/负载平衡以及拥塞控制等功能.实际上通信网络的构思和高速公路网的构思是一样的.
所以Network Level
负责实现各个原本分离的网络与网络间的互联互通,并进行选址和路由选择,如IP协议发挥的作用.它的功能就是让我们在茫茫人海中,能够找到另一台计算机在哪里,是否属于同一个子网中.
3.4. Transport Level
通过物理层/数据链路层以及网络层的互相帮助,我们已经把数据成功从计算机A传送到计算机B了,可是,计算机B里面有各种各样的应用程序,辛辛苦苦传送来的数据是给谁的呢?这个时候,端口(Port)这家伙就上场了,也就是说,我们在从计算机A传数据给计算表B的时候,还得指定一个端口,以供特定的应用程序来接受处理.这样靠着IP和端口,我们终于可以准确通信.对于有些传输协议,已经有设定了一些默认端口,所以当我们输入IP地址的时候并不会指定一个端口.例如http的传输默认端口是80,这些端口信息也包含在数据包中了.传输层最常见的两大协议是TCP协议与UDP协议,一个提供可靠传输,一个提供不可靠传输. 所以传输层为数据的端口到端口传输构建选择好的虚拟的传输通道,TCP协议就作此用;
3.5. Application Level
应用层是最接近我们用户的一层.虽然我们收到了传输层传来的数据,可是这些传过来的数据五花八门,有html
格式的,有MP4
格式的,有MP3
格式的,不说的话能看懂吗?所以我们还要指定这些数据的格式规则,收到后才好解读渲染,比如最常见的http
协议中规定的http数据包中,就会指定该数据包是什么格式的文件.
所以Application Level
提供各种网络应用接口,向下传输要发送的应用数据;并对每一路在数据格式上进行处理,以符合在对应网络中进行传输;同时做好不同路网络应用唯一的会话标识.
3.6. The whole circle
提要总结一下:
信息以信号
的方式在物理层的实际线路中传输,以太网使用MAC地址来标识主机,链路层提供两个相邻节点间的数据传输。网络层的数据包中包含目的IP地址,当需要传输时,链路层首先在ARP Cache
中查找IP地址对应的MAC地址,如果找不到(最后找不到便交给网关转发)则触发ARP请求将IP地址转换成MAC地址。如果目的IP与本机在同一个子网,得到的MAC地址即是目的主机地址,否则是网关地址。在数据帧传输过程中,MAC地址会不断改变,源MAC地址始终是上一个主机/路由器的地址),目的MAC地址是下一个主机/路由器的地址,直到到达目的主机的传输层端口或被丢弃.之后通信的另一端在应用层处理好信息,再反向通过TCP/IP体系提供的这5层,最终实现一端与另一端的有效通信.
围绕着5层中要实现的网络服务功能,设计了各自的软硬件,如集线器负责数据链路层与物理层,路由器可能负责下四层,网卡负责实现串/并转换,数据缓存和提供通信协议软件
的服务.
此外,Internet作为一种数据报网络,是由将计算机连接在一起的需求发展而来的.由于端系统设备复杂的多,Internet架构师们选择使网络层服务模型尽可能简单,另外的功能(例如按序传送,可靠数据传输,拥塞控制和DNS解析.etc)在端系统的更高层实现.这正好与电话模型相反.设计者们使得IP层尽可能的简单,使得不同链路层技术&&具有不同传输速率&&丢包特性的网络互联变得容易,这些链路层技术包括卫星,以太网,光纤以及WIFI等.
4. Information in reality
计算机要接入Local Area Network
(LAN),或通过代理服务器接入Internet,必须安装网卡,以及安装网络组件,即网络客户端
/网络服务
以及至少一种相同的网络协议
.信息资源在网络中能得以共享还依赖于World Wide Web
-使用超文本数据结构
建立在Internet上的信息组织形式与表现形式,一组分布式通信应用程序和系统软件,由Web
客户端和Web
服务器组成.WWW != Internet.WWW使得文档中可以无限嵌套链接,信息资源可以以页面的形式存储于Web服务器
(即Web主机
)中.用户查询信息时执行一个客户端的应用程序,即Browser程序
,Browser通过Uniform Resource Location
(URL,统一资源定位符)找到相应Server,然后建立联系并获取信息.URL 应该包括IP地址.
Internet是公用网络,在其上也可以建立专用网络,称为Virtual Private Network
.VPN建立起的任意两个节点间的连接并不需要传统专网所需的端到端的物理链路,而是架构在Internet Service Provider
(ISP,网络服务商)所提供的网络平台(如Internet)上的逻辑网络,用户数据在逻辑链路中传输.
5. 其他
5.1. 信息检索视角下的信息
信息的第一要素:可靠,以数据为例,
- 数据源可信度如何?
- 数据定义是什么?
- 样本容量多大,如何选择的样本?
我们知道,很多所谓的分析报告,包括我们自己的实验结论很多时候都是先定一个结论在那,然后再去找针对性的数据,以至于伪造合适的数据. 任何一个信息能够产生并传播,都必须有参与者,了解这些参与者并清除参与者的信息表达形式对信息利用十分重要.相对来说,有同行评审的学术信息资源可靠性更强. 个人查询信息时, 例如考研,就业,留学包括企业查询和学术等信息都已经形成了一些科学的查询方法,它们存在于一些课程包括书本(比如《信息检索利用》)中.这些书本也在坚持更新.这些方法包括并优于我们收藏的一些网站,但是后者往往已经够了-因为信息真的很泛滥,不求全面,甚至不求深入,但求够用.
5.2. 常见名词辨析
- 宽带是什么?带宽? 宽带指运营商给用户接入的使其能上网的服务,有10M宽带,100M宽带等类型.以这两种类型为例,它们分别指的是此宽带预计提供给用户的最高下载速度是10Mb/s也写作10Mbps),100Mb/s. 带宽则就是指刚刚的10Mbps,100Mbps,指的是线路的信息传输速率. 带宽在网络术语中也指线路传输的频段宽度. By the way,流量是指对外发送数据与接受数据包的大小总和.
- 视频流是什么? 基于视频流传输协议RTP/HTTP等的视频传输技术