高一必修一 第一单元
作者:互联网
高一 信息与技术 必修一《数据与计算》第一单元 初识数据与计算
必修一 第一单元
前言
由学校导学案整理而来,妥妥干货,不急不躁,吃多防噎。
在读高中生码字不易,请多多关照
点赞加关注,从此不迷路
高一Python入门专栏推荐
高一Python入门第一讲:播下一颗种子.
高一python入门第二讲 知人亦知面.
高一Python入门第三讲 石头剪刀布.
第一单元 初识数据与计算
1.1 我们身边的数据
学习目标:
了解数据与信息的特征
理解数据、信息和知识的相互关系
能从恰当的来源获取数据,并对数据进行简单的分析
体验数字化学习过程,感受利用数字化工具和资源和优势
核心素养:
1.1.1 数据
(1)数据的表现形式
数据的表现形式多样,除了数字以外、还有文字、图形、图像、声音和视频等形式。
数字型:刷公交卡时刷卡机显示的本次扣款金额和卡内余额、电子手表上显示的日期
和时间、教科书封底下端的国际标准书号(ISBN)、体育课上测量的各项运动成绩等。
非数字型:我们的名字、诗人创作的诗句、奥运会的主题曲、记载学校运动会的视频等。
(2)数据的特征
不变的数据(圆周率、一个标准大气压下冰水混合物的温度为0℃)、变化的数据(家庭每天的用电量、国际黄金价格、气温等)、随机的数据(抛硬币是正面向上还是反面向上)。
1.1.2 信息
(1)信息的特征
不管是什么样的信息,它们通常都具有一些特征,如载体依附性、价值性、时效性、共享性、可(真)伪性等。
以天气预报信息为例,该信息不能独立存在,需要依附于一定的载体,它既可以显示在网页上,也可以显示在报纸上,体现了信息的载体依附性;人们可以利用天气预报作为穿衣或出行的参考,体现了信息的价值性;天气预报只是预报了未来某一特定时段的天气状况,它会随着时间的推移而变化,体现了信息的时效性;作为一种资源,天气预报往往可以被多个信息接收者接收并且多次使用,这就体现了信息的共享性;某微信朋友圈疯传的一则“某地连续30天持续降雨的气象预报信息”,体现了信息的可伪性。
1.1.3 知识
知识是一类高级的、抽象的,而且具有普遍适应性的信息。例如天气预报中感冒指数的计算方法,是经专家调查研究和演算归纳出来的。知识是认识世界的结果,同时也是改造世界的依据。
1.1.4 数据、信息和知识的相互关系
数据是信息的表示;信息是数据的内涵,是对数据的语义解释;知识是信息经过加工提炼后形成的相应的抽象产物。
1.1.5数据的来源
按照数据获取的渠道,可以将数据分为直接数据(统计调查或科学实验得到的原始数据)和间接数据(通过查阅资料或他人对原始数据处理过的数据等)。例如我们用温度计实际测量得到的气温值是直接数据,而从网上搜索到的气温值是间接数据。
1.1.6 数据的收集方法
直接数据的收集方法有很多,如调查法、访谈法、观察法、实验法等。
问卷调查法是我们常用的数据收集方法之一,根据调查对象范围的不同,问卷调查法又分为全面调查和抽样调查。随着技术的发展,人们开始运用网络调查的方法收集数据(例如问卷星)。与传统的纸笔调查相比,网络调查可以节省成本,扩大调查范围,也便于后期的数据数据。
随着技术的发展,收集数据的手段日益丰富。例如,在农田中使用传感器可以实时收集农田土壤含水率,用以指导精确灌溉;利用车载尾气检测技术可以获取实时的动态尾气数据,用以协助调整交通策略及城市规划;利用中国嫦娥四号探测器收集月球表面成分的第一手资料。
间接数据的收集方法也有很多,如查阅文献资料、关注媒体资源、浏览权威网站、利用搜索引擎在网络中进行检索、从相关数据公司购买等。
1.1.7 大数据
大数据是以容量大(Volume)、类型多(Variety)、存储速度快(Velocity)、应用价值高(Value)为主要特征(简称4V特征)的数据结合。10TB~100TB通常称为大数据的门槛,实际应用中,已经形成了PB级的数据量。
大数据的量大到不能再使用常规的方法进行存储和处理,大数据分析的一般流程为:
大数据采集->分布式存储->分布式处理->(分布式)分析->数据可视化
1.2 数据的计算
学习目标:
了解计算的基本方式和计算的发展过程
根据问题需求,选用恰当的计算方式
感受计算机在处理数据时的优势
核心素养:
1.2.1 计算的基本方式和计算的发展过程
(1)三种常见的计算方式
人工计算、面向大众的计算工具(借助电子表格软件计算)、编程计算等。三种计算方式都有其适用的问题类型,灵活适用这三种方式将有助于我们提高数据计算的效率。
1.2.2基于电子表格的数据计算与分析
(1)数据分析的方法
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用的信息,并形成结论的过程。数据分析的方法很多,如对比分析和平均分析。
平均分析:运用计算平均值的方法反映总体在一定时间、地点条件下某一数量特征的一般水平,例如:计算某一公交线路的日平均客流量。
对比分析:将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物的发展变化和规律。对比有横向对比和纵向对比。横向对比是在类似的事物之间进行比较,而纵向对比是将相同事物的不同时期进行比较。譬如我们通过对88路和99路公交线路的客流量进行横向比较,分析哪一条线路更加繁忙;也可以纵向比较88路公交线路一天不同时段的客流量,分析高峰期出现的时间。
交叉分析法通常指将两个有一定联系的变量及其值交叉排列在一张表格内,使各变量值成为不同变量的交叉节点,形成交叉表,从而分析交叉表中的变量之间的关系。譬如不同年龄层次的购买者,购买家用汽车的目的也有所差异等。
(2)数据可视化表达
以图形、图像和动画等方式更加直观生动地呈现数据及数据分析结构,揭示数据之间的关系、趋势和规律等的表达方式称为数据可视化。图表是最常用的数据可视化表达方式之一。基本图表类型,如柱状图、饼图和折线图等。
1.2.3 超级计算机
超级计算机是一个国家科技能力的象征,它可以解决交通工具制造、气候问题、生物信息、地震监测、地球科学、天体物理、公共健康、材料科学等诸多领域的挑战性问题。中国国产知名的超级计算机有“银河”系列、“神威”系列、“天河”系列。
1.3 数据的编码
学习目标:
了解各类数据采集的基本方法
能够解释数字、文本、音频等数据的编码原理
理解数据编码的意义和作用
核心素养:
1.3.1 各类数据采集的基本方法
表现形式 实例 采集设备 处理软件
数字 年龄 键盘、手写输入、语音输入、各种数字化采集仪 电子表格软件、数据库
文本 身份证号 键盘、手写输入、语音输入、各种数字化采集仪 字处理软件、电子表格、数据库
图像 照片 手机、相机、摄像头、扫描仪 画图、Photoshop
音频 语音 手机、录音笔、麦克风 录音机、CoolEdit
视频 微视频 手机、摄像机、摄像头 会声会影、爱剪辑
1.3.2 数字数据的编码
(1)进制
进制是一种计数方式,亦称进位计数制。任意一种进制都包含两个基本要素:基数和权值。基数是组成该进制的数符个数;权值表示为基数的若干次幂。
十进制:1314(10)= 1103 + 3102 + 1 * 101 + 4*100。十进制数的基数是10,用0~9共10个不同的数符表示,从右到左各位的权值依次为100、101、102、103,… 基本计数规则是逢十进一,即9+1=10。
二进制:数据在计算机内部都是以二进制方式进行存储和处理的。二进制数的基数是2,用0和1两种不同的数符表示,从右到左各位的权值依次为20、21、22、23,…基本计数规则是逢二进一,即1+1=10。
十六进制:二进制在使用过程中,由于位数太长,不便于书写和记忆,所有人们常采用十六进制表示。十六进制数的基数是16,用09、AF(或a~ f)共16个数码表示(分别对应十进制数中的0~15),从右到左各位的权值依次为160、161、162、163,… 基本计数规则是逢十六进一,即F+1=10。
十进制 0 1 2 3 4 5 6 7
二进制 0000 0001 0010 0011 0100 0101 0110 0111
十六进制 0 1 2 3 4 5 6 7
十进制 8 9 10 11 12 13 14 15
二级制 1000 1001 1010 1011 1100 1101 1110 1111
十六进制 8 9 A B C D E F
数制的这种规律,实现了任何一个整数只有一种表示法,而且任何一种表示法只表示一个整数,即整数与表示法之间是一一对应关系。
(2)二、十、十六进制转换
一般的,十进制非负整数转换为任意R进制数(R>=2):“除R取余法”。
例如:18(10) =10010(2)
bin(18) #python中bin() 是将一个十进制数转换为二进制数的函数
R进制数转换为十进制数:“按权展开求和法”
例如:10010(2) = 1 * 24 + 0 * 23 + 0 * 22 + 1 * 21 + 0 * 20 = 18(10)
int(‘10010’,2) #将整数型二进制字符串转换为十进制数37
(3)存储容量单位及换算公式
计算机中存储数据的最小单位是二进制位,用比特(bit,简写为b)表示,1比特能表示21两种状态(0、1)、2比特能表示22四种状态(00、01、10、11)……,n比特能表示2n种状态。
计算机中存储数据的基本单位是字节(Byte,简写为B),8比特构成1字节,即1B = 8b
1KB = 210B = 1024B,1MB = 210KB =1024KB,1GB = 210MB =1024MB
递进倍数为210 = 1024,因此民间把10月24日戏称为“程序员节”。
1.3.3 文本数据的编码
文本数据是用来表示一定意义的一系列字符,包括字母、数字、标点符号、汉字等。文本数据的编码通过对其中每一个字符进行编码实现。
(1) ASCII码
美国信息交换标准码,是一套基于拉丁字母的计算机编码系统,主要用于显示现代英语和其他西欧语言,是现今最通用的单字节编码系统。基本的ASCII码用1个字节中的低7位编码,最高位用0表示,字符集定义了标点符号、大小写英文字母和数字等字符符号,共128个。
例如,大写字母A的ASCII码为 01000001,即65
表 常见的ASCII码
ASCII码(十进制) 字符
0~31 控制字符或通信专用字符(不可见)
32 空格
48 ~ 57 数字0 ~ 9
65 ~ 90 大写英文字母A ~ Z
97 ~ 122 小写英文字母a ~ z
其他 英文标点符号、运算符号、括号等
(2) 汉字编码
计算机中的汉字也是采用二进制进行编码,汉字编码分为输入码、机内码和字形码。
输入码:输入码也叫外码,是用来将汉字输入到计算机中的一组键盘符号,常用的输入码有音码和形码。
机内码:在计算机内部存储汉字使用机内码,在早期的GB2312字符集中,每个汉字用两个字节(216=65536种不同状态)进行编码。我国先后制定了多个汉字编码方案:GB 2312-1980、GBK字符集、GB 18030-2000字符集、GB 18030-2005字符集等。
字形码:为了将汉字在显示器或打印机上输出,把汉字按图形符号设计成点阵图,就得到了相应的字形码。用于显示的字库叫显示字库。显示一个汉字一般采用16×16点阵、24×24点阵或48×48点阵。已知汉字点阵的大小,可以计算出存储一个汉字点阵所需占用的存储容量。如下图所示,一个汉字采用16×16点阵,占用 16 * 16 / 8 = 32(B)。
(3) Unicode码
为解决传统字符编码方案的局限性而产生的Unicode字符集是全球可以共享的编码字符集,涵盖了世界上主要文字的字符。它可以用两个字节来表示一个符号,这样就有216(65536)种不同状态,能表示很多国家的常用字。
python语言中的ord()是将字符转换为对应存储编码的函数,编码值以十进制数形式显示;chr()是将编码值转换为对应字符的函数。
ord(‘A’) #显示字符’A’的编码值
chr(65) #将编码值转换为对应的字符
ord(‘男’) #显示字符’男’的编码值
chr(30007) #将编码值转换为对应的字符
1.3.4 音频数据的编码
(1)模拟信号与数字信号
按照取值特征,可以将信号分为模拟信号和数字信号。
模拟信号 数字信号
来源 用传感器直接获得的信号一般为模拟信号 可以由模拟信号转换得来
实例 通过话筒的声音传感器获得的声音信号;类似的还有温度、压强、电压等; 通过声卡的模数转换器处理获得的语音信号的数字数据
特征 模拟信号的值是随时间连续变化的,波形光滑 数字信号随时间的变化是非连续的数据 模拟数据 数字数据,直接用二进制表示
(2)声音的数字化
我们不能把连续的音频信号存放在计算机中,必须将模拟声音数据转换为数字数据。将模拟数据转换为数字数据的过程称为声音的数字化,一般要经过采样、量化、编码三个过程。
采样:在横向时间轴上按一定的时间间隔从信号上取一个瞬时值的过程称为采样。1秒内的采样次数称为采样频率(单位:Hz),常用的CD音质的采样频率是44.1kHz。采样率越高,单位时间内采集的样本越多,对原始信号波形的表示就越“完整”。
量化:将纵向振幅轴划分为若干区间,落在某一个区间的采样点四舍五入取整的过程称为量化。用多少个二进制位来表示一个采样点叫量化位数(单位:位)。CD音质的量化位数为16位,可记录216=65536种不同的数值。量化位数越大(n位),对纵轴刻度的划分越细密(2n个刻度),对原始信号波形的表示就越“精确”。
如图所示,量化值取值范围是0~7这8个数,需要用3位二进制表示,即量化位数为3位(23=8)。
采样时刻 1 2 3 4 5 6 7
量化值(十进制) 4 5 6 6 6 6 5
量化值(二进制) 100 101 110 110 110 110 110
编码:模拟音频信号经过采样和量化以后,形成一系列的数字信号,将这些数字信号按一定的方式进行编码,以文件的形式存储在计算机中。常见的声音文件类型有Wave、MP3、WMA等。
Wave格式音频文件的存储容量可以通过下面公式进行计算:
存储容量 = 采样率(Hz) * 量化位数(bit) * 声道数 * 时长(s)/ 8(单位:字节)
1.3.5图像数据的编码
采样:与声音数据类似,图像数据的数字化,也需要先进行采样,不同的是,图像数据是在空间上变化,而不是在时间上变化。简单来讲,对二维空间上连续的图像在水平和垂直方向上等间距地分割成矩阵网状结构,所形成的微小方格称为像素点。例如:一副640*480分辨率的图像,表示这副图像是由640 * 480 个像素点组成。左图为要采样的物体,右图为采样后的图像,每个小格即为一个像素点。
量化:指使用多大范围的数值来表示图像采样之后每个像素点的颜色信息。用多少个二进制位来表示一个像素点,称为色彩深度(简称位深度)。如256种颜色的图像,需要的位深度为8位。
编码:对量化后的数据按一定规则进行编码后,以文件形式存储于计算机中。根据不同的编码方式,可分为多种图像文件格式,如BMP、JPG、GIF、PNG等。
无损压缩的位图格式存储容量计算公式为:
存储容量 = 总像素 * 色彩深度 / 8(单位:字节)
1.3.6条形码与二维码
条形码是将宽度不等的多个黑条和空白,按照一定的编码规则排列,用以表达一组信息的图形标识符。在商品流通、图书管理、邮政管理、银行系统等许多领域都得到广泛的应用。
二维条码/二维码是用某种特定的几何图形按一定规律在平面(二维方向上)分布的、黑白相间的、记录数据符号信息的图形。二维码的优点包括:高密度编码,信息容量大;编码范围广;容错能力强,具有纠错功能;译码可靠性高;可引入加密措施;成本低,易制作,持久耐用等。
条形码
二维码
1.3.7 二进制的优点与缺点
二进制的优点:
(1)使计算自动化成为可能。二进制中只有0和1两种状态,具有两个稳定状态的电子器件很多,如开关的通断、电压的高低等,都可以表示0、1两个数码。
(2)使自动化计算装置简便可靠。二进制运算法则少,运算简单,使计算机运算器的硬件结构大家简化。
(3)使自动化逻辑运算简单易行。二进制的0和1正好和逻辑代数的假(False)和真(True)相对应,有逻辑代数作为理论基础,用二进制能很方便地进行逻辑运算。
二进制的缺点:
(1)用二进制表示一个数时,位数太多,太繁琐,顾产生了十六进制。
(2)难以记忆,可读性差。所以,与人类交互时,常以十进制呈现。
后记
相关资料
高一 信息与技术 必修一《数据与计算》第一单元 初识数据与计算(讲义).
高一 信息与技术 必修一《数据与计算》第一单元 初识数据与计算(习题).
在读高中生码字不易,请多多关照
点赞加关注,从此不迷路
标签:编码,必修,1.1,1.3,二进制,高一,计算,数据,单元 来源: https://blog.csdn.net/weixin_56275220/article/details/117400990