如何获得高质量统计数据

在高等院校各专业院系中的老师和同学以及证券银行以及企业中的经济分析师或者政府机关等单位中的政策研究制定者在实际的工作学习中为了得到可信任的成果和结论往往需要数据的支撑这就必不可免的需要搜集并整理出需要的数据

在我们目前所处的信息时代我们可以在互联网上通过各种方式找到海量的数据但这些数据是可以搜来急用的吗假如数据存在问题成果或者结论又会是可信的吗我们如何获得高质量数据来支撑我们的研究过程

在本次数据素养讲座中通过对数据素养里面找得到和用的对这两个要点的解读希望能为大家未来如何获得高质量统计数据这个问题提供帮助

找得到可以认为是我们能够找到数据资源也就是掌握更多的数据发布渠道这是获得高质量数据的基础巧妇难为无米之炊首先要解决有没有的问题用的对需要我们具备一定的数据素养指我们面对众多渠道发布的数据使用数据权要了解我们使用的数据是什么含义确认数据是否存在问题也就是说只有进一步提高数据素养才能用的对经过这两个步骤高质量统计数据也许就会涌现出来供我们使用当然我们所处的现实世界从来都不是理想的无论是统计数据的生产和公布以及我们自己所存在的认知局限现实中的统计数据可能永远达不到我们理想中的状态但我们可以通过对统计数据的不断了解并且通过我们对这些统计数据的努力的搜集清洗让我们能够使用的数据质量尽可能的提高

一、统计数据的发布渠道
首先进入今天讲座的第一部分统计数据的发布渠道通过本章希望能让大家了解权威的数据发布机构了解到尽量全面的数据资源以及各个渠道的特性为后面的用的对打下基础

首先先看看我们日常使用的统计数据的种类例如像人口专题的数据里面有常住人口户籍人口一般是国家统计局和公安部来发布国民经济核算专题你们大家最常用的是GDP那是由国家统计局来发布像农业农村专题里面有粮食产量等指标一般是农业农村部来发布像金融专题里面的指标可能有货币供应量金融专题的数据发布渠道大概有人民银行外管局证监会上交所深交所等机构像教育专题我们日常使用的像学校数量学生数量那是由教育部来统计和发布的像财政数据里面的财政收入和财政支出那是由财政部来统计和发布的另外还有更多的专题的数据这里列示的仅仅是众多数据的一部分供大家初步了解

下面我们为大家介绍一下这些专题的数据在哪里能够找到首先先来介绍一下国家统计局国家统计局是国务院直属机构负责组织领导和协调全国统计工作一直承担为国家发改委服务的职能并为各级政府及政府研究机构提供服务国家统计局是我们国家最重要的统计数据的发布机构统计调查队统计调查队是国家统计局的派出机构由国家统计局实行垂直管理主要承担国家所需要重要统计数据的调查任务国家统计局的官方网站是我们获得统计数据最常用的一个来源

这个是国家统计局官方网站新闻发布会栏目下发布的一些新闻发布会是比较快的一个数据的发布方式如果大家想要非常及时的获得数据可以关注一下国家统计局的新闻发布会

这是新闻发布会的一篇新闻可以看到里面公布了规模以上的工业增加值以及全国服务业生产指数等数据新闻发布会一般会公布一些比较重要的核心指标之后新闻发布会之后就会在一个

最新发布栏目下公布一些更加明细的数据

例如70个大中城市商品住宅销售价格变动情况可以看到这里面有70个城市的数据比较细致了

另外国家统计局的统计局数据库为我们提供了全国的月度季度年度的主要统计指标以及31个省区市和部分城市的重点统计指标另外还有像人口普查经济普查以及部分其他国家的数据供我们使用国家统计局数据库里面的数据基本上都是时间序列数据如果大家想要比较便利的使用时间序列数据可以在国家统计局的数据库里面查找使用

除了国家统计局之外我国还有其他各部门统计机构主要包括国务院各部门及直属机构例如科技部人力资源和社会保障部生态环境部交通运输部农业农村部文化旅游部人民银行海关总署等等之外还会有一些授权的行业协会例如机械工业协会汽车协会物流协会他们也会公布一些专题数据下面我们挑选一些部门数据供大家了解

如果大家想要了解对外贸易的数据我们知道对外贸易一般分成货物贸易和服务贸易我们首先可以在海关总署去了解一下货物贸易的数据这是海关总署的页面可以找到像货物进出口总额贸易差额跟贸易方式的进出口额分国别的进出口额以及一些重点商品的进出口额数据这个红块可以看到有统计快讯统计月报在这里面可以找到一些海关数据像贸易指数可以找到一些进出口的贸易指数数据数据在线查询在这个里面点进去就可以看到一些更加细致的海关最细力度的8位码的统计数据

另外我们可以在商务部去找到外商直接投资对外直接投资对外承包工程对外劳务合作以及一些服务贸易数据也就是说如果我们想找到一些对外贸易数据可以在海关总署和商务部去查找

如果大家想要了解一下金融数据首先就要去看一下中国人民银行它里面会公布一些货币供应量存款贷款利率方面的数据

也可以在外管局找到像外债余额外债风险指标人民币汇率外汇储备等数据

在银保监会可以找到银行业的金融机构资产负债情况商业银行拨备情况保险公司的保费赔款赔付支出等数据

它可以在证监会网站找到上海深圳这种沪深股市行情以及像香港股市行情期货市场的主要品种交易情况期货市场交易情况还有一些证券市场的资金额等数据

如果大家关注交通运输的数据可以在交通运输部去找到公路运输水运港口货物吞吐量公路客运量水路客运量还有铁路客运量等方面的数据

如果大家想要了解一下民航的数据交通运输里面像了解一下航空方面的数据那么可以在民航局去找到民航运输周转量民航的旅客周转量民航的旅客运输量货运周转量以及像正班载运率等方面的这种民航数据

如果想要想要找到这种铁路方面的数据还可以在国家铁路总公司的网站上找到国家铁路旅客发送量周转量货物发送量周转量以及全国铁路固定资产投资方面的数据

如果大家要了解互联网软件和信息产业的数据可以在工信部的网站找到像电信业务总量固定电话移动电话用户数互联网宽带接入端口方面的数据

也可以在 Cnk的网站找到像移动网络终端移动物联网连接数还有像游戏类APP数量日常工具类APP数量还有像网络音乐用户规模等数据

在财政部这个网站大家可以找到一些像收入财政支出地方政府债国有及国有控股企业的主要经济效益指标这方面的财政方面的数据还有像全国彩票销售情况这些数据

如果大家关注教育的数据首先就可以去教育部去找到各级各类学校的教职工数据招生数在校生数毕业生数分学科的研究生情况这方面的数据

如果是就业和社会保障方面的数据首先去人力资源和社会保障部可以找到城镇新增就业城镇的登记失业率基本养老保险失业保险生育保险这方面的数据

在医保局可以找到医疗保险医疗救助方面的数据

另外如果还关注一些产业数据我们可以在中国电力企业联合会找到电力的生产和消费数据

石油和化学工业联合会找到化工数据

在汽车工业协会找到汽车行业的生产和销售数据前面介绍了国家级各部门以及行业协会的官方网站数据发布渠道

下面我们来介绍一下地方统计机构数据发布渠道一般来讲如果我们关注区域统计数据的话可以看一下这个地方统计机构例如说各省市的统计局各省市的财政部门各省市的金融部门以及说比如说各省市的这种人力资源和社会保障部门都可以找到相关的地方各区域的统计数据

比如说是北京市统计局的官方网站可以找到比较详细的北京市的统计数据

这是一个省一级的网站这个是广西贺州市人民政府网站可以找到贺州市的数据

这是一个地市一级的网站这个是连山壮族瑶族自治县人民政府的网站

可以找到连山县这县一级的统计数据也就是说省市县他们都会有各自的官方网站来公布一些统计数据这个是北京市西城区人民政府公布的北京市西城区的统计年鉴

另外像北京市财政局也会公布一些比较详细的北京市的财政数据

像广东省财政厅这张表公布的

就是广东省的一般公共预算支出的执行情况

我们可以在里面看一下像财政支出在支出了哪些方面比如说像人大事务政协事务审计事务这一方面我们也可以在像上海的人民银行分行像武汉的人民银行分行找到上海的金融数据以及武汉的金融数据如果大家还想了解各地的社保数据也可以在各地的社保局去查找除了前面介绍的这些官方网站

我们再来了解一下统计年鉴在日常工作中统计年鉴是一个非常重要的统计数据的发布渠道统计年鉴系统收录全国和各省区市经济和社会各方面的统计数据全面反映了经济和社会发展情况是覆盖国民经济和社会发展各方面的大型权威性统计工具书为国内研究提供了大量的可用数据我们把统计年鉴大概分成三类第一类是综合性年鉴像中国统计年鉴中国统计摘要中国城市统计年鉴中国县域统计年鉴这一类里面公布了一些综合性的指标各个专题的指标都会有一些第二是专题年鉴像中国投资领域统计年鉴中国建筑业统计年鉴中国人口和就业统计年鉴以及中国财政统计年鉴等等这些它是公布了某一个领域的某一个专题的数据第三部分就是各地区年检包括像31个省区市都会公布自己的统计年鉴现在还有200多个地级市也在公布统计年鉴还有一些区也在公布各个区的统计年鉴这个是国家统计局出版的两本重要统计资料中国统计摘要和中国统计年鉴这两本资料的区别是中国统计摘要在每年的5~6月份出版它公布少量的上一年的全国及31省区市的指标年度数据中国统计年鉴在每年10月份左右出版叫统计摘要要晚出版5个月左右公布大量的上一年的全国及31省区市重点指标年度数据那中国统计年鉴是反映我国经济和社会发展比较全面的重要统计资料

这个是中国统计年鉴的一个样例

这是最新一期2022年中国统计年鉴公布的全国及各省的财政数据

这个公布的是国内生产总值的数据

也就是GDP数据

如果我们有城市或者区县的数据需求我们可以去查阅中国城市统计年鉴中国城市建设统计年鉴以及中国县域统计年鉴这三本资料发布了我国众多城市区县的主要统计指标数据这三本书的优势它不是描述一城一地的情况而是地区维度非常丰富可以一次性获取到某个指标的近乎所有地区的数据但是毕竟图书资料版面有限如果地区维度丰富后指标维度就必不可免的只能保留一些核心关键指标所以说这三本资料的一个缺点就是它的指标量会比较少一些

这是城市统计年鉴的样例

这是县域统计年鉴的样例可以看到里边公布了大量的地区的数据但是由于篇幅限制一本资料也不能容纳所有地区的所有指标

如果我们需要某一个地区更多的指标我们该怎么处理这个时候如果我们需要某一个省或城市的详细统计数据就可以在各省统计年鉴中找到该省的年度数据比如说我们可以在2022年安徽统计年鉴找到安徽省的详细的统计数据一般各省统一年鉴下面还会公布一些该省所辖地市的数据

这个是南京无锡深圳三个地级市的统计年鉴我们如果需要某一个地市的统计数据可以去地级市的统计年鉴里面去找像地市统计年鉴里面公布的数据要比省里面公布的地市的数据要多得很多

如果我们需要某一个专题或者产业方面的详细数据除了前面介绍的各个数据源的官方网站外这些数据源还会出版各类专题年鉴这里面列示了该专题的更详细的统计数据例如国家统计局编撰的中国投资领域统计年鉴收录了全国及31省区市固定资产投资房地产开发建筑业的生产经营数据这本资料里的投资指标就比中国统计年鉴里面公布的要丰富得多中国建筑业统计年鉴则公布了不同经济类型不同行业的建筑业企业的收入产值费用利润等更加详细的统计数据它也比中国统计年鉴公布的建筑业方面的数据要丰富得多中国房地产统计年鉴也是国家统计局出版的它公布了我国房地产企业的投资新开工竣工销售情况

像中国人口和就业统计年鉴则公布了我国分城乡产业的人口就业失业情况能源统计年鉴则公布了我国能源建设生产消费例如不同行业的原油汽油电力焦炭的消费量这方面的数据中国住户调查年鉴是一本中国城乡居民收支生产和生活状况的资料性年鉴它收录了全国以及分城乡居民收支及生活状况等数据

像中国工业统计年鉴则系统收录了全国各经济类型各工业行业以及31个省区市的工业经济统计数据中国农村统计年鉴则收录了我国以及各省农村社会经济统计数据那中国高技术产业统计年鉴则收了我国高技术产业生产经营研发以及相关活动等数据例如说高技术产业企业的研发活动新产品开发销售专利技术获取和改造企业办研发机构等等这些年鉴每一本大概都有三五百页其中列示了众多数据

比如说中国财政年鉴公布了全国中央地方以及31省区市的财政预算决算财政收支彩票销售等数据

劳动统计年鉴可以看到里面公布了全国及31省区市的就业失业工资社保方面的数据

农村年鉴也可以看到里面公布了一些乡村人口这是一张样例表可以看到里面的数据还比较丰富

这是高技术产业统计年鉴的样例这些统计年鉴一般公布的都是去年或者前年的数据例如2022年底出版的2022中国统计年鉴里面公布的最新数据是2021年的2023年中出版的2022中国城市统计年鉴里面发布的是各城市的2021年的数据它相对来说这个数据时效性比较滞后虽然说数据全面但是它是比较滞后的数据

如果我们需要最新的数据可以在一些专题报告中去查找比如说像政府工作报告统计公报专题公报一般政府工作报告全国以及省市县每年年初会发布里面有个别的非常重要的指标的一些初步核算数其次我们可以去看一下统计公报就是全国和省市全国以及省市县每年都会发布国民经济和社会发展统计公报里面会公布比较多的重点指标还有一些各部门发布的专题公报例如通信业统计公报人力资源和社会保障统计公报以及向各地方发布的财政预决算报告这里面也会公布一些专题性数据

我们来看一下案例这个是政府工作报告3月5号公布的里面大概公布了一个地区生产总值还有人均GDP等数据

这个是中华人民共和国2022年的国民经济和社会发展统计公报它公布的比较早大概在2023年的2月28日就公布了右边这张图是北京市的2022年的统计公报它是在2023年的3月21号发布的也就是我们最早在2023年的3月21号就能了解到2022年的北京市的主要数据情况

这个是白山市一个地级市的统计公报它大概是在3月9号公布的右边这个是汕头市朝南区这是区县一级的统计公报

这个是国家统计局发布的全国科技经费投入统计公报

这个是国家统计局发布的第七次全国人口普查公报以及像万元GDP能耗降低率这些数据的公报这些资料都会发布一些统计数据而且时效性会比统计年鉴要高

这是工业和信息化部发布的通信业通公报

这是软件业公报

这个是教育部发布的教育事业发展公报这里面可以找到最新的全国各级各类学校数学生数教师数等教育方面的统计数据

这个是全国科技经费投入情况这里面可以找到我国研究与实验发展的经费投入高技术制造业等各个行业的研究与的投入强度方面的数据

这个是人力资源和社会保障部的公报可以里面可以找到我国全年的就业情况失业情况农民工人数以及像就业保险失业保险养老保险等参保人数的数据

这个是生态和自然资源部公布的生态环境统计公报它会公布全国及主要城市的空气质量例如pm25等主要污染物浓度

下面我们对前面介绍的数据资源也就是数据发布渠道做一个基本的总结首先最重要的统计数据发布渠道是国家统计局然后国务院有关部门和行业协会也会发布统计数据最后向地方统计机构也会发布一些地方的数据他们基本都会在互联网渠道通过自己的官方网站来发布数据同时也会举办各自的新闻发布会发布一些比较时效性的数据最后他们也会通过一些统计出版物也就是统计年鉴来发布非常详尽的统计数据这个是数据发布时间

我们以国家统计局为例来了解一下不同渠道的它的一个发布时间情况首先最快速的是新闻发布会像年度新闻发布会一般每年1月20号左右召开季度新闻发布会是在季后17日左右召开然后像国民经济和社会发展统计公报它公布的是年度数据一般每年的2月底公布上年数据之后5月份公布的中国统计摘要10月份公布的中国统计年鉴另外在每年4~6月它会发布中国城市统计年鉴和中国县市县域统计年鉴但是这个它公布的是前一年的数据也就是说2023年发布的年鉴是2021年的数据最后看一下统计局数据库里面公布的时间序列数据它一般是在每月或每季的新闻发布会后的两三天就会更新一些月度数据另外在统计摘要或统计年鉴出版后的2~3个月会陆续公布很多的年度数据统计数据库的数据都是时间序列数据上面说的这些公报摘统计摘要统计年鉴他们大多数公布的都是单时点数据在看过国内数据的官方发布机构后

我们再来了解一下国际数据都有哪些官方机构在发布国际数据国际统计数据的发布机构主要由三大类组成第一类是各种国际组织例如大家日常比较熟悉的国际货币基金组织IMF世界银行以及经济合作与发展组织OECD都属于范畴国际组织在集合各国的官方数据后根据自己的工作和研究领域的特点它会发布各类国际数据

第二类是各国官方统计数据发布机构官方统计数据发布机构是由国家设立的包括从中央到地方各级政府及其部门设立的统计机构这一类同我们的国家统计局一样都属于政府统计范畴例如美国商务部美国普查局日本总务省统计局英国统计局德国联邦统计局各国中央银行都属于范畴

第三类是民间统计机构包括各种交易所调查公司从事统计调查的信息咨询公司在发达国家中民间统计机构很多已经成为与国家统计机构并存的一支重要的统计力量

这个是国际货币基金组织IMF的网站

这个是世界银行的网站

这个是OECD的网站

我们可以在OECD的数据库中查看OA CD成员国的数据这是OECD综合领先指标也就是cri它主要用来预测整体经济的转变情况以及预测未来数月的经济趋势

除了上面这几个国际组织外还有像联合国贸发会议在发布各国的fdiodi的存量流量以及部分进出口数据像WTO国际贸易组织的数据它会聚焦于国际贸易方面比如说各经济体贸易伙伴分商品的统计数据国际劳工组织 Iro在发布各经济体的就业人员失业人员小时工资等等劳动方面的数据联合国工发组织它聚焦于各经济体工业发展情况工业增加值等指标可以在这里找到

除了国际组织之外各国官方机构也在发布统计数据

例如说美国的数据可以从美国经济分析局BA获取例如GDP国际投资价格等指标都可以从BA获取美国的公路客运量货运量周转量等指标则要到美国交通部来获取

这个是eia美国能源信息署的页面其中的EA原油周报是体现原油供需的重要数据被社会各界广泛关注

在农业数据领域美国农业部在发布统计数据除了美国之外是世界其他国家和地区的各种农产品供给例如产量播种面积单产农产品需求像消费量种子用量农产品的进出口等相关指标在美国农业部都有公布除了美国之外各国官方也都在发布统计数据

例如说日本的数据可以从日本统计局来获取

英国数据可以从英国统计局等官方机构去获取各国的官方机构数量比较多在此也就不给大家一一做详细的介绍了

二、提高数据素养
下面我们进入本次讲座的第二章提高数据素养

我们希望通过了解统计知识规避认知陷阱这两方面的介绍能够为大家提高数据素养提供一些帮助统计数据的统计知识

我们建议大家可以从三个方面去了解一是统计制度二是统计标准三是指标解释

什么是统计制度呢各级政府统计部门通过收集到的上报调查数据它会根据统计制度的规定汇总计算出统计数据各级政府是各级政府统计部门依法实施统计工作的方案和要求它具有权威性和法规约束性国家发布的统计数据它不是想怎么统计就怎么统计的而是严格遵守统计制度的要求进行统计发布的这个是国家统计局发布的一些国家统计制度比如说像劳动力调查制度劳动工资统计报表制度固定资产投资统计报表制度能源统计报表制度像互联网经济统计报表制度发布的种类非常多

我们从一个案例来了解一下统计制度的内容左边这张图是劳动工资统计报表制度的主要内容这里面说劳动工资统计报表它的调查目的是为了及时准确的搜集整理法人单位从业人员人数以及工资总额等方面的资料它的调查对象统计调查对象它是法人单位包括统计上认定的视同法人单位的产业活动单位但是不包括像一套人马多块牌子寺庙宗教场所协会学会农民专业合作社等虽然有人员但是没有工资发放行为的单位他的调查内容就劳动公司的调查内容他是调查对象单位中的从业人员及工资总额等情况我们再看一下右边这张图它就是通过劳动工资统计报表制度最后统计上来的数据这个是城镇非私营单位就业人员的工资总额下面像412这张表它是城镇私营单位从业人员的工资总额也就是说通过统计制度我们可以统计上来的数据我们可以了解到城镇的非私营单位以及私营单位的工资总额以及从业人员数一方这些数据

统计标准它是只根据经济社会管理现代化的需要按照国家有关规定制定的统计工作规范是关于统计指标统计对象计算方法分类目录调查表示和统计编码等的统一技术要求比较拗口下面我们来通过一个案例来看看我们能够从统计标准中获得什么这个是国家统计局发布的数字经济的统计标准数字经济现在比较火如果我们想要了解数字经济的内涵数字经济的概念到底什么是数字经济它又包含什么

我们可以去找一下像这个数字经济及其核心产业统计分类这么一个统计标准这里面说数字经济是指以数据资源作为关键生产要素以现代信息网络作为重要载载体以信息通信技术的有效使用作为效率提升和经济结构优化的重要推动力的一系列经济活动这个是国家公布的数字经济统计标准里边的一个定义它里面说数字经济的产业范围大概分了5类包括数字产品制造业数字产品服务业数字技术应用业数字要素驱动业数字化效率提升业这5大类这样我们就大概了解了数字经济的概念以及它包含的一个范围

如果我们想进一步去想找到相关的数据我们可以继续向下来翻阅统计标准我们可以看到这两张表它就是数字经济及其核心产业的统计分类我们可以看到像数字产品01就是数字产品制造业它红框里面对应的是国民经济行业代码及名称国家统计局以及各地方统计局都在按照国民经济行业来公布一些行业数据我们可以通过这些行业数据找到行业数据之后就可以进一步去了解这个数字经济下面的一个产业情况比如说像这个数字产品制造业下面可能包含计算机整机制造计算机零部件制造计算机外围设备制造这几个行业另外可能像这个数字产品服务业它会包含计算机软件及辅助设备批发通信设备批发计算机软件及辅助设备零售这些国标行业的数据另外统计制度和统计标准也是与时俱进的我们在需要了解相关内容的时候最好去找一下最新的版本指标解释大家可能比较好理解

如果我们想了解一个指标的具体含义我们可以去看指标解释左边这个是人口方面的指标的一个解释例如说他什么是出生率什么是死亡率出生率和死亡率又是如何计算的它右边是财政的一个指标解释它可以看到什么是一般公共预算收入它是指国家财政参与社会产品分配所取得的收入主要包括一个是各项税收比如说像国内消费税增值税还包括一些非税收入比如说像行政事业性收费罚没收入国有资本经营性收入这些通通都属于一般公共预算收入什么是一般公共预算支出可以看到是指国家财政将筹集起来的资金进行分配使用以满足经济建设和各项事业的需要它主要就包括像一些外交方面的国防支出公共安全支出教育支出科技支出像文化体育方面的支出我们就可以通过财政的一个指标解释我们就可以了解财政里面的一些关键指标是什么含义我们来通过几个案例来看一下统计制度统计标准指标解释那给我们提供的一个帮助

这一页左边这个图是2019年中国统计年鉴它里面公布了一个指标叫用水普及率2022年的中国统计年鉴里面公布了一个指标叫供水普及率这两个指标从数据上来看很相似比如说2019年里面用水普及率2010年的数据是9672022年中国统计年鉴供水普及率2010年的数据是9668这两个基本上就是一个精度差异这两个指标是不是一个指标是不是可以合并在一起构成一条更长的时间去练从数据来看大概是这样但是我们还是希望能够进一步的找到一些理论上的支撑这个时候我们可以去找一下指标解释也就是在中国统计年鉴这个专题下也专门有一章就叫指标解释

左边这张图是2019年中国统计年鉴的指标解释里面有用水普及率的解释它是指报告期末城区用水人口数与城市人口总数的比率它有一个计算公式我们同样在2021年中国统一年鉴的指标解释能找到供水普及率的解释我们可以看一下这两个解释完全是一模一样的包括它的计算公式也是一样的这样我们基本就可以认定这两个指标其实是同一个指标我们就可以放到一起使用

下面我们再看这个案例这个是国家统计局公布的建筑业企业房屋建筑竣工面积的数据我们看红框这两部分的数据这两部分数据正好是错开的这两部分错开的数据之间会不会有什么关系我们怎么去找到这两部分的关系这个时候我们可以去看一下建筑业企业房屋竣工面积的统计制度

左边这张图是2021版的统计制度这里面的公布的房屋建筑分类可以看到它大概分住宅房屋商业及服务用房屋右边这个是201一般的统计制度它对房屋的分类可能就分成了像厂房仓库住宅办公用房批发和零售用房我们可以看到这两个统计制度有了变化所以说我们再回到刚刚那个页面去看的时候就会发现上边这块这块数据恰好对应的是2021版的最新的统计制度

下边这块对应的是2011版的一个比较旧的统计制度发生了变更之后数据也会产生了变化这两个新旧两版制度之间的统计指标之间又是什么关系呢我们可以进一步去看2021版统计制度下面的一个指标解释它有商厦房屋的一个指标解释是指批发和零售企业对外营业的各种批发市场超级市场商店门市部粮店书店供销店等房屋那不包括批发零售企业的厂房和仓库我们同样再看2011版统计制度里面对批发和零售用房的一个解释可以看到这两个解释是几乎就是一模一样的

这时候我们就知道虽然是不同版的统计制度但是里面这两个指标含义是相同的所以说这两个指标的数据是可以放到一起去应用的

介绍完统计知识之后我们再来看一下认知陷阱我们在使用统计数据的过程中也会碰到各类的陷阱这里我们来介绍几种问题希望大家在使用统计数据的过程中尽量能够规避这些认知陷阱第一就是指标数据源中的指标名称是准确的吗大家可能听到这里会觉得数据源中的指标名称当然是准确的第二就是地区也就是说不同数据源给出的名字相同的地区是一个吗可能大家也会认为名字相同的地区比如说写了北京写在北京当然是一个事实是不是这样等会我们通过一些案例来看一下然后第三就是时间数据源给出的时间信息就代表是数据时间吗最后是来源政府机构发布的数据就是准确的吗大家可能会疑惑政府机构发布的数据怎么会不准确呢这些问题乍看一下好像都没什么问题我们来通过具体案例看一下如果我们不够小心还是很可能就会踩入到陷阱里面去的

首先我们通过人口这个案例来看数据源中指标名称是准确的吗我们需要辨识数据源发布的指标是什么含义数据源真实表达的指标究竟是什么例如说人口数一般会分成常住人口和户籍人口常住人口一般可以理解成经常居住在某地超过6个月的人口户籍人口可以理解为像在户籍管理机构登记了常住户口的人

这个是2021年长春统计年鉴的一张表它里面公布了一个总人口这个总人口到底公布的是长春的户籍人口还是常住人口呢我们从年鉴里面找不到答案我们不知道这个时候我们也不能乱用我们需要去考证一下

这时候我们如果去看一下长春统计公报的话可以看到长春统计公报里面说年末全市户籍总人口为8534万人恰好和统计年鉴2020年的数据一致这个时候我们基本可以认定是长春统计年鉴公布的总人口就是户籍人口了我们为什么要这么纠结这么较真这些指标问题口径问题

我们来看这个案例这是北京市的常住人口和户籍人口的对比

可以看到2021年北京市常住人口接近了2200万2021年户籍人口大概是1400万这两者差距大概在800万不到800万这个时候如果我们用错了指标我们得出的结论肯定会出问题的我们再看一个案例

左边这张图是2019年宁夏统计年鉴公布的地方公共财政收入这里面有一个指标叫地方公共财政收入从2007年到2018年的数据我们都能找到右面这个图是2019年中国统计年鉴公布的分地区一般公共预算收入表这里面也能找到宁夏的地方一般公共预算的数据这两个指标是不是一个指标如果我们想要拿到宁夏地方一般公共预算收入的时间序列数据我们应该怎么办我们通过数据可以看一下宁夏统计年鉴公布的2018年数据和中国统计年鉴公布的宁夏2018年数据是一致的另外自2015年起财政部规定将公共财政收入统一改名为一般公共预算收入这个时候我们就知道因为它是做了一个改名而且数据一样我们就可以判断二者就是一个指标这样我们可以直接从宁夏统计年鉴获得宁夏历年的一般公共预算收入数据这说明伴随着统计制度和统计标准的一个更新同一个指标在不同年份的资料中名称可能是不同的我们掌握更多的统计知识后也就能甄别这些问题了下面我们来看一下这个地区口径不同数据源给出的名字相同的地区是一个吗我刚刚说这句话是什么意思我们可以看一下案例

左边这张图是2020中国人口和就业统计年鉴公布的伊犁哈萨克自治州的人口数人口数是291万人右边是中国民族统计年鉴公布的伊犁哈萨克自治州的人口数这里面是455万人这两个数据差异巨大这两个数据到底谁对谁错

为什么我们可以去看一下伊犁的人民政府网我们可以看到它里面有个说明说伊犁哈萨克自治州辖塔城阿勒泰2个地区和11个直属县市它是全国唯一既辖地区又辖县市的自治州

我们再回到这张表里可以看到中国人口就业统计年鉴里面的伊犁哈萨克自治州加上塔城地区再加上阿勒泰地区这三个地区加总恰好等于民族统计年鉴公布的伊犁哈萨克自治州的人口数这时候我们就知道这两本资料里面公布的数据其实也都对只是人口和就业里面伊犁自治州数据是不含塔城阿勒泰的而民族统计年鉴里面它是包含这两个地区的也就是说这两本资料公布的伊犁的数据的地区范围不同

第二个地区案例我们看一下安徽省芜湖市通过这个图我们可以看到芜湖市的常住人口数在2010年之前大概是一个平稳的状态但是到了2011年它突然间变大这个里面是否数据出现了错误呢

芜湖的土地面积同样在2010年有了一个极大的增长这又是什么原因造成的

通过查看民政部公布的中国行政区划变更信息我们发现在2011年底将原地级市巢湖市管辖的无为县划归给芜湖市管辖也就是说芜湖市它的管辖范围变大了在行政区划上它的管辖范围变大了所以2011年芜湖市的数据变大那是一个正常的现象通过这两个案例可以看到我们在使用各地区数据的时候我们可以关注一下地区的行政区划的变更情况更有利于得出严谨的结论

时间陷阱也就是说要识别统计资料内的指标数据的时间是什么我们来看这个案例这是2021年北京统计年鉴这本资料内的数据是2021年数据还是2020年数据

通过年鉴中的一个说明可以看到按照惯例书名中标注的年份为出版年份年鉴中最新数据为上一年数据例如北京统计年鉴2021表示该年鉴为2021年出版年鉴中的最新数据年份是2020年的是不是都是这样

我们再看这个案例河北省各地市的统计年鉴在河北省统计局的官网有明确的说明多数都遵循刚刚说的惯例但是有5个市州孝感仙桃潜江天门神农架这5个市州未能遵循此惯例实际统计数据时间和资料名称的时间一致例如2018年钱江统计年鉴的数据那就是2018年的数据来源方面的陷阱是什么呢

政府机构发布的数据就是准确的吗为什么会有这个问题政府机构发布的数据是准确的吗以前曾经有用户问过我们为什么你们的数据和政府数据不一样我们也很疑惑因为我们的数据也不是自己创造的也是采用了政府发布的公开数据那个时候经过我们和用户的沟通确认发现用户查看的所谓政府发布数据是一个很久以前的发布的数据而我们采用的是政府最新时间发布的数据所以这个问题其实就是指不同资料公布的同个指标同一时间的数据存在不一致

比如说他在2021年的中国统计文件里面公布的社会2019年社会消费品零售总额40万亿元

左边公报里边是41万亿元这两个数据它不一致我们应该怎么办呢对于这种新闻和年鉴不一致这种情况我们建议先使用年鉴的数据因为新闻出于时效性的原因一般公布的是初步核实数据统计机构会在之后公布最终核实数据并且也可能调整部分历史数据这些核实和调整数据会在统计年鉴上公布所以当碰到这种新闻公报数据和年鉴数据不一样的情况下我们建议优先使用最新发布的数据

例如此处左边这张图是2019年的成都市的常住人口数它是在统计公报上公布的是1658万人右边这张图是2021年成都统计年鉴公布的2019年的常住人口数是2000万人差异非常大什么原因

我们看一下这个程度统计年鉴这张表的解释它的注释说了根据第七次全国人口普查结果2010~2019年常住人口数有修正也就是说它根据人口普查调整了修正了历史数据这个时候我们就建议大家使用最新发布的数据

左边这张图我们来看一下来源的案例二左边这张图是普通中学在校生数的修文献这是修文献普通中学在校生数的时间序列数据这个时间序列数据我们是根据中国城市统计年鉴里面公布的修文献的普通中学在校学生数整理出来的这个时候我们看一下2016年8274红色的数据在整条时间序列里面是一个异常值它是为什么原因呢我们回到2017年中国城市统计年鉴去看这个数它也是8274这两个数据是一样的说明这个中间不存在什么人工的整理错误可能数据源就是这样究竟是什么原因呢我们又去找了贵州统计年鉴发布的数据我们可以看到贵州统计年级这张表里边公布了初中和高中的在校学生数8274恰好是修文县的初中在校学生数我们就知道一般中学包括初中和高中可能这一年恰好它在上报数据或者在制作数据的过程中只提供了初中的数据没有提供高中数据导致数据出现异常这个时候我们将这两方面的两个数据加总就可以得到一个正确的数据了我们来看一下一个来源的完整性案例

所谓这张图是内蒙古自治区地级区划2020年的GDP排名右面也是内蒙古自治区地级区划2020年的GDP GDP排名可以看到右边这张图比左边这张图多了锡林郭勒新安盟和阿拉善盟这三个盟的数据导致了排名出现变化

我们来看看这是什么原因左边这张图的数据是来自于中国城市统计年鉴而右边这张图的数据除了中国城市统计年鉴我们还采用了内蒙古统计年鉴的数据这个时候我们去看中国城市统计年鉴我们发现它里面只公布了293个地级市的数据但是根据2021年的中国行政区划统计表我们是有333个地级区划的里面包含293个地级市7个地区30个自治州以及三个盟三个盟恰好是这三个中国县域统计年鉴也有同样的问题县域统计年鉴里边公布了2091个县级区划的数据实际上我国在2021年的行政区划统计表可以看到我国的县级区划有2843个这中间差了700多个就可以看到这两本年鉴也没有列示出所有的事和解所以导致了一个完整性的问题最后到我们前面去学习了统计知识我们去了解了很多的陷阱我们尽量去规避统计陷阱

三、高质量统计数据的“涌现”
我们希望能够出现这种高质量统计数据的一个涌现

通过前面介绍我们了解足够的数据发布渠道也就是掌握足够多的数据源那通过了解统计知识规避认知陷阱进而不断的提高数据素养这两者产生的化学反应能够让我们尽可能的获得高质量的统计数据

下面我们做一个最后的简单的回顾我们如何获得高质量统计数据

首先我们要了解统计数据的发布形态发布渠道及其特点一般我们会分成国家级的统计机构和地方级的统计机构它的发布渠道可能会分成各省市县的统计年鉴新闻发布会统计摘要这方面的不同的发布形态然后我们要去了解一下整个搜集整理高质量统计数据中的一个注意事项比如说我们要规避认知陷阱我们要了解指标口径我们要学习统计制度我们了解地区口径我们要去仔细的去辨别这个时间问题以及数据差异统计数据回调引起的数据差异最终我们希望能够尽可能的达到高质量统计数据的理想状态好谢谢大家今天的讲座就到这里


已发布

分类

作者:

标签

评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注