- 相關推薦
2003年中國互聯(lián)網絡信息資源數(shù)量調查報告
信息資源數(shù)量調查報告 主持單位:國務院信息辦推廣應用組 承辦單位:中國互聯(lián)網絡信息中心 完成時間: 2004年2月 (本文圖均略) 目 錄 第一部分 調查背景 1 第二部分 調查說明 2 一、調查對象 2 二、調查內容 2 三、調查時間 3 四、有關概念 3 五、調查方法 4 六、調查問卷 7 七、組織單位 7 第三部分 調查結果 9 第一章 域名、網站數(shù)及地區(qū)分布 9 一、域名數(shù) 9 二、網站數(shù) 10 第二章 網站性質及服務內容 12 一、網站按性質分類 12 二、網站的基本情況 13 三、各類型網站信息服務內容及信息更新情況 29 第三章 網頁數(shù)量及性質特征 60 一、全國網站的網頁情況 60 二、國內前100家大型網站的網頁情況 63 三、全國網站的網頁與國內前100家大型網站的網頁情況比較 65 第四章 在線數(shù)據(jù)庫數(shù)量及性質 67 一、在線數(shù)據(jù)庫數(shù)量及各類網站擁有在線數(shù)據(jù)庫情況 67 二、在線數(shù)據(jù)庫按內容和記錄數(shù)分類情況 70 第五章 總結 79 一、域名統(tǒng)計 79 二、網站統(tǒng)計 79 三、網頁統(tǒng)計 85 四、在線數(shù)據(jù)庫統(tǒng)計 86 圖目錄 圖 1 地區(qū)域名數(shù)量分布 10 圖 2 www站點性質分類 10 圖 3 地區(qū)網站數(shù)量分布 11 圖 4 不同性質類型網站分布圖-餅狀圖 12 圖 5 不同性質類型網站分布圖-柱狀圖(%) 13 圖 6 平均每個網站每天的頁面訪問數(shù) 13 圖 7 網站每天的頁面訪問數(shù)-按類型分布 14 圖 8 企業(yè)網站每天的頁面訪問數(shù)-按行業(yè)分布(%) 15 圖 9 制造業(yè)企業(yè)網站每天的頁面訪問數(shù)(%) 16 圖 10 IT業(yè)企業(yè)網站每天的頁面訪問數(shù)(%) 16 圖 11 各類網站的網站鏈接情況 17 圖 12 各網站鏈接數(shù)的網站比例 18 圖 13 各類網站的信息主要來源情況 19 圖 14 各類網站提供的語種/文字閱讀情況 20 圖 15 各類網站提供全站信息搜索的情況 21 圖 16 各類網站的網頁上提供網站地圖的情況 21 圖 17 各類網站的網頁上提供聯(lián)系方式的情況 22 圖 18 各類網站服務器擁有情況 22 圖 19 擁有服務器的網站比例 23 圖 20 各類網站擁有服務器情況 24 圖 21 擁有服務器的各類網站所采用的操作系統(tǒng)情況 25 圖 22 負責網站運營的全職員工人數(shù)情況 26 圖 23 各類網站負責運營的平均全職員工人數(shù) 26 圖 24 各類網站負責運營的全職員工人數(shù)擁有情況 27 圖 25 網站的成立時間-餅圖 28 圖 26 提供各類信息服務的政府網站的比例 30 圖 27 政府網站交互性服務 31 圖 28 政府新聞更新周期 32 圖 29 政府職能/業(yè)務介紹更新周期 32 圖 30 統(tǒng)計數(shù)據(jù)/資料查詢更新周期 33 圖 31 法律法規(guī)/政策/文件更新周期 33 圖 32 辦事指南/說明更新周期 34 圖 33 辦公/業(yè)務咨詢信息更新周期 34 圖 34 政府通知/公告更新周期 35 圖 35 辦事進程狀態(tài)查詢更新周期 35 圖 36 企業(yè)/行業(yè)經濟信息更新周期 36 圖 37 便民生活/住行信息更新周期 36 圖 38 表格下載更新周期 37 圖 39 政府公告、新聞、政策等信息通過網站發(fā)布情況 37 圖 40 政府日常辦公事務與網站相關服務的結合程度 38 圖 41 提供以下信息服務的企業(yè)網站的比例 39 圖 42 提供以下交互服務的企業(yè)網站的比例 40 圖 43 企業(yè)網站信息總體更新情況 41 圖 44 企業(yè)介紹更新周期 41 圖 45 產品/服務介紹更新周期 42 圖 46 行業(yè)新聞更新周期 42 圖 47 企業(yè)動態(tài)更新周期 43 圖 48 售后服務/技術支持更新周期 43 圖 49 行業(yè)解決方案更新周期 44 圖 50 行業(yè)報告更新周期 44 圖 51 電子期刊更新周期 45 圖 52 招聘信息更新周期 45 圖 53 企業(yè)網站的行業(yè)分布 46 圖 54 制造業(yè)中各類網站的分布 47 圖 55 IT業(yè)中各類網站的分布 47 圖 56 企業(yè)產品、服務、企業(yè)新聞等信息通過網站發(fā)布情況 48 圖 57 企業(yè)業(yè)務與網站的結合程度 48 圖 58 提供各類服務的商業(yè)網站的比例 50 圖 59 提供各類信息的商業(yè)網站的比例 51 圖 60 商業(yè)網站總體信息更新情況 52 圖 61 商業(yè)網站新聞更新周期 52 圖 62 商業(yè)網站產品信息更新周期 53 圖 63 商業(yè)網站貿易信息更新周期 53 圖 64 商業(yè)網站企業(yè)信息更新周期 54 圖 65 商業(yè)網站科技信息更新周期 54 圖 66 商業(yè)網站教育信息更新周期 55 圖 67 商業(yè)網站招聘信息更新周期 55 圖 68 商業(yè)網站金融財經信息更新周期 56 圖 69 商業(yè)網站房地產信息更新周期 56 圖 70 商業(yè)網站汽車信息更新周期 57 圖 71 商業(yè)網站休閑娛樂信息更新周期 57 圖 72 商業(yè)網站生活服務信息更新周期 58 圖 73 商業(yè)網站體育信息更新周期 58 圖 74 商業(yè)網站醫(yī)療健康/保健信息更新周期 59 圖 75 商業(yè)網站文學藝術信息更新周期 59 圖 76 商業(yè)網站旅游交通信息更新周期 60 圖 77 商業(yè)網站交友征婚信息更新周期 60 圖 78 全國網站的靜動態(tài)網頁數(shù) 61 圖 79 網頁的更新周期 62 圖 80 全國前100家大型網站的動靜態(tài)網頁數(shù) 63 圖 81 全國前100家網站的網頁更新周期 64 圖 82 前100家大型網站與全國網站的網頁更新周期 66 圖 83 各類網站擁有的在線數(shù)據(jù)庫數(shù)和占全部在線數(shù)據(jù)庫的比例 67 圖 84 各類網站擁有在線數(shù)據(jù)庫的比例 68 圖 85 各類網站/平均每個網站擁有數(shù)據(jù)庫數(shù)量情況 69 圖 86 各類網站平均擁有在線數(shù)據(jù)庫數(shù)量情況 69 圖 87 擁有不同在線數(shù)據(jù)庫數(shù)的網站比例 70 圖 88 擁有各類在線數(shù)據(jù)庫的網站比例情況 71 圖 89 各類在線數(shù)據(jù)庫平均擁有的記錄數(shù) 72 圖 90 各類在線數(shù)據(jù)庫的更新周期情況 73 圖 91 各類在線數(shù)據(jù)庫的每次更新比率情況 75 圖 92 各類網站在線數(shù)據(jù)庫具有其它載體情況 76 圖 93 各類網站在線數(shù)據(jù)庫具體載體形式 76 圖 94 在線數(shù)據(jù)庫收費情況 77 圖 95 在線數(shù)據(jù)庫面向對象情況 78 表目錄 表 1 調查內容和指標 2 表 2 地區(qū)域名數(shù)量分布 9 表 3 www站點性質分類 10 表 4 地區(qū)網站數(shù)量分布 11 表 5 各類網站的網站鏈接情況 17 表 6 各類網站的信息主要來源情況 18 表 7 各類網站提供的語種/文字閱讀情況 20 表 8 各類網站擁有服務器情況 23 表 9 擁有服務器的各類網站所采用的操作系統(tǒng)情況 25 表 10 各類網站負責運營的平均全職員工人數(shù)擁有情況 27 表 11 網頁數(shù)及網頁字節(jié)數(shù)情況 61 表 12 網頁的編碼情況 62 表 13 網頁的內容分類情況(按多媒體形式) 62 表 14 網頁的更新周期情況 62 表 15 前100家網站的網頁數(shù)及網頁字節(jié)數(shù)情況 63 表 16 前100家網站的網頁編碼情況 63 表 17 前100家網站的網頁內容分類情況(按多媒體形式) 64 表 18 前100家網站的網頁更新周期 64 表 19 在線數(shù)據(jù)庫數(shù)量及分布情況 67 表 20 各類網站擁有在線數(shù)據(jù)庫情況 68 表 21 擁有各類在線數(shù)據(jù)庫的網站比例情況 70 表 22 各類在線數(shù)據(jù)庫平均擁有的記錄數(shù) 71 表 23 各類在線數(shù)據(jù)庫的更新周期情況 73 表 24 在線數(shù)據(jù)庫的每次更新記錄比率情況 74 表 25 在線數(shù)據(jù)庫的載體情況 75 表 26 各類網站在線數(shù)據(jù)庫具體載體形式 76 表 27 在線數(shù)據(jù)庫收費情況 77 表 28 在線數(shù)據(jù)庫面向對象情況 78 第一部分 調查背景 信息資源是國家的戰(zhàn)略資源,它在國民經濟信息化中位于核心的地位。正確開發(fā)、利用信息資源對促進我國信息化的快速發(fā)展,導正我國信息化的發(fā)展方向,拉動國民經濟和社會發(fā)展,提高全民族的文化素質和創(chuàng)新能力,促進社會進步和繁榮,實施西部大開發(fā)戰(zhàn)略等方面有著十分重要的意義。 互聯(lián)網絡信息資源是信息資源的重要組成部分,自從20世紀90年代中期開始,互聯(lián)網在我國迅猛發(fā)展,網上中文信息資源快速增長,到2002年12月31日,全國在線數(shù)據(jù)庫達到82929個,共15709萬個網頁,2744G數(shù)據(jù)量。網上政府信息、行業(yè)和企業(yè)信息、科技教育信息、文化娛樂信息、新聞信息、旅游信息、區(qū)域特色信息等均已形成一定規(guī)模。 隨著互聯(lián)網絡的飛速發(fā)展,我國互聯(lián)網絡信息資源得到了很大的發(fā)展,但是我國互聯(lián)網絡信息資源不斷進展的同時,存在一些問題需要重視。例如,網絡和數(shù)據(jù)庫存在大量低水平重復建設,難以實現(xiàn)互聯(lián)共享;信息資源的開發(fā)滯后應用,存在大量信息孤島現(xiàn)象等。因此,加大對我國互聯(lián)網絡信息資源開發(fā)和利用的引導力度,迫在眉睫。 為加深政府對我國互聯(lián)網絡信息資源開發(fā)和利用情況的把握,包括信息資源的存量、增量以及地區(qū)和行業(yè)分類特征等,為加快制定有關信息資源發(fā)展政策和措施提供重要參考依據(jù),促進政府對信息資源開發(fā)的有力引導,促進我國互聯(lián)網絡信息資源的充分利用,國務院信息化工作辦公室決定對我國各行、各業(yè)、各地區(qū)互聯(lián)網絡信息資源數(shù)量情況進行全面調查。 本次調查是我國互聯(lián)網絡信息資源的第三次數(shù)量調查,開始于2003年12月,結束于2004年2月,歷時3個月。在保持與前二次調查有一定連續(xù)性、借鑒前二次調查成功經驗的基礎上,在調查方法、調查深度、結果分析等方面有所創(chuàng)新。本次調查初步探索了我國互聯(lián)網絡信息資源發(fā)展中的問題和規(guī)律,為我國政府進一步正確引導互聯(lián)網絡信息資源的開發(fā)利用提供了重要參考。 第二部分 調查說明 一、調查對象 所有域名注冊單位屬于中國(不包括香港、澳門、臺灣)的網站總和,包括.COM,.NET,.ORG和.CN域名(含ORG.CN,GOV.CN,EDU.CN等)下的所有網站。 二、調查內容 表 1 調查內容和指標 指標 數(shù)據(jù)來源 備注 域名數(shù)量 CNNIC數(shù)據(jù)+注冊商上報 網站數(shù)量 CNNIC數(shù)據(jù)+注冊商上報 網頁數(shù)量 計算機自動搜索 在線數(shù)據(jù)庫數(shù)量 問卷調查 域名 各地區(qū)域名分布狀況 CNNIC數(shù)據(jù)+注冊商上報 網站 各地區(qū)網站分布狀況 CNNIC數(shù)據(jù)+注冊商上報 按照省級行政區(qū)域劃分 各種性質的網站分布狀況 按照網站的域名特征劃分 主要類型網站提供的服務 問卷調查 政府、商業(yè)、企業(yè) 各行業(yè)網站分布狀況 按照標準行業(yè)分類法 網站相關特征 每天頁面訪問數(shù) 服務器擁有情況 網站的鏈接數(shù) 網站的員工數(shù) 網站成立時間 頻道數(shù) 網站版本 網站的可訪問性 網站地圖等 安全性 防火墻、操作系統(tǒng)等 網站效果指標 信息發(fā)布 可用性度量 業(yè)務結合 網頁 網頁按內容形式分類比例 計算機搜索 包括圖像、音頻和視頻 網頁按性質分類比例 政府、企業(yè)、商業(yè)等 網頁按地域分布比例 省域及七大區(qū)分布 網頁長度 以字節(jié)數(shù)計算 網頁的更新周期 網頁編碼狀況 簡、繁體中文、英文等 在線數(shù)據(jù)庫 按性質分類比例 問卷調查 政府、企業(yè)、商業(yè)網站等 按地域分布比例 華北、華南等七大區(qū)分布 按內容分類比例 產品、科技信息數(shù)據(jù)庫等 按形式分類比例 圖形文字數(shù)據(jù)綜合等 按使用情況分類比例 分自用和公用 公用下分免費和收費 收費下分收費方式 按服務方式分類比例 面向終端用戶或中介 在線數(shù)據(jù)庫更新狀況 - 數(shù)據(jù)庫容量 物理存儲量(G) 是否同時具有其它載體 否、是(光盤、紙質等) 三、調查時間 調查時間:2003年12月-2004年2月;數(shù)據(jù)截至時間:2003年12月31日。 四、有關概念 1. 在本次調查中,中國互聯(lián)網絡信息資源定義為:中國互聯(lián)網絡上公開發(fā)布的網頁和在線數(shù)據(jù)庫的總和。 2. 中國互聯(lián)網絡是指所有域名注冊單位屬于中國大陸的網站總和。 3. 在線數(shù)據(jù)庫是指以Web為界面,提供公共檢索的收費或免費的數(shù)據(jù)庫。 4. 網站是指有獨立域名的web站點,其中包括CN和通用頂級域名(gTLD)下的web站點。此處的獨立域名指的是每個域名最多只對應一個網站WWW.+域名,如:對域名sina.com.cn來說,它只有一個網站 www.sina.com.cn ,并非它有news.sina.com.cn、mail.sina.com.cn……等多個網站。 5. 商業(yè)網站指業(yè)務主要在網上進行的電子商業(yè)網站,如新浪、搜狐、網易等網站;企業(yè)網站是相對于商業(yè)網站而言,指業(yè)務主要在網下進行的企業(yè)所建立的網站,如聯(lián)想集團的網站 www.lenovo.com.cn 。 6. 網頁搜索是指對抽取的網站從其首頁(WWW+域名)開始搜索,通過網頁上的層層鏈接,抓取所有屬于該網站的網頁的特征及其文本內容。 7. 靜態(tài)網頁是指URL中不含?和輸入?yún)?shù)的網頁,包括:*.htm、*.html、*.shtml、*.txt、*.xml等。 8. 動態(tài)網頁是指URL中含?或輸入?yún)?shù)的網頁,包括:ASP,PHP,PERL,CGI等在Server方進行處理的網頁。 9. 網頁的編碼形式:是根據(jù)網頁本身的信息通過分析得到的,不是通過一篇網頁在HTML中的聲明來判斷的。因為大量國內的英文網頁在其HTML聲明中都是簡體中文。 10. 網頁的內容形式:是通過文件后綴獲得的。關于圖像、音頻、視頻的文件后綴定義標準參考MIME標準。 11. 網頁的更新情況:網頁的更新時間是指搜索到該網頁的當日日期與該網頁的最后更新日期之間的時間段。 五、調查方法 (一)數(shù)據(jù)獲取方式和渠道 域名和網站的總量數(shù)據(jù)通過國內各國際域名注冊商和CNNIC聯(lián)合獲得。 網頁的特征數(shù)據(jù)由百度公司利用搜索技術對全國網站進行搜索獲得。搜索時通過URL判斷同一網頁是否有多個鏈接指向,避免了對這類網頁的重復計算,通過判斷不同網站的IP地址和首頁字節(jié)數(shù)是否相同,排除了不同域名指向同一網站的情況。 網站的特征數(shù)據(jù)及在線數(shù)據(jù)庫的特征數(shù)據(jù)通過Call Center電話問卷調查的方式獲得。 (二)調查問卷的抽樣方法 1.總體界定 按照對中國互聯(lián)網絡信息資源的定義(中國互聯(lián)網絡上公開發(fā)布的網頁、在線數(shù)據(jù)庫的總和),同時考慮到未注冊域名而提供服務的網站數(shù)量較少以及調查的難度,本次調查中所指的總體為:中國(不包括香港、澳門、臺灣地區(qū))所有已注冊域名的網站,包括.COM,.NET,.ORG和.CN域名(含ORG.CN,GOV.CN等)下的所有網站。 2.抽樣框 關于抽樣框,最直接的作法是選擇抽樣框為全國有域名的網站名錄。由于保密性的原因,抽樣過程需要委托各域名注冊/代理商完成,從方便實施并提高數(shù)據(jù)精度的角度考慮選擇抽樣框為全國(不含港、澳、臺)范圍內的域名名錄。 由于一個網站可能會有兩個或兩個以上域名,而有的域名沒有建立網站。這樣對于總體而言,就出現(xiàn)了抽樣框單位沒有對應的抽樣單位、抽樣框單位和抽樣單位不一一對應等問題。對此,考慮采用排除、事后加權等方法來解決。 3.抽樣方法 本次調查的抽樣方法采用分層按比例抽樣:考慮到各域名類別下網站特征的差別,首先按域名類別分層;之后在每個類別內采用定距抽樣的方法來抽取樣本,最后對調查結果進行事后加權處理以估計全國范圍的估計量。下面分階段敘述抽樣方法: 第一階段:將樣本量分到各層 因為到目前(2003年11月)為止只有截止2003年6月30日的全國范圍的域名數(shù)的情況;同時考慮到我們主要是利用各類別域名數(shù)之間的比例關系來確定樣本量在各層的分配,而這種關系應該不會有較大的變化。因此本方案按照截止2003年6月30日的各類別域名數(shù)占全國域名總數(shù)的比例將樣本總量分配到各域名類別。 第二階段:將樣本量分配到各域名注冊/代理商 抽樣過程由域名注冊/代理商按照抽樣辦法(由中國互聯(lián)網絡信息中心提供)抽取指定數(shù)量的域名作為樣本。樣本按照各域名注冊/代理商所注冊擁有的域名數(shù)的比例進行分配。具體計算辦法如下: M ij =Mj×(Nij /Nj) 其中:M ij表示第i家域名注冊/代理商所應抽取第j類的域名數(shù),M j表示第j類應抽取的域名樣本數(shù),Nij表示第i家域名注冊/代理商所擁有第j類的域名總數(shù),Nj表示第j類的域名總數(shù)。 第三階段:各家域名注冊/代理商抽取域名樣本 考慮到盡可能簡化各域名注冊/代理商抽取樣本的工作量和保證抽樣的精度,要求各域名注冊/代理商在整理了域名名錄(抽樣框)后采用等距抽樣,抽取樣本步驟如下: 步驟1:分組 以域名的類別為單位對域名名錄進行分組。 步驟2:排序 由域名注冊/代理商對其抽樣框(域名名錄及相關信息)內各組域名首先按照域名注冊單位所屬省份排序,進而在域名注冊單位所屬省份下按域名注冊先后時間進行排序。 步驟3:編號 對各組內完成排序的域名進行編號。域名注冊單位所屬省份排序和編號規(guī)則規(guī)定如下: 序號 省市區(qū) 序號 省市區(qū) 序號 省市區(qū) 序號 省市區(qū) 1 北京 9 上海 17 湖北 25 云南 2 天津 10 江蘇 18 湖南 26 西藏 3 河北 11 浙江 19 廣東 27 陜西 4 山西 12 安徽 20 廣西 28 甘肅 5 內蒙古 13 福建 21 海南 29 青海 6 遼寧 14 江西 22 重慶 30 寧夏 7 吉林 15 山東 23 四川 31 新疆 8 黑龍江 16 河南 24 貴州 步驟4:抽取樣本 以第i個域名注冊/代理商、抽取第j類樣本的過程為例敘述如下。第i個域名注冊/代理商在第j組域名列表中抽取出指定數(shù)量的Mij個域名作為其提供的第j類域名的樣本,抽取的規(guī)則如下:首先計算一個抽樣距離XIJ(XIJ=Round(nij/Mij)),XIJ為第i個域名注冊/代理商在第j類樣本中的抽樣間距,然后隨機從1到nij中選出一個數(shù)S,那么編號為P=S+k*Xij(k=0、1、2、3 M ij-1)的域名即為被抽取的樣本域名(當P>nij時,取P=P-nij)。 其他組的樣本抽取過程類似,將各組中抽取到的樣本綜合到一起可組成第i個注冊/代理商應抽取的樣本。 步驟5:獲取樣本相關資料 將以上步驟所抽取的樣本域名及其相關信息(包括:域名、域名類型、域名注冊時間、域名所屬單位、域名單位所在地、域名聯(lián)系人、聯(lián)系電話等)存為Excel工作表文件。格式如下: 序號 域名 域名類型 域名注冊時間 域名所屬單位 域名單位所在地 聯(lián)系人及聯(lián)系方式 1 cnnic.net.cn Net 北京 將所有注冊/代理商提供的樣本合并即成為調查所需樣本。 六、調查問卷 本次問卷調查的有效網站樣本數(shù)為2492個,在置信度為95%的精度要求下,可保證最大允許絕對誤差小于2%。 調查問卷時間為2003年12月-2004年2月。問卷所采集數(shù)據(jù)的相應記錄時間為2003年12月31日。 七、組織單位 1、委托單位: 國務院信息化工作辦公室 2、實施單位: 中國互聯(lián)網絡信息中心(CNNIC) 3、協(xié)助單位(按字母排序): 百度在線網絡技術(北京)有限公司 北京東方網景信息科技有限公司 北京信?萍及l(fā)展公司 北京信諾立興業(yè)網絡通信技術有限公司 創(chuàng)聯(lián)萬網國際信息技術(北京)有限公司 東方通信股份有限公司 搜狐愛特信信息技術(北京)有限公司 廈門必信電腦網絡有限公司 廈門精
[1] [2] [3] [4] [5] 下一頁
【中國互聯(lián)網絡信息資源數(shù)量調查報告】相關文章:
中國互聯(lián)網絡熱點調查報告08-12
理性地看待中國網民數(shù)量08-05
數(shù)量的表示08-17
從互聯(lián)網絡到視覺傳達08-06
因特網與教育信息資源的開發(fā)08-07
信息資源:特點·價值·機制08-05
感知6以內的數(shù)量08-16
中國健康調查報告08-23
中國夢調查報告08-24