龙空技术网

儿童产品伤害网络文本大数据关键挖掘方法与应用研究

昭华文史 78

前言:

目前姐妹们对“数据挖掘关键技术研究”大概比较关注,兄弟们都需要剖析一些“数据挖掘关键技术研究”的相关文章。那么小编也在网上汇集了一些有关“数据挖掘关键技术研究””的相关内容,希望你们能喜欢,大家快快来了解一下吧!

儿童产品伤害是一个重要的公共卫生与安全问题,网络文本大数据可提供传统产品伤害监测系统未搜集但又有价值的补充信息,对儿童产品伤害防控意义重大。

然而,如何从充满噪音的网络文本大数据中准确定义、自动筛选、提取并挖掘儿童产品伤害防控信息等关键科学问题目前仍未得到解决

本研究拟基于伤害流行病学和大数据等理论与方法,构建儿童产品伤害网络文本大数据筛选、自动分类和信息提取的理论方法与技术模型,探讨儿童产品伤害网络文本大数据对儿童产品伤害防控的核心应用价值。

儿童产品伤害网络中文文本大数据检索、筛选与信息提取标准研制

儿童产品伤害的发生不是随机、偶然和不能避免的,而是有因可究、有迹可循且可以采取一定的措施进行预防和控制的。

人(儿童)、消费品(产品)和伤害发生地点这三个基本要素在各种环境下组成了儿童产品伤害事件发生的基本成因,而儿童产品伤害及其预防的构成离不开以下几大要点。

伤害发生时,能量(包括机械力、电流、气温、气压等)在消费品(产品)或环境与人(儿童)之间发生转移。

伤害预防的目标是减轻或消除能量的转移,从而达到预防伤害或减小伤害的严重程度的目的。

伤害是由人(儿童)、消费品(产品)、伤害发生的场所和自然社会环境之间的相互作用造成的。

伤害的发生过程包括伤害事前(具备触发能量转移的基本条件)、事中(能量发生转移的经过)、事后(能量转移后发生的事件)等三个阶段。

儿童产品伤害的三大要素及三个基本阶段共同组成了儿童产品伤害预防的Haddon矩阵,针对不同要素和不同阶段,通过结合伤害流行病学、卫生统计学和产品伤害防控策略进行干预可有效防控儿童产品伤害,从而降低和减少儿童的伤亡和儿童产品伤害带来的损失。

及时、丰富全面、高质量的流行病学信息监测数据是了解儿童产品伤害特征、制定伤害防控政策和干预措施的基础。

随着我国生产力和经济化水平的提高,新型的儿童产品伤害类型和产品伤害原因日益增长,如,磁力巴克球、水晶泥、电动平衡车、儿童滑板车等相关产品伤害、以及因产品安装、使用或存储不当所造成的产品伤害。

然而,鉴于传统产品伤害信息监测系统的信息变量类型和数据更新速度较慢,数据的采集模式较为固定,因此在获取新发伤害事件和产品伤害类型等数据时存在一定的劣势

如,由于国家统计局制定的统计用产品分类目录中与儿童玩具相关的产品种类仅涵盖了儿童骑乘玩具,比如,婴儿学步车、电动童车、儿童自行车等。

填充类玩具、玩偶及其零配件和装饰物品、仿真模型及其附件、塑胶玩具、木制玩具、玩具乐器以及其他玩具等几种产品类型。

因此在基于统计用产品分类目录开展的国家产品伤害信息监测系统中,儿童产品伤害事件类型也只包含了以上几大产品类型相关的伤害事件,未涵盖磁力巴克球、水晶泥、电动平衡车、儿童滑板车等新型产品类型相关的伤害事件信息。

相较于传统产品伤害信息监测数据,网络大数据具有数据类型多样化、容量大、动态实时更新、对公众免费开放等优点,能够提供传统产品伤害信息监测系统尚未纳入的信息变量。

比如,新兴产品类型(磁力巴克球、电动平衡车等)相关的儿童产品伤害数据,可丰富儿童产品伤害相关监测信息。

构建标准化、规范化的儿童产品伤害理论框架与儿童产品伤害中文文本数据检索、文本筛选以及文本特征(变量)信息提取的标准及策略,是开展后续的儿童产品伤害网络文本大数据的分类、提取及应用的参考依据

本章拟针对现阶段缺乏将网络文本大数据应用于儿童产品伤害防控领域的方法学难题,通过借助文献复习法、专题小组讨论法和专家咨询法等方法。

参考第10版国际疾病分类编码(ICD-10)、统计用产品分类目录中针对儿童产品伤害的伤害分类及产品类型,基于伤害流行病学中与儿童产品伤害相关的Haddon矩阵基本理论。

《全国伤害监测报告卡》(产品伤害监测用)、产品标准技术指标索引分类与代码(GB/T35415-2017)以及《中华人民共和国产品质量法》、《儿童玩具召回管理规定》等标准和规定。

并参照已有的儿童伤害、道路交通伤害、医患暴力伤害、脑外伤等伤害类型相关的文本分析研究,构建儿童产品伤害新闻报道的文本检索策略、文本筛选的纳入与排除标准、新闻报道文本特征(变量)及其流行病学分类标准和儿童产品伤害相关关键词词库。

为儿童产品伤害新闻文本数据的检索、筛选、提取、研究与应用提供规范化标准和专业理论基础。

基于文献复习法获取儿童产品伤害相关定义

通过限定检索时间、文献发表时间和数据库范围检索儿童产品伤害数据相关研究文献。

其中,文献检索来源涵盖美国生物医学信息检索系统(PubMed)、生物医学综合研究数据库(Embase)、循证医学数据库(TheCochranLibrary)、科学引文索引(WebofScience)等外文数据库。

中国生物医学文献服务系统(SinoMed)、维普数据库(VIP)、万方数据库(WanFang)、中国知网(CNKI)等中文数据库,本研究以“child”、“product”、“consumer”、“injury”、“儿童”、“产品”、“消费者”、“伤害”等组合为关键词检索。

以主题词、副主题词、标题、摘要等为检索字段实施检索。另外,通过登录相关国际组织和研究机构的官方网站以及国内外常用的搜索引擎等进行网络在线检索。

主要包括世界卫生组织(WorldHealthOrganization,WHO)、联合国儿童基金会(UnitedNationsInternationalChildren'sEmergencyFund,UNICEF)、美国疾病与预防控制中心(CentersforDiseaseControlandPrevention,CDC)。

中国国家CDC、国家市场监督管理总局缺陷产品管理中心、中国国家标准化管理委员会以及Google、Baidu等,通过采用和文献检索相同的关键词实施检索。

基于文献复习法制定初步纳入与排除标准

通过检索儿童产品伤害相关定义及分类,获取《消费品分类与代码》(GB/T36431-2018)标准中“产品(消费品)”的定义。

《现代公共卫生》中基于伤害外部原因进行划分的“伤害”分类以及《伤害流行病学》中根据产品(消费品)对人所造成伤害的原因进行划分的“产品伤害”分类

采用人工预检索的方式,考查儿童产品伤害新闻报道文本的表述特点,制定初步的儿童产品伤害新闻报道文本筛选的纳入与排除标准。

基于专题小组讨论文本筛选的纳入与排除标准的制定通过预检索获取儿童产品伤害事件相关新闻报道文本,基于相关定义、分类标准以及具体操作可行性对其进行初步的分类评判。

针对预评判过程中出现的与纳入与排除标准相关的问题,本研究通过采取组织专题小组讨论的方法对提出的问题进行针对性的探讨,经过整理和分析后,最终确定本研究中儿童产品伤害新闻报道文本筛选的纳入与排除标准。

待提取文本特征(变量)及其流行病学分类标准

通过检索儿童产品伤害相关文献资料及标准技术指标,获取以下相关理论知识:ICD-10及伤害外部原因对“伤害”的分类;《伤害流行病学》中“产品(消费品)伤害”的分类;Haddon伤害矩阵中“儿童产品伤害”的病因学分析。

《全国产品伤害监测报告卡》中列举的产品伤害监测报告基本条目;《消费品分类与代码》(GB/T36431-2018)标准和统计用产品分类目录中列举的“产品(消费品)”的分类。

《产品标准技术指标索引分类与代码》(GB/T35415-2017)标准中列举的产品相关标准技术指标;《中华人民共和国产品质量法》、《儿童玩具召回管理规定》等产品质量及安全相关法规中列举的产品缺陷等产品质量相关的违法条例。

以及既往文献中伤害相关文本研究。本研究从儿童产品伤害事件发生的三个阶段和基本要素等两个角度制定待提取的文本特征(变量)及其流行病学分类标准,形成初步的文本特征(变量)及其流行病学分类标准。

基于专题小组讨论文本特征(变量)及分类标准的制定基于初步制定的文本特征(变量)及其流行病学分类标准对文本分类预评判后的儿童产品伤害相关文本进行特征(变量)信息预提取。

针对预提取过程中出现的问题通过组织一轮专题小组讨论对提出的问题进行有针对性的探讨,并对专题小组讨论后的记录进行整理和分析。

基于专家咨询法讨论后确定最终的标准

鉴于涉及的文本特征(变量)及分类标准条目较多,本研究通过进一步开展一轮专家咨询座谈会对专题小组讨论中未解决的问题。

制定的文本特征(变量)及其流行病学分类标准再次进行有针对性的探讨,并对专家咨询座谈会相关记录进行整理和分析,形成最终的文本特征(变量)提取及分类标准。

专家咨询法的基本介绍如下:专家咨询法属于定性评价的常用方法,一般采用座谈会的形式开展,通过邀请与研究主题方向有关的专家对每项条目的重要性、可能性、完整性和关联性等进行讨论,从而达成一致的意见。

基于文献复习法制定初步关键词词库

通过检索相关文献、查找科研学术工具、相关网站平台等,获取以下资料:已有的伤害相关文本研究中涉及的伤害相关词。

汉典在线字典、搜狗和百度输入法词库中包含的儿童产品伤害事件相关词;哈尔滨工业大学《大词林(BigCilin)》、知网(HowNet)文本词库、CSC中文语义词库的近义词相似度计算和同义词词集。

基于Python3.7调用的Synonyms中文同义词/近义词工具包;淘宝网等消费品网站中涉及典型儿童相关产品,以及人工针对儿童产品伤害在各大媒体网站平台中的初步检索结果。

本研究对基于文献复习法获取的儿童产品伤害核心关键词和前期制定的待提取文本特征(变量)及其流行病学分类标准进行同义词/近义词/网络词扩展,形成初步的儿童产品伤害相关关键词词库。

结语

本研究通过采取组织专题小组讨论的方法对儿童产品伤害相关关键词词库制定过程中涉及的典型问题进行针对性的探讨,经过资料整理和分析后,最终确定本研究的儿童产品伤害相关关键词词库。

标签: #数据挖掘关键技术研究 #数据挖掘的关键 #文本与数据挖掘司法案例