第1章 绪 论
本章详细介绍了课题背景及研究的目的意义、此课题的国内外研究现状、本文研究的主要内容和本文的组织结构,为接下来的研究内容做出了理论上的铺垫。
1.1 课题背景及研究的目的意义
本课题源于黑龙江云算通网络科技有限公司内一款面向剧组的大型在线ERP 系统,该系统用于统筹电影拍摄过程中所有的人、人员、资金和物品(包括道具、拍摄工具等),此系统是该 ERP 系统的子系统。随着经济的发展,国民的物质生活水平得到了进一步的提高,同时也刺激了文化娱乐市场的繁荣。电影作为文化娱乐市场的重要组成部分也是消费者进行文娱消费的重要途径,仅 2016 年内地电影票房就达到了 457.12 亿元,观影人次达到了 13.72 亿,所以,电影产业发展的顺利与否直接关系到国家文化产业的发展。如今,电影行业的发展蒸蒸日上,计算机技术的快速发展使得利用数字影像技术[3]拍摄电影逐渐成为主流,这也导致电影拍摄成本越来越高,就每一部电影而言,有的可以达到几千万甚至是上亿的票房,而有的电影还没到公映就夭折在摄影棚里,这无疑会导致巨大的经济损失[4]。所以,提前预测票房无论对于电影行业投资者还是电影拍摄者都有着重要的意义。然而电影在拍摄过程中面临的多种风险,电影亏损时常发生,如 2016 年底上映的《长城》这部电影亏损达到 5.5 亿元。如何保证电影不亏损以至盈利是电影产业发展所必须面对的关键课题。解决电影亏损问题的一个关键途径就是让保险行业参与到电影拍摄的过程中来,保险公司通过与制片公司签订完片担保协议来监管剧组拍摄电影过程,达到降低电影亏损风险的目的。这种保险公司参与电影拍摄的模式在好莱坞电影产业中已经非常完备,在美国有专门的保险公司如消防员基金保险公司专门提供电影类的保险,而且险种丰富,但大体可以分为三类:一是电影完片保险,完片保险是电影保险中极为重要的一个险种,指的是电影在预定资金和时间范围内完成拍摄,这是避免亏损的关键一步;二是对参与电影拍摄人员的人身安全保险,如电影《速度与激情 7》在拍摄过程中主要演员保罗·沃克不幸因车祸去世,而该电影在开拍前已经投保,所以损失很大一部分由保险公司承担[5];三是对电影拍摄关键物资的保险,如胶片、录像带、拍摄工具等,在电影《谍影重重 3》的拍摄过程中,消防员基金保险公司就为其拍摄胶片承保,因为拍摄地点经常变更,制片方担心胶片在过海关时因 X 光扫描而受损[6]。综上,保险行业参与电影拍摄过程是电影深入产业化发展的必经之路。目前市场上几乎还没有可以供保险公司使用的用于监控剧组并预测电影拍摄风险的软件系统,所以研发一款这样的系统具有重要的意义:一是有效的票房预测可以降低电影拍摄亏损的风险;二是对拍摄剧本进行安全性评估用于保险公司和剧组协调拍摄方式,可以有效保障参与电影拍摄人员的人身安全;三是对剧组资金使用进行监管可以保障在预算内完片;四是对在保物品的监控可以保障电影拍摄的顺利进行。在美国现行的电影保险模式中,一般都是保险公司派专人常驻剧组来监控剧组的拍摄行为,这种模式费时费力,如果使用软件系统来完成这一任务,不但可以节省人力资源还节省花销,同时一个保险公司业务员可以通过系统来监控多个剧组情况,极大地提高了工作效率。
..........
1.2 国内外相关研究现状
目前国内外主流的预测算法有很多,有基于统计的多元线性回归算法,基于机器学习的算法,比如 K 近邻算法(KNN)、支持向量机(SVM)、人工神经网络(ANN)等。K 近邻算法最早由 Cover T,和 Hart P[8]提出,在 K 近邻算法中,把数据样本视为 n(n 取决于样本的数据维度)维空间里的点,把样本数据进行分类,这一部分样本就是机器学习中的训练样本,当进行测试时,第一步需要计算待分类的数据与样本空间里面所有点的内积,选出与待分类数据内积最小的 K(K 的取值一般不大于 20)个点,在这 K 个点中,如果多数点属于某一类,那么这个待分类的数据也属于这一类,并以此作为依据做预测。K 近邻算法从本质上讲是依赖于极限定理。K 近邻算法不仅可以用于分类,还可以基于数据样本做回归,例如定义权值为内积的倒数,根据一个样本周围 K 个邻居的权值即可写出回归方程,更简单一点,如果 K 近邻算法用于描述样本特点,可以求出一个样本周围K 个邻居的平均值,用来描述此样本。在 K 邻近算法中,K 值的选择对算法的结果会产生重大影响,如果 K 值较小,表明样本空间只有与输入实例非常近似的训练实例才能起作用,这一点很容易发生过度拟合;如果 K 值选取过大,虽然泛化能力增强了,但是样本空间中离实例很远的点对预测也起到了作用,这会直接导致预测结果错误。
..........
第2章 电影拍摄风险预测系统的需求分析
2.1 需求分析
系统需求风险包含两个部分,第一部分是系统的功能需求,第二部分是系统的非功能需求。系统的非功能性需求是对系统开发和运行时要达到什么样的程度进行定义,电影拍摄风险预测系统的非功能需求有以下几点:(1)准确性:票房预测在测试集上的分类准确率高于 70%,剧本拍摄风险预测与人为评估结果基本相符,误判率(不危险的拍摄镜头被判断为危险的)低于15%,错判率(危险的镜头被判断为不危险的)低于 5%;(2)可读性:由于前端网站和后端服务的代码量较大,需要保证其他开发者能够迅速理解代码含义,中文注释及文档必不可少;(3)扩展性:模块之间的代码尽量减少耦合度,以保证代码具有良好的扩展性,能够随时更新接受新的用户需求;(4)独立性:在系统还未集成到 ERP 系统中之前,要配备后台模拟系统,用于模拟 ERP 系统中的业务,使系统具有较高的独立性又便于嵌入到 ERP 系统中去;(5)可操作性:系统操作要简单易行,在关键的输入处要有必要的提示,避免给用户造成误解。
........
2.2 关键技术
系统在开发阶段使用 myeclipse 集成开发环境在 JSP+Servlet+Tomcat 模式下进行开发,在实现关键业务时涉及到的技术有自然语言处理相关技术和票房预测相关技术。近几年来基于自然语言处理技术开发的应用层出不穷[30-38],总的来看在应用方面比较关键的技术有分词、命名实体识别、依存句法分析这三类吗,在此课题中,有关自然语言处理的部分也是用到这三类技术。分词就是把连续的中文文字序列分解成以中文单词为单位的的词序列的过程。汉语不同于英语是以空格为单词的分隔符,汉语的句子是由连续的汉字组成,要想让机器理解人类的自然语言,首先也是必要的就是把句子进行分词。目前,中文分词算法大概分为两大类,一类是基于字符串匹配的,主要是通过扫描待分词字符串与词典中定义的词语进行匹配,如果词典中包含这个单词则进行标注。这类方法速度较快,但是处理词典中未出现的词效果不好;第二类是基于统计和机器学习的分词方式,使用这类分词方法要把中文句子作为输入数据进行建模,用一部分已经人工标注好的数据来训练模型,在使用模型进行分词时,模型会计算出各种分词结果出现的概率,并把概率最大的分词结果输出,常见的方法有 CRF 和 N 最短路径分词法,在处理歧义和词典未登记词时,此类分词方法要比上一类分词效果更好。命名实体识别是自然语言处理过程中的所要完成的一项重要环节,其目的是识别出输入语料中的人名、地名、组织机构名等命名实体,由于这些命名实体会随着时间的推移而一直增加,通常不可能在词典中穷举所有的命名实体,所以通常把对这些词的在分词的过程中单独处理。命名实体识别主要有两类方法,一类是基于词典的,简单来说就是词典里有的就可以识别,词典没有的就无法识别。第二类就是基于统计和机器学习的方法,这类方法的难点是输入特征的选取,缺点是在训练时时间开销比较大,但在完成训练后对命名实体识别具有很好的效果。
........
第 3 章 电影拍摄风险预测系统的总体设计............19
3.1 系统架构设计 .....19
3.2 系统的功能结构设计 ............20
3.3 系统的包和类的设计 ............22
3.4 系统的数据库设计 .......24
3.5 本章小结.....30
第 4 章 电影拍摄风险预测系统的详细设计与实现 .........31
4.1 票房预测模块详细设计与实现 .....31
4.2 剧本拍摄风险预测模块的设计与实现............36
4.2.1 剧本拍摄风险预测算法设计............36
4.2.2 剧本拍摄风险预测模块的实现........45
4.3 财务监控模块的设计与实现 .........46
4.4 物资监控模块的设计与实现 .........48
4.5 保险业务模块的设计与实现 .........49
4.6 本章小结 ....51
第 5 章 电影拍摄风险预测系统的测试 ..........52
5.1 系统测试环境 .....52
5.2 算法稳定性测试 ..........52
5.3 系统的功能测试 ..........57
5.4 性能测试 ....69
5.5 本章小结 ....71
第5章 电影拍摄风险预测系统的测试
5.1 系统测试环境
系统算法测试是对组成系统功能的关键单元模块进行测试,测试方法使用的是白盒测试,测试工具使用的是 Junit4 单元测试框架,算法测试的目的是验证系统算法单元模块运行的稳定性。票房预测单元测试用于测试在输入电影相关信息后,该单元能否输出电影票房的预测范围,测试的是 PredictService 类中的 getBoxOffice 方法,该方法的输入参数是 8 个 String 类型的变量,返回值也是 String 类型,返回值为“1000 万以下”、“1000 万到 5000 万”、“5000 万到 1 亿”、“1 亿到 5 亿”、“5 亿到 10 亿”、“10 亿以上”中的一个。票房预测单元测试先对 7 个测试用例进行测试,测试getBoxOffice 函数能否正常运行,再对 300 个测试用例进行测试,并对票房预测的准确性进行统计。7 个测试用例如下:剧本拍摄风险预测是一个完整的功能模块,此模块由 ScriptRiskService 类实现,该类中由多个功能函数组成,函数模型已经在第 4 章已经做过详细介绍,此处不再赘述。下面说明各函数是如何进行单元测试。剧本预处理是由 ScriptRiskService 类中 scriptPreprocess 方法完成,该方法的输入是原始剧本,输出是不包含对白并且标点只有逗号和句号的的剧本。

........
结 论
本文对电影拍摄风险预测系统的设计与实现进行了深入的研究,一共完成了五大模块的设计与实现,这五个模块是票房预测模块、剧本拍摄风险预测模块、财务监控模块、物资监控模块、保险业务模块。本文对以往预测算法的进行了充分的研究,通过测试、组合总结了适合项目需求的票房预测算法,解决了票房预测模块的设计难题,同时对自然语言处理技术和相关算法进行了深入的研究,归纳总结出完成剧本拍摄风险预测所使用的技术,以及对部分算法做了适应性的改动,解决了剧本拍摄风险预测算法设计的难题。这篇论文的主要亮点在于完成了票房预测和剧本拍摄风险预测两个关键性难题,同时把对上述两个难题的解决方法应用到在线电影拍摄风险预测系统的设计与实现中去,切实解决了保险公司对电影保险业务实施过程中所遇到的各种问题,系统有很强的应用性。本文主要完成的工作包括:
(1) 通过编写爬虫工具从互联网上获得用于电影票房预测用训练和测试数据,设计出符合系统需求的票房预测算法并使用 Weka 实现了算法,并最终把票房预测模块集成到了电影拍摄风险预测系统中。
(2) 使用分词、命名实体识别、依存文法分析等自然语言处理的相关技术,配合 HanLP 工具设计出剧本拍摄风险预测算法,并把算法应用到预测系统中去,使用户可以通过互联网来调用算法进行剧本拍摄风险预测。
(3) 根据对时下电影保险业务的研究情况,设计并实现了对剧组的人员监控功能模块和物资监控功能模块,满足了保险公司业务员远程监控剧组、一人监控多剧组的迫切需求,极大的提高了保险公司业务员的工作效率。
(4) 系统保险业务模块涵盖了目前保险公司在保险标的出险后的所有业务流程,实现了在线立案、在线派出查勘员、实时查看查勘反馈等一系列功能,进一步满足了保险公司的业务需求。
..........
参考文献(略)
提供海量毕业论文,论文格式,论文格式范文,留学生论文,商务报告相关资料检索服务。